Márk Fehér

March 18, 2022 Daniel Hladek dp2022 2 minutes, 8 seconds

Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

  1. Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
  2. Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
  3. Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
  4. Navrhnite zlepšenia presnosti klasifikácie textu.

18.3.

  • Práca na texte pokračuje
  • Podarilo sa spustiť finetning huggingface glue s scnc datasetom.

Úlohy:

  • Pokračovať v texte.
  • LSTM trénovanie urobené, výsledky sú v práci.
  • Pokúsiť sa urobiť dataset interface na vlastné dáta.

4.3.2022

  • Stretnutie bolo aj minulý týždeň.
  • LSTM trénovanie beží (skoro ukončené).
  • SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
  • Práca na texte pokračuje.
  • Vedúcim dodaný skript na scnc datasets rozhranie
  • Vedúcim dodaný skript na trénovanie run_glue.py
  • Dodaný skript na inštaláciu pytorch a cuda 11.3

Úlohy:

  • Práca na texte - sumarizácia experimentov do tabuľky
  • Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
  • Na trénovanie na pozadí použiť tmux a -t 0.

Diplomový projekt 2021

Stretnutie 3.12.

  • Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
  • Rozpracovaná klasifikácia LSTM (Keras).

Úlohy:

  • Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
  • dokončiť LSTM.
  • Pokračovať na textovej časti.
  • Zobrazte aj F1

Stretnutie 5.11.2021

  • Práca na texte, štúdium literatúry
  • pridané kódy na GIT

Úlohy:

  • Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
  • Pokračujte v otvorených úlohách
  • Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.

Stretnutie 15.10.

  • trénovanie pomocou LSTM, zatiaľ nie je na gite
  • písanie do šabóny práce (cca 35 strán).

Úlohy:

  • Doplniť na GIT.
  • Zabrániť overfittingu LSTM. Early stopping alebo dropout.

Stretnutie 1.10.

Stav:

  • modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
  • Vytvorený GIT repozitár
  • Práca na text (cca 22 strán)
  • Pridaná referenčná literatúra.

Úlohy:

  • [x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
  • [x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
  • [x] Zoznam knižníc zapíšte do súboru requirements.txt.
  • Alebo zapíšte zoznam conda balíčkov.
  • Vyberte jednu úlohu zo zásobníka a vypracujte ju.

Zásobník úloh:

  • Vyskúšajte klasifikáciu pomocou neurónových sietí.
  • Vytvorte web demo pomocou Docker
  • [x] Skúste klasifikáciu pomocou neurónovej siete.

Stretnutie 23.9.

Stav:

  • vypracovaný draft diplomovej práce
  • pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
  • vypracované experimenty pomocou scikit-learn na klasifikátoroch:
    • multinomial Bayes
    • random forest
    • support vector machine
    • Stochastic Gradient Descent Classifier
    • k-neighbours
    • decision tree
  • vypracované vyhodnotenie pomocou konfúznej matice,

Ciele na ďalšie stretnutie:

  • Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
  • Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.