Márk Fehér

March 18, 2022 Daniel Hladek dp2022 2 minutes, 8 seconds

scikit, nlp, klasifikácia

Edit this Page

Diplomová práca 2022

Názov diplomovej práce: Klasifikácia textu metódami strojového učenia

GIT repozitár

Návrh na zadanie DP

Vypracujte prehľad metód klasifikácie textu metódami strojového učenia.
Pripravte slovenské trénovacie dáta vo vhodnom formáte a natrénujte viacero modelov pre klasifikáciu textu do viacerých kategórií
Navrhnite, vykonajte a vyhodnoťte experimenty pre porovnanie presnosti klasifikácie textu.
Navrhnite zlepšenia presnosti klasifikácie textu.

18.3.

Práca na texte pokračuje
Podarilo sa spustiť finetning huggingface glue s scnc datasetom.

Úlohy:

Pokračovať v texte.
LSTM trénovanie urobené, výsledky sú v práci.
Pokúsiť sa urobiť dataset interface na vlastné dáta.

4.3.2022

Stretnutie bolo aj minulý týždeň.
LSTM trénovanie beží (skoro ukončené).
SlovakBert na colab prvé výsledky cca 65 percent na scnc (asi tam je chyba).
Práca na texte pokračuje.
Vedúcim dodaný skript na scnc datasets rozhranie
Vedúcim dodaný skript na trénovanie run_glue.py
Dodaný skript na inštaláciu pytorch a cuda 11.3

Úlohy:

Práca na texte - sumarizácia experimentov do tabuľky
Vyskúšať dotrénovanie na idoc pomocou dodaných skriptov.
Na trénovanie na pozadí použiť tmux a -t 0.

Diplomový projekt 2021

Stretnutie 3.12.

Dopracované vyhodnotenie pomocou SCNC. Výsledkom je konfúzna matica a grafy presnosti so štatistickými modelmi.
Rozpracovaná klasifikácia LSTM (Keras).

Úlohy:

Pridať klasifikáciu pomocou Huggingface Transformers, model SlovakBert, multilingualBert, alebo aj iné multilinguálne modely.
dokončiť LSTM.
Pokračovať na textovej časti.
Zobrazte aj F1

Stretnutie 5.11.2021

Práca na texte, štúdium literatúry
pridané kódy na GIT

Úlohy:

Zopakujte experimenty na korpuse scnc. Slovak Categorized News Corpus.
Pokračujte v otvorených úlohách
Upravte skripty do opakovateľnej podoby, pripravte dokumentáciu k skriptom.

Stretnutie 15.10.

trénovanie pomocou LSTM, zatiaľ nie je na gite
písanie do šabóny práce (cca 35 strán).

Úlohy:

Doplniť na GIT.
Zabrániť overfittingu LSTM. Early stopping alebo dropout.

Stretnutie 1.10.

Stav:

modifikácia trénovacích skriptov na vypisovanie pomocných štatistík.
Vytvorený GIT repozitár
Práca na text (cca 22 strán)
Pridaná referenčná literatúra.

Úlohy:

[x] Stiahnite si šablónu práce a vložte text čo máte pripravené, vrátane bibliografie.
[x] Doplňte zdrojové kódy na GITe, tak aby boli opakovateľné.
[x] Zoznam knižníc zapíšte do súboru requirements.txt.
Alebo zapíšte zoznam conda balíčkov.
Vyberte jednu úlohu zo zásobníka a vypracujte ju.

Zásobník úloh:

Vyskúšajte klasifikáciu pomocou neurónových sietí.
Vytvorte web demo pomocou Docker
[x] Skúste klasifikáciu pomocou neurónovej siete.

Stretnutie 23.9.

Stav:

vypracovaný draft diplomovej práce
pripravené dáta z BeautifulSoup - z rôznych webov (sme.sk)
vypracované experimenty pomocou scikit-learn na klasifikátoroch:
- multinomial Bayes
- random forest
- support vector machine
- Stochastic Gradient Descent Classifier
- k-neighbours
- decision tree
vypracované vyhodnotenie pomocou konfúznej matice,

Ciele na ďalšie stretnutie:

Vytvoríte si repozitár dp2022 na školskom gite, kde dáte dáta, zdrojové kódy aj texty.
Vybrať jeden odborný článok alebo knihu o klasifikácii textu a vypracujte poznámky.

Obsah

Diplomová práca 2022
- Návrh na zadanie DP
- Diplomový projekt 2021

Márk Fehér

Diplomová práca 2022

Návrh na zadanie DP

Diplomový projekt 2021

Obsah

Categories

Popular Articles