Nikita Bodnar

March 27, 2025 Daniel Hladek vp2023, bp2024, bp2025 4 minutes, 8 seconds

chatbot, rasa, dialog, nlp

Edit this Page

rok začiatku štúdia: 2021

Bakalárska práca 2025

Zadanie:

Vypracujte prehľad neurónových sietí a metód na vykonávanie opravy textu.
Vyberte a pripravte slovenské dáta do vhodnej podoby a aplikujte viacero existujúcich modelov na opravu textu.
Číselne a slovne vyhodnoťte modely a navrhnite zlepšenia.

Stretnutie 27.3.

Stav:

Text je v lepšom stave.

Stretnutie 11.3.

Stav:

Vypracované experimenty pre obnovu interpunkcie, zatiaľ na dosť krátkom texte. Výsledky sú v nejakej prezentácii.
Práca na texte BP ???

Úlohy:

Na experimenty použite text z Wikipedia Dejiny Košic https://sk.wikipedia.org/wiki/Dejiny_Ko%C5%A1%C3%ADc
Do práce napíšte, že používate metódu "Zero Shot" - bez dotrénovania. Porovnajte túto metódu sFew Shot a SFT (Supervised Finetuning).
Do prehľadu doplnte odkazy na odborné články - nájdete ich na Google Scholar.
Čím skôr odovzdajte text BP pre získanie spätnej väzby
Nové Kódy pre experimenty nahrajte na GIT.

Stretnutie:

Stav:

Vybratá množina c4
Vyhodnotenie SlovakBERT, mBERT a Roberta Base pre EN.
Naprogramované úloha doplnenie interpunkcie. Kódy sú na GITE.

Úlohy:

[ ] Vyberte slovenské texty z množiny mC4. Na vybranom texte zopakujte experimenty.
[x] Doplnte ďalšie modely typu BERT s podporou slovenčiny. Modely vo veľkosti BASE: Fernet, HPLT, xlm-r, mdeberta, distilmbert
[x] Vypracujte tabuľky s výsledkami experimentov.
[-] Do práce opíšte experimenty.

Zásobník úloh:

Vypracujte experimenty pre modely Byt5 a slovak t5.

Poznámky 21.1.2025

Stav:

Napísané skripty pre vyhodnotenie "masked" language modeling.
Vyhodnotené modely SlovakBERT a multilingualbert BASE.

Úlohy:

[x] Vyberte vhodnú množinu slovenských textov.
[-] Pripravte množinu pre úlohu detekcie chýbajúcej alebo nadbytočnej interpunkcie - (bodka, čiarka, otáznik, výkričník, dvojbodka).
[-] Pripravte množinu pre pre úlohu opravy od identifikovaného preklepu.
[-] Vyhodnotte viaceré modely.
[ ] Pokračujte v písaní práce podľa nového zadania.

Zásobník úloh:

Využite modely SlovakT5 a ByT5.

Stretnutie 17.12.

Stav:

Práca na skriptoch, nainštalovaný Pytorch, transformers, fairseq,
Skript na prípravu dát - spustený.
chyba pri spustení trénovacieho skriptu - chýba executable.

Úlohy:

Začnite pracovať na písomnej časti.
Nainštalujte si Marian NMT.
Vypýtajte si Marian Model na opravu od Ing. Maroš Harahus.
Vyskúšajte ho a vyhodnotte pomocou metriky WER. Zistite si čo je to WER, napíšte to do práce
Nainštalujte si model ByT5 z knižnice HF Transformers. Zistie čo to je, napíšte to do práce.
Vyskúšajte model ByT5 na korekciu textu. Vyhodnoote ho.
Vyskúšajte model SlovakBERT na detekciu preklepov. Model určuje pravdepodobnosť každého slova vo vete. Model vie doplniť chýbajúce slovo, alebo najpravdepodobnejšie slovo. Zistite že ako, napíšte to do práce.
Do práce doplnte odkazy na vedecké články.

Zásobník úloh:

Natrénujte model.

Stav:

Nainštalovaný MarianMT a rozbehaný preklad z nemčiny do angličtiny.
Textová časť je neuspokojivá.

Úlohy:

Naučte sa trénovať systém pre strojový preklad.
Vytvorte korpus pre trénovanie systému na opravu textu. Korpus vytvoríte z webového textu (mc4-sk) do ktorého programovo pridáte chyby. Text korpusu mc4 nájdete na HuggingFace Hube. Knižnica datasets slúži na prácu s korpusmi. Korpus musí byť "dostatočne" (viac ako 1GB) veľký.
Natrénujte a vyhodnotte model.
Píšte BP do šablóny podľa pokynov. Prečítajte si odborné články a používajte odkazy. Odborné články nájdete na Google Scholar.

Bakalárska práca 2024

Korekcia textu pomocou neurónových sietí

Spolupráca: Maroš Harahus, Andrii Pervashov

Zadanie BP:

Vypracujte prehľad existujúcich systémov pre neurónový strojový preklad.
Definujte úlohu korekcie textu a vysvetlite, ako je možné ju riešiť pomocou systému pre strojový preklad.
Vyberte a pripravte dáta do vhodnej podoby a aplikujte existujúci model pre strojový preklad na opravu textu vo vybranej úlohe.
Číselne a slovne vyhodnoťte model na vybranej úlohe. Identifikujte jeho slabé miesta a navrhnite zlepšenia.

Stretnutie 24.1.2024:

Stav:

Nie je posun.

Úlohy:

Natrénujte jednoduchý ľubovoľný model pre strojový preklad pomocou Marian NMT. Skripty su v repozitári bert-train.
Natrénujte model pre opravu korekcie na slovenskom texte a vyhodnoote ho.
Pokračujte v písaní bakalárskej práce.

Stretnutie 23.11.2023

Stav:

Prečítaný článok o Spelling a urobené poznámky
Ostatné úlohy: in progress. Treba pridať!!!

Úlohy:

Vedúcim bol odovzdaný funkčný Marian na servri IDOC. Aj model pre generovanie-opravu znakov. Oboznámte sa so systémov. Spustite model pre preklad. Spustite trénovanie.
Vyhodnotte presnosť tohoto systému. Presnosť sa hodnotí metrikou WER, CER. Skripty nájdete v bert-train repozitári.
Zlepšite tento systém.
V texte vysvetlite, ako funguje model typu Transformer. Vysvetlite, ako funguje Marian NMT. Aké neurónové siete používa? Uvedte aj odkazy na odborné články.

Stretnutie 6.10.

Stav:

Štúdium Python a neurónové siete.

Stretnutie 3.7.

Stav:

Existuje model Marian NMT rep korekciu.

Úloha:

[-] Zistite ako funguje neurónová sieť typu Transformer.
[x] Nainštalujte si systém Anaconda a prejdite si knihu Dive into Pyhton 3.
[ ] Zistite ako funguje strojový preklad.
[x] Prečítajte si článok Hládek: "Survey of Automatic Spelling Correction" a urobte si poznámky.
[-] Prečítajte si knihu https://d2l.ai/
[ ] Vaše zistenia zapíšte do textového súboru. Pridajte odkazy na zdroje - odborné články a blogy.
[ ] Oboznámiť sa zo systémom Marian NMT. Nainštalujte si to a vyskúšajte nejaké demo na strojový preklad.
[ ] Získajte prístup na školský server idoc.

Zásobník úloh:

Vyskúšaje natrénovať model Marian NMT podľa návodu na stránke.
Získajte od vedúceho skripty pre trénovanie Marian NMT na úlohu korekcie textu.
Podľa nich natrénujte a vyhodnotte model.
Zistite s akými parametrami model pracuje najlepšie. Skúste model vylepšiť.
Vypracujte webové demo.

Nikita Bodnar

Bakalárska práca 2025

Bakalárska práca 2024

Obsah

Categories

Popular Articles