Serhii Yemets
rok začiatku štúdia: 2022
Bakalárska práca 2025
Cieľ:
- Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.
Do budúcnosti:
- Vypracovanie webového dema
- Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).
Návrh na zadanie bakalárskej práce:
- Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
- Napíšte prehľad existujúcich dátových množín, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
- Vyberte vhodný model, dátovú množinu a natrénujte a vyhodnoťte model.
- Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
- Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.
Stretnutie 28.3.2025
Stav:
- spojené datasety: wikiann a conll2003. Pomohlo to. Dosiahli sme 0.9 na SLovak BERT.
Úlohy:
- Skúste zlepšiť model.
- Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol.
- Definujte a zlepšite štruktúru práce. Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.
Zásobník úloh:
- Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server.
Stretnutie 21.3.2025
Stav:
- Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA.
- Použitie SlovakBERT a WikiANN dataset.
- Urobené Web DEMO.
- Text nie je pokrok.
Úlohy:
- Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT.
- Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej.
- Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimentov.
- Pracujte na texte, hlavne na praktickej časti.
Zásobník úloh:
- Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B.
Stretnutie 20.12.2024
Stav:
- Splnené úlohy z posledného stetnutia
- Text je v dobrom stave, treba ešte použiť šablónu.
Úlohy:
- Pripravte si prezentáciu.
- Textu dajte na moodle, skripty dajte na git.
- Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články.
- Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.
Zásobník úloh:
- Zostavte webové demo
- Pripravte experiment pre ukrajinský a ruský jazyk.
- Priprave Dockerfile pre Vaše demo
- Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.
Stretnutie 30.10.2024
Stav:
- Napísané texty o NE.
- Vyskúšané a naštudované veci podľa pokynov,
- Začiatok práce na webovom deme.
Úlohy:
- [x] Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
- [x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
- [x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
- [x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification
Zásobník úloh:
- Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
- Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
- Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
- Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte.
Stretnutie 20.5.20204
Úlohy:
- [x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
- [x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
- [x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
- [x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
- [x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources
Zásobník úloh:
- Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
- Natrénujte model Huggingface pre NER