Serhii Yemets

March 28, 2025 Daniel Hladek bp2025 3 minutes, 9 seconds

ner, nlp

Edit this Page

rok začiatku štúdia: 2022

Bakalárska práca 2025

Cieľ:

Zlepšenie slovenského modelu pre rozpoznávanie pomenovaných entít.

Do budúcnosti:

Vypracovanie webového dema
Využitie modelu v nejakej zaujímavej úlohe (chatbot alebo právne texty).

Návrh na zadanie bakalárskej práce:

Napíšte prehľad neurónových modelov vhodných pre rozpoznávanie pomenovaných entít v slovenskom jazku.
Napíšte prehľad existujúcich dátových množín, vhodných na trénovanie modelu pre rozpoznávanie pomenovaných entít.
Vyberte vhodný model, dátovú množinu a natrénujte a vyhodnoťte model.
Vytvorte webové demo pre rozpoznávanie pomenovaných entít.
Identifikujte spôsoby možného zlepšenia natrénovaného modelu pre rozpoznávanie pomenovaných entít.

Stretnutie 28.3.2025

Stav:

spojené datasety: wikiann a conll2003. Pomohlo to. Dosiahli sme 0.9 na SLovak BERT.

Úlohy:

Skúste zlepšiť model.
Zverejniť model. V spolupráci s vedúcim. Ku modelu pripravte krátky opis ako bol trénovaný a aké výsledky dosiahol.
Definujte a zlepšite štruktúru práce. Práca postuypuije od všeobecného ku konkrétnemu. Kapitoly by mali byť konzistentné s názvom. Prezentujte ako ste splnili zadanie. Zlepšite jazykovú úroveň práce. Dôsledne používajte jednotnú terminológiu.

Zásobník úloh:

Pridajte ďalšie dáta a pretrénujte model. V prípade potreby dostanete prístup na školský server.

Stretnutie 21.3.2025

Stav:

Zlepšenie procesu trénovania modelu - viac epoch, použitie LORA.
Použitie SlovakBERT a WikiANN dataset.
Urobené Web DEMO.
Text nie je pokrok.

Úlohy:

Zdrojové texty pre trénovnanie a pre demo dajte na KEMT GIT.
Zlepšite výsledky trénovania. Skúste iné parametre LR. Skúste inú dátovú množinu. Skúste spojiť viaceré dátové množiny do jednej.
Porovnajte viacero modelov. ModernBERT, mbert, hplt bert base, slovak roberta, Výsledky dajte do tabuľky. Opíšte postup experimentov.
Pracujte na texte, hlavne na praktickej časti.

Zásobník úloh:

Vyskúšajte generatívne modely Slovak T5 base, Slovak Mistral 7B.

Stretnutie 20.12.2024

Stav:

Splnené úlohy z posledného stetnutia
Text je v dobrom stave, treba ešte použiť šablónu.

Úlohy:

Pripravte si prezentáciu.
Textu dajte na moodle, skripty dajte na git.
Pokračujte v písaní. Doplňte časť o spôsobe anotovania NER - značkovanie BIO (beginning, inside, outside) alebo iné. Doplôte časť o vyhodnotení - precision,recall, F1. Doplňte odkazy na dátové množiny. Používajte odkazy na vedecké články.
Zlepšite presnosť Vášho modelu. Do BP napíšte priebeh trénovania a vyhodnotenia. Výsledky experimenotv zapíšte do tabuľky.

Zásobník úloh:

Zostavte webové demo
Pripravte experiment pre ukrajinský a ruský jazyk.
Priprave Dockerfile pre Vaše demo
Vytvorte dátovú množinu spojením viacerých existujúcich množin do jednej. Vedúci Vám dá nejaké skripty.

Stretnutie 30.10.2024

Stav:

Napísané texty o NE.
Vyskúšané a naštudované veci podľa pokynov,
Začiatok práce na webovom deme.

Úlohy:

[x] Naštudujte korpusy s NER pre slovenský jazyk. Napíšte ich zoznam. Ku každému napíšte veľkosť (počet viet, slov) a druhy pomenovaných entít.
[x] Najprv budeme pracovať s ručne anotovanými dátami. Použite ich na natrénovanie modelu typu BERT (napr. SlovakBER alebo mbert) a vyhodnotte ich presnosť. Na trénovanie použite Spacy alebo Transformers.
[x] Pokračujte v písaní BP. Stručne (max. 1.5 strany) vysvetlite ako funguje transformer. Na google scholar nájdite vedecké články o NER a napíšte čo ste sa z nich dozvedeli. Aké majú výsledky a aké metódy používaju?
[x] Prejdite si tutoriál https://huggingface.co/docs/transformers/en/tasks/token_classification

Zásobník úloh:

Natrénujte nový Spacy NER model ktorý by bol lepší ako pôvodný.
Spojte viacero dátových množin (manuálne anotovaných) do jednej a použite je na natrénovanie modelu.
Použite veľký jazykový model pre NER anotáciu a porovnajte ho s menším dotrénovaným NER modelom.
Vykonané experimenty slovne opíšte a výsledky zapíšte do tabuliek. Výsledky slovne okomentujte.

Stretnutie 20.5.20204

Úlohy:

[x] Zistite čo je to rozpoznávanie pomenovaných entít (named entity recognition) a napíšte o tom správu.
[x] Zopakujte si základy jazyka Python "Dive into Python 3". Nainštalujte si prostredie Anaconda.
[x] Oboznámte sa s knižnicou Spacy a vyskúšajte si skripty v https://github.com/hladek/spacy-skmodel
[x] Nainštalujte si knižnicu Huggingface Transformers. Oboznámte sa s ňou. Zistite, ako sa trénuje model NER pomocou takejto knižnice.
[x] Zistite, aké modely a jazykové zdroje sú dostupné pre túto úlohy pre slovenský jazyk https://github.com/slovak-nlp/resources

Zásobník úloh:

Pripravte viacero korpusov pre NER. Môžu byť aj viacjazyčné.
Natrénujte model Huggingface pre NER

Obsah

Bakalárska práca 2025

Serhii Yemets

Bakalárska práca 2025

Obsah

Categories

Popular Articles