Matej Novotný

January 28, 2026 Daniel Hladek dp2026 4 minutes, 10 seconds

nlp

Edit this Page

rok začiatku štúdia: 2021

Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie

Repo https://git.kemt.fei.tuke.sk/mn180gd/diplomovka

Zadanie:

Vypracujte prehľad súčasných prístupov a nástrojov na klasifikáciu webových dát podľa typu a na detekciu nenávistného obsahu.
Navrhnite a implementujte systém, ktorý automaticky roztriedi webové texty podľa uvedených typov a domén a zároveň vyhodnotí ich úroveň nenávisti.
Zostavte kvalitný všeobecný a tematický korpus vhodný na trénovanie jazykového modelu.
Štatisticky analyzujte výskyt jednotlivých kategórií textov a výskyt potenciálneho nenávistného obsahu.
Slovne vyhodnoťte navrhnutý systém a navrhnite ďalšie zlepšenia pre zvýšenie kvality trénovacích dát.

Po trénovaní modelu ho otestujte na relevantných úlohách, vyhodnoťte vplyv klasifikácie a kvality dát na výkonnosť modelu, identifikujte slabé miesta (napr. nedostatočná reprezentatívnosť domén alebo nepresná detekcia nenávisti) a navrhnite konkrétne opatrenia na ich odstránenie.

Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.

Trénovacie dáta zotriedime podľa druhu (blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama). Druhy textu vyjadrujú kvalitu. Mozeme identifikovat aj domenu (zdravie, pravo, architektura, auta, ). Na to využijeme alebo natrénujeme model. Môžeme vyhodnotiť aj mieru nenávisti v danom texte.
Pomocou informacie o texte vieme zostaviť kvalitný všeobecný alebo tematický korpus. Je možné využiť HPC Devana.
Z týchto textov chceme natrénovať alebo dotrénovať jazykový model.

Stretnutie 28.1.2026

Stav:

Skript na vyhodnotenie hatespeech a klasifikáciu dát je pripravený.
Overenie - sklep dataset a mc4.
Slovak bert je fine tune.
klasifikovanie do: blogy, eshopy, wikipedia, tematicka stranka, diskusie,kniha, clanok,správy
Trénovanie na colab.

Úlohy:

Pridajte kategeóriu iné.
Dotrénujte klasifikátory. Vyhodnotte ich na testovascej množine. Dáta s príkladmi by mali byť rozdelené na térnovanie a testovacie.
Výsledky experimentov dajte do tabuľky. Do práce napíšte trénovací postup aj hyperarametre.
Aplikujte klasifikáciu na webový korpus. Štatistické výsledky dajte do tabuľky.
V teoretickej časti vysvetlite Váš postup a porovnajte ho s inými prístupmi, napr. hplt alebo dolma dataset.
Pripravte prezentáciu

Stretnutie 13.11.2025

Pripravený skript pre rozponávanie nenávisti. Pomocou HF transformers model. Natrénovaný vlastný model na kaggle. Treba na tom ešte pracovať. Založený run_classification z HF transformers examples.

Úlohy:

Dajte skripty na kemt git
Pripravte sadu vzorových url ktoré budú reprezentovať kategórie ktoré nás zaujímajú: blogy, eshopy, wikipedia, tematicka stranka, diskusie, kniha, clanok,reklama, organizácia, pornografia, správy. Z url získajte texty, každý text bude patriť do kategórie. Množinu rozdelte na trénovaciu a testovaciu. Zabezpečte aby materiály z jedného zdroja neboli v oboch naraz.
Na sade natrénujte a vyhodnotte klasifikátor.
Pokračujte v práci na texte.

Zásobník úloh:

Pomocou klasifikátorov analyzujte dostupné slovenské dáta.
Overte či je zoznam kategórií správny.
Ak bude bert klasifikátor pomalý, vyskúšajte štatistické metódy z NLTK.

Stretnutie 9.10.2025

Stav:

HF transformers tutoriály na tokenizáciu.
spísané poznámky - LLM a tokenizácia (2 PDF z google scholar)
stiahnuté nejaké články v wikipédie a vyskúšaný klasifikačný skript.
vytvorený prístup na novotny@titan.kemt.fei.tuke.sk . Používajte adresár /mnt/sharedhome/novotny

Úlohy:

Oboznámte sa so skriptami a dátami v /mnt/sharedhome/hladek/bert-train corpus3, slavic1
Vytvorte skript pre rozpoznávanie nenávisti v texte. Cieľom je vytvoriť korpus bez "nenávistného" textu. Zistite, koľko nenávistných textov je vo webových korpusoch.
Ak je to potrebné, natrénujte model pre ropoznávanie slovenského nenávistného textu. Použite skript pre klasifikáciu a dáta z https://huggingface.co/TUKE-KEMT - senti-sk, toxic-sk a hate_speech_slovak.
Píšte si poznámku.

Zásobník úloh:

Oboznámte sa s algoritmami v https://www.nltk.org/book/ch06.html
Zistite, či sa nená nenávisť klasifikovať aj nejakou jednoduchšou metódou (bayes, ME) a porovnajte.
Vytvorte model pre klasifikáciu druhu alebo témy textu.

Úlohy:

Pošlite mi poznámky z DP v 6. týždni.
Kódy z DP dávajte na katedrový GIT.
Naučte sa pracovať s tmux alebo screen

Stretnutie 4.6.2025

Stav:

naštudovaná klasifikácia pomocou Transformer.
preskúmany mc4 dataset.

Úloha:

naučiť sa pracovať s HF Transformers. Prejdite si tutoriál na klasifikáciu dokumentov. Pozrite sa do adresára na githube examples/pytorch/classification, tam nájdete skripty pre klasifikáciu.
Oboznámte sa s existujúcimi modelmi pre klasifikáciu textu (nenávisť, téma, druh ...).
Napísať skript, ktorý nám toho povie veľa o neznámom texte - druh, téma, nenávisť. Cieľ je aby klasifikácia prebiehala rýchlo pretože textu je veľa. Bude treba odhadnúť, koľko času budeme potrebovať na spracovanie veľkého možstva textu - počet kilobajtov za sekundu.

Stretnutie:

Úlohy:

Naučte sa Python. Nainštalujte si prostredie Anaconda.
Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
Zistite čo je to jazykový model a urobte si poznámky.
Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
Zistite, čo je to korpus textov mc4.
Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.

Zásobník úloh:

Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
Natrénujte neurónovú sieť pre rozlišovanie druhov textov.

Stretnutie 28.3.2025

Stav:

Naštudovaný Python, neurónové siete čiastočne.

Úlohy:

Pozrite si dataset https://huggingface.co/datasets/allenai/c4
Pozite si knihu https://d2l.ai/
Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.

Zásobník úloh:

definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,

Matej Novotný

Diplomová práca 2026

Obsah

Categories

Popular Articles