Tetiana Mohorian
rok začiatku štúdia: 2022
Bakalárska práca 2025
- Spolupráca P. Pokrivčák
- Python
- Hate Speech
Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov.
Zadanie:
- Vypracujte prehľad veľkých jazykových modelov s podporou slovenčiny.
- Vypracujte prehľad dostupných textových korpusov pre rozpoznávanie nenávistnej reči.
- Vyberte model a metódu rozpoznávania nenávistnej reči. Vyhodnoťte presnosť rozpoznávania nenávistnej reči na vybranej množine.
- Navrhnite zlepšenia vybranej metódy.
Návrh na tému:
- Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými.
- Aplikujte existujúci model na úlohu detekcie nenávistnej reči.
- Na adaptáciu použite "prompting" a "LORA".
- Vyhodnotte model pomocou overovacej množiny.
Stretnutie 28.3.
Stav:
- Práca na stránke, frontend backend
- Práca na Telegram bot, vyhodnotenie s priateľmi.
- Few Shot Learning: 0.7 F1. Slovak T5-small model.
- Práca na lm-eval-harness, zatiaľ sa to nepodarilo. Task zatiaľ nefunguje, framework funguje.
- Pripravená aj TK Inter aplikácia.
- Pripravte webovú aplikáciu na zverejnenie pomocou Docker.
Úlohy:
- Vedúci môže pomôcť s Task na LM E H - pripomente mi to ďalší týždeň.
- Využite iný model. Napr. Slovak T5 large alebo base. Alebo Slovak MIstral.
- Updatujte kódy na GITE.
- Do práce môžete dať screenshoty z Vašej aplikácie
Zásobník úloh:
- Zverejnite Vašu aplikáciu napr. pomocou TUKE Cloud.
Stretnutie 13.2.2025
Stav:
- Dotrénovaný t5 small na HS
- Vyhodnotené viaceré modely pre úlohu detekcie HS
- Navrhnutý prompt.
- Práca web. deme. Funguje frontend (react), zatiaľ nefunguje backend (django).
- Práca na telegram bote - upozornenie diskutujúcich na "nevhodné" výrazy.
- Práca na texte.
Úlohy:
- Pokračujte v písaní. Je potrebné zlepšiť jazyk, vyradiť príliš všeobecné časti, pridať odkazy na odbornú literatúru, zrozumiteľne opísať experimenty a výsledky.
- Pripravte experiment s "few shot" a veľkým jazykovým modelom. Môžete použiť lm-eval-harness.
- Skripty dajte na kemt git.
Zásobník úloh:
- Pripravte DEMO s pomocou Docker.
Stretnutie 12.11.2024
Stav:
- Vyskúšané few shot Distillbert, BERT, GPT3, T5, najlepšie výsledky mal DistillBERT : 65F1. Problém je, že tieto modely nevedia po slovensky.
- Na vyhodnotenie použitý svoj skript a framework llm-eval-harness.
- Pokračuje písanie.
Úlohy:
- [x] Pošlite mi draft BP na ďalšie stretnutie.
- [x] Urobte si repozitár na KEMT GIT a dajte tam zdrojové kódy na spustenie experimentov.
- [x] Pokračujte v písaní.
- [-] Vyskúšajte vyhodnotiť modely v rôznych veľkostiach (small, base, large, 1B, 3B, 7B): mt5, slovak-t5-base, slovak-t5-small, Qwen2.5, Slovak Mistral, LLama3, SlovakBERT .
- [x] Napíšte ChatGPT prompt na detekciu nenávistnej reči.
- Ak Vám nebude stačiť GPU Vášho počítača, vedúci Vám pridelí prístup na školský server alebo môžete vyskúšať Google Colab.
Zásobník úloh:
- [x] Zistite čo je to PEFT a kvantizácia a ako sa to používa.
- [x] Dotrénujte jazykový model pre rozponávanie HS pomocou metódy PEFT.
Stretnutie 18.10.2024
Stav:
- Urobené 3 prehľadové tabuľky s modelmi - architektúra, presnosť, multilinguaglita.
- Pozretá kniha DDIP3 a d2dl. Poznámky na 20 strán.
- Nainštalovaná OLLama, Transformers, vyskúšaný Mistral.
- Urobené všetko.
Úlohy:
- Pokračujte v písaní bakalárskej práce. Postupujte od definície úlohy, prehľad súčasného stavu, Vaše riešenie, experimenty a závery. Používajte odkazy na odbornú literatúru (vedecké články cez Google Scholar).
- Navrhnite promt (može byť aj viac rôznych) pre veľký jazykový model pre detekciu nenávistnej reči.
- Pomocou množiny vyhodnotte model pre detekciu HS v zero shot alebo v few shot scenári. Na vyhodnotenie použite metriku Precision-Recall-F1.
- Oboznámte sa ako funguje overenie veľkých jazykových modelov pomocu Eleuther lm-evaluation-harness.
Zásobník úloh:
- [ ] Dotrénujte vybrané modely na úlohu detekcie nenávistnej reči. Model bude vykonávať binárnu klasifikáciu.
- [x] Pripravte skript pre overenie LLM na úlohe rozpoznávanie nenávistnej reči. Pripravte postup pre overenie pomocu existujúceho frameworku pre overenie.
Stretnutie 3.10.2024
Úlohy:
- [x] Oboznámte sa s existujúcimi veľkými jazykovými modelmi - uzatvorenými aj otvorenými. Urobte si poznámky a napíšte prehľad.
- [x] Prejdite si knihu Dive Deep into Python 3.
- [x] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.
- [x] Zistite čo je to "prompting", a "few shot learning". Napíšte si poznámky.
- [x] Oboznámte sa s OPEN AI Python API.
- [x] Nainštalujte si prostredie Anaconda.
- [x] Nainštalujte si Pytorch, a huggingface transformers a oboznámte sa ako funguje táto knižnica.
- [x] Nainštalujte si prostredie OLLAMA a vyskúšajte lokálne jazykové modely
Zásobník úloh:
- [x] Nainštalujte si knižnicu LangChain a pozrite si ako fungujú ChatModely