Patrik Pokrivčák

February 7, 2025 Daniel Hladek dp2025 2 minutes, 5 seconds

nlp, hate

rok začiatku štúdia: 2019

Diplomová práca

Téma:

Rozpoznávanie nenávistnej reči pomocou veľkých jazykových modelov

Zadanie:

Vypracujte prehľad veľkých jazykových modelov s podporou slovenčiny.
Vypracujte prehľad metód rozpoznávania nenávistnej reči pomocou veľkých jazykových modelov.
Vyberte vhodnú dátovú množinu pre rozpoznávanie nenávistnej reči a pomocou nej vhodnou metrikou porovnajte viacero jazykových modelov pre úlohu rozpoznávania nenávistnej reči.
Vyhodnoťte experimenty a navrhnite zlepšenia rozpoznávania.

Cieľe:

Naučiť sa rozpoznávať nenávistnú reči HS pomocou LLM - lokálnych alebo komerčných.
Zlepšiť chopnosti LLM pre rozpoznávanie HS - dotrénovaním alebo promptingom.
Vytvoriť demo
Výsledky prezentovať na konferencii - alebo článku.

Nápad:

Súvisiaca téma:

Stretnutie 15.10.

Stav:

Úlohy:

Navrhnite prompt na klasifikáciu nenávistnej reči a vyhodnotte, aký presný je model na množine https://huggingface.co/datasets/TUKE-KEMT/hate_speech_slovak. Vyskúšajte viac modelov. Vyskúšajte aj https://huggingface.co/slovak-nlp/mistral-sk-7b
Pokračujte v písaní DP. Použite odkazy na odborné články,

Zásobník úloh:

Stretnutie 10.5.2024

Stav:

Úlohy:

Pokračovať v otvorených úlohách a štúdiu.
[ ] Zistite čo je to SentenceTransformer. Prejdite si tutoriál https://sbert.net/docs/usage/semantic_textual_similarity.html Ako model použite multilingual e5 base alebo slovakbert-mnlr.
Prečítajte si niekoľko vedeckých článkov o klasifikácii HS, poznačte si ich informácie a urobte si poznámky. Na vyhľadanie článkov použite google scholar.

Zásobník úloh:

Vyskúšajte Ollama a niekoľko jazykových modelov (LLAMA3, mistral, ) pre few-shot rozpoznávanie HS.
Dotrénujte embedding model na HS detection
Pripravte dáta na vyhodnotenie few shot klasifikácie.

Stretnutie 5.4.

Stav:

Úlohy:

[x] Pokračujte v štúdiu neurónových sietí a klasifikácie nenávsistnej reči podľa otvorených úloh. Píšte si poznámky.
[-] Zistite, ako pracuje model GPT. Zistite čo je to prompting. Navrhnite "prompt" pre ChatGPT ktorý by klasifikoval nenávistnú reč.
[x] Oboznámte sa s knižnicou HF transformers. Nainštalujte si ju. Prejdite si jeden alebo 2 tutoriály.
[ ] Zistite ako funguje "few shot" alebo "zero shot" learning s GPT modelom. Vyskúšajte si to z HF Transformers. napr. https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api

Stretnutie 15.2.

Úlohy:

[x] Nainštalujte si prostredie Anaconda. Naučiť sa lepšie programovať v jazyku Python.
[x] Prečítajte si Dive into Python 3.
[x] Priečítajte si Dive into Deep learning.
[x] Zistite si čo je to nenávistná reč a ako sa rozpoznáva pomocou neurónových sietí. Napíšte si o tom poznámky na dve strany.
[-] Zistite, aké existujú veľké jazykové modely a ako pracujú. Napíšte o tom poznámky na 2 strany.