Dávid Omasta

February 9, 2024 Daniel Hladek dp2023, dp2024 4 minutes, 3 seconds
lm

Začiatok štúdia: 2018

Súvisiace stránky:

  • Question Answering - interný projekt
  • Jozef Olekšák
  • Matej Čarňanský (BERT)
  • Ondrej Megela

Diplomová práca 2024

Vedúci: Daniel Hládek

Návrh na názov:

Generatívne modely pre automatické odpovede na otázky v slovenskom jazyku

Návrh na zadanie DP:

  • Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
  • Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
  • Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky v kontexte.
  • Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.

Ciele:

  • Pripraviť demo.
  • Pripravť vedecký článok z DP.

Stretnutie 9.2.2024

Stav:

  • Dotrénovaný mt5-small na poľský jazyk.
  • Práca na texte
  • Urobené demo streamlit a Dockerfile.

Úlohy:

  • Zdrojáky dajte na GIT
  • Pridajte výsledky do tabuľky
  • Pokračujte v práci na texte.
  • Pridajte experimenty s modelom https://huggingface.co/google/umt5-small na slovenský, anglický aj poľský jazyk.

Stretnutie 8.12.

Stav:

  • Urobený Dockerfile a compose.
  • Pridaný experiment s mT5.
  • Práca na teoretickej časti.
  • Vyskúšaná LLAMA na idoc aj mt5-base ale nejde kvôli GPU

Úlohy:

  • Pokračujte v písomnej práci. Výsledky experiemntov opíšte a dajte do tabuliek.
  • Dokončite DEMOZ
  • pre porovnanie, vyskúšajte dotrénovať mt5 na dátovej sade pre iný jazyk. Angličtina - squad, Poľský jazyk clarin-pl/poqaud .

Zásobník úloh:

  • Keď bude k dispozícii, vyskúšajte nový slovenský t5 model.

Stretnutie 10.11

Stav:

  • DP je rozpísaná. Existuje draft.
  • Vypracovaný experiment s Slovak t5 small

Úlohy:

  • [-] Opravte DP podľa pokynov
  • [x] Pridajte experiment s mt5 small .https://huggingface.co/google/mt5-small
  • [-] Pripravte demo na nasadenie. Zmente Windows kontajner na Linux.
  • [x] zdrojáky dajte na kemt GIT

Zásobník úloh:

  • [-] Skúste generovanie odpovedí s modelom LLAMA alebo podobným.
  • [x] Skúste generovanie odpovedí s "base" modelmi na školskom servri.

Stretnutie 6.10

Stav:

  • Práca na Dockerfile so streamlit

Úlohy:

  • Pozrieť a pracovať na minulých otvorených úlohách.
  • Pripraviť draft na prečítanie.

Zásobník úloh:

  • Vyskúšať aj iné generatívne modely a pripraviť z nich experimenty.
  • Pripraviť a vyskúšať aj iné dátové množiny.

Diplomová práca 2023

Téma: Dotrénovanie slovenského generatívneho jazykového modelu.

Vedúci: Ján Staš

Návrh na názov:

Generatívne modely slovenského jazyka

Návrh na zadanie DP:

  • Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov.
  • Vypracujte prehľad slovenských a multilinguálnych generatívnych jazykových modelov.
  • Navrhnite experiment, pri ktorom bude model generovať odpovede na zadané otázky a kontext.
  • Analyzujte výsledky experimentu vhodným spôsobom a identifikujte možné zlepšenia.

Ciele na zimný semester:

Praktické:

  • Rozbehajte proces dotrénovania jazykových modelov pomocou knižnice Huggingface Transformers
  • Vyberte alebo vytvorte vhodnú dátovú množinu ktorá bude obsahovať slovenské dialógu.
  • Vyskúšajte slovenský generatívny model GPT a dotrénujte ho pre použitie v dialógovom systéme.
  • Vytvorte demonštračnú aplikáciu.

Teoretické:

  • Vypracujte prehľad najnovších generatívnych neurónových jazykových modelov (cca 20 strán).
  • Napíšte návod na inštaláciu a návod na použitie skriptov pre dotrénovanie (cca 5 strán).

Stretnutie 25.4.

Stav:

  • Napísaný draft práce
  • Pripravené demo s generovaním otázok pomocou t5, huggingface, streamlit, fastapi.
  • Git je momentálne na https://git.kpi.fei.tuke.sk/do867bc

Úlohy:

  • Pracovať na textovej časti podľa poznámok - zlepšiť text, štruktúru a úpravu.
  • Vytvoriť repozitár na git.kemt.fei.tuke.sk a dajte tam zdrojáky
  • Finalizovať repozitár s demom. Pridajte odkazy na modely, modely nedávajte na GIT. Na git dajte zdrojové kódy v Python a Notebooky. Pridajte README s opisom kódov a návodom na inštaláciu.
  • Skontrolujte výsledky ROUGE, vyzerajú podozrivo.

Zásobník úloh:

  • Vytvorte Dockerfile

Stretnutie 24.2.2023

Stav:

  • Rozbehaný notebook na dotrénovanie slovenského t5 na úlohu generatívneho question answering.

Úlohy:

  • [x] Dajte notebook na GIT
  • [x] Vyhodnnotte presnosť generovania odpovede pomocou P-R-F1 pre celú dev množinu.
  • [-] Pokračujte v písaní textu DP. Opíšte slovenský QA dataset. Slovne opíšte experiment. Aký postup ste použili, aké dáta, aké modely.
  • [x] Zopakujte experiment pre model mt5-small, mt5-base. Výsledky dajte do tabuľky.

Stretnutie 24.11

Stav:

  • nainštalované prostredie na idoc, spustený hf skript run_generation.py
  • prečítané články.

Úlohy:

  • [-] písomne vysvetlite ako funguje neurónová sieť typu Transformer . Uveďte odkazy na odborné články.
  • [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
  • Vyskúšajte tento skript run_clm.py : https://github.com/huggingface/transformers/tree/main/examples/pytorch/language-modeling. Pozrite si príklad na run_mlm.py v repozitári https://git.kemt.fei.tuke.sk/dano/bert-train v adresári hugging/roberta-train
  • Pozrite si tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
  • Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
  • Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
  • Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)

Stretnutie 14.10.

Stav:

  • Na vlastnom počítači rozbehané Anaconda, Pytorch a CUDA.
  • Prečítané články.

Úlohy:

  • Pokračovať.

Stretnutie 7.10.

Stav:

  • Obznámený s Google Colab. Vyskúšané tutoriály BERT text classification,

Úlohy:

  • [-] Prečítajte si ako funguje neurónová sieť typu Transformer a [ ] písomne to vysvetlite. Uveďte odkazy na odborné články.
  • [ ] Písomne vysvetlite, čo to je generatívny jazykový model a ako funguje. Uveďte odkazy na najnovšie články o generatívnych jazykových modeloch - T5, GPT, BART.
  • [x] Nainštalujte si prostredie Anaconda, knižnicu PyTorch s podporou CUDA a knižnicu HF transformers. Použite server idoc.
  • [x] Vyskúšajte tento skript: https://github.com/huggingface/transformers/tree/main/examples/pytorch/text-generation.

Zásobník úloh:

  • Prečítajte si ako funguje neurónová sieť typu GPT a písomne to vysvetlite, Uveďte odkazy na odborné články.
  • Vyskúšajte tento tutoriál https://towardsdatascience.com/fine-tune-a-non-english-gpt-2-model-with-huggingface-9acc2dc7635b
  • Pozrite si toto demo https://huggingface.co/blog/few-shot-learning-gpt-neo-and-inference-api
  • Vytvorte si git repozitár do ktoréhu budete ukladať Vaše skripty.
  • Vyskúšajte slovenský GPT model https://huggingface.co/Milos/slovak-gpt-j-162M (je malý, stredný, veľký)