Pavol Hudák

November 14, 2024 Daniel Hladek dp2025 2 minutes, 22 seconds
ir

rok začiatku štúdia: 2020

Diplomová práca 2025

Ciel:

  • Dotrénovanie LLM pre zlepšenie jeho schopnosti odpovedať na otázku v slovenskom jazyku.
  • Dotrénovanie a vyhodnotenie LLM na slovenský instruct dataset.
  • Strojový preklad vybranej množiny instruct.

Stretnutie 14.11.2024

Stav:

  • Dotrénovaný slovenský Mistral 7B na malej časti Slovak Alpaca ma Kaggle.
  • Pokračuje písanie.

Úlohy:

  • Pokračovať v trénovaní tak aby sa využila celá množina. Môžeme využiť školské servre. Vedúci vytvorí prístup.
  • Pokračujte v púísaní
  • Zdrojové kódy dajte na GIT. Nedávajte tam dáta ani modely.

Zásobník úloh:

  • Dotrénujte aj iné modely a porovnajte výsledky.
  • Zverejnite dotrénovaný model alebo viac modelov na HF HUB. využijeme TUKE-KEMT org.

Stretnutie 15.10.

Stav:

  • Napísané 4 strany poznámok o Transformers.

Úlohy:

  • Dotrénujte slovenský model na instruct množine. Ako model použite https://huggingface.co/slovak-nlp/mistral-sk-7b a PEFT.
  • Nainštalujte si Ctranslate2 a model https://huggingface.co/facebook/m2m100_1.2B. Skúste preložiť OpenORCA. Použite server quadro alebo Kaggle.
  • Pracujte na texte DP - vysvetlite ako funguje model ChatGPT, Mistral a napíšte ako funguje "instruct model", uvedte odkazy na odborné články.

Diplomový projekt 2024

Ciele na semester:

  • Zobrať veľký jazykový model (základný alebo instruct alebo chat).
  • Skúsiť ho dotrénovať metódou PEFT pre úlohu Question Answering na korpuse SK QUAD. Vieme sa inšpirovať výsledkami E. Matovka.
  • Strojovo preložiť vybranú databázu otázok a odpovedí a pomocou nej skúsiť vylepšiť model.
  • Vyhodnotiť presnosť QA dotrénovaného modelu.

Ďalšie nápady:

  • Automaticky zlepšiť "prompt" pre QA.

Vybrať jednu z úloh:

  • Tvorba instruct datasetu - Anotácia alebo preklad množín
  • Dotrénovanie LLM na dostupnom hardvéri - LORA-PEFT

Stretnutie 7.6.2024

Stav:

  • Práca na dotrénovaní LLama3 a Phi2 cez kaggle, zatiaľ nefunguje.

Stretnutie 5.4.

Stav:

  • Nainštalované PrivateGPT.
  • Nainštalovaná Anaconda a Python, aj štúdium a príprava.
  • Oboznámenie sa s LangChain a SlovakAlpaca aj PEFT.

Úlohy:

  • Skúste dotrénovať veľký jazykový model metódou PEFT s množinou SlovakAlpaca. Vyberte vhodný model.
  • Vyskúšajte modely cez ollama.
  • Prihláste sa na quadro.kemt.fei.tuke.sk tam nainštalujte anaconda. Vedúci Vám musí urobiť prístup.
  • Kandidáti sú UMT5, TinyLLama, LLama3, Mistral, mt0, Phi alebo iné.
  • Vyhodnote presnosť dotrénovania (BLEU - založené na porovnávaní ngramov výsledku a očakávania).
  • Robte si poznámky o tom ako funguje veľký jazykový model a metóda PEFT.

Zásobník úloh:

  • Strojovo preložiť databázu OpenORCA.

Stretnutie 23.2.

Stav:

  • Rozbehané prostredie s Pytorch aj CUDA Anaconda na vlastnom PC.
  • Vyskúšaný HF google/t5 ... na úlohu strojového prekladu

Úlohy:

  • Pokračujte v štúdiu podľa otvorených úloh.
  • Nainštalujte a vyskúšajte softvér PrivateGPT.
  • Prihláste sa na systém IDOC a nainštalujte si tam systém Anaconda.

Zásobník úloh:

  • Nainštalujte a vyskúšajte balíček LangChain.
  • Zistite čo je to metóda PEFT - LORA.
  • Skúste dotrénovať veľký jazykový model s množinou SlovakAlpaca.
  • Skúste vylepšiť LLM pomocou inej množiny, strojovo preloženej.

Stretnutie 14.2.

Úlohy:

  • [ ] Oboznámiť sa s veľkými jazykovými modelmi LLM. Ako funguje ChatGPT? Čo je to LLAMA? Napíšte si poznámky.
  • [x] Nainštalujte si Anaconda.
  • [-] Pokračujte v štúdiu Python. Preštudujte si knihu Dive deep into deep learning.
  • [x] Nainštalujte si knižnicu Huggingface Transformers.
  • [ ] Vyskúšajte LLM model LLAMA https://huggingface.co/meta-llama/Llama-2-70b
  • [ ] Prejdite si tento tutoriál https://huggingface.co/blog/llama2