Jakub Schwartz

February 20, 2026 Daniel Hladek dp2027 0 minutes, 37 seconds
nlp

rok začiatku štúdia: 2022

Diplomový projekt 2026

Téma:

Inštrukčné dotrénovanie jazykového modelu

Ciele na semester:

  • Dotrénujte a vyhodnotte Slovak Mistral.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Oboznámte sa s repozitárom https://github.com/allenai/open-instruct, prečítajte si články
  • Oboznámte sa s repozitárom https://github.com/nlp-uoregon/Okapi, prečítajte si články

Zásobník úloh:

  • Pracujte na teoretickej časti: opíšte základné pojmy, metódy a dátové množiny. Používajte google scholar a bibliografické odkazy.
  • Najprv pracujte s domácou GPU, ak nebude stačiť pracujte s Google Coolab, ak nebude stačiť požiadajte konzultanta.
  • Naštudovať a vyskúšať PEFT-QLORA.
  • Oboznámte sa s Huggingface TRL.
  • Oboznámte sa s knižnicou "unsloth".
  • Oboznámte sa s https://github.com/hiyouga/LLaMA-Factory