Dávid Kostilník

October 29, 2024 Daniel Hladek dp2025 1 minute, 3 seconds
ir

rok začiatku štúdia: 2020

Diplomová práca 2025

Ešte sa rozhodne.

Téma:

Sémantické vyhľadávanie pomocou veľkých modelov

  • Tvorba datasetu prekladom, využitie existujúcich datasetov
  • Dotrénovanie existujúceho modelu typu BERT pomocou preloženého MS MARCO.

Ciele:

  • Zlepšiť RAG.

Stretnutie 29.10.2024

Stav:

  • Prečítané nejaké články. Inak nič.

Úlohy:

  • Podrobne si naštudujte a vyskúšajte framework Sentence Transformers https://sbert.net/index.html. Využite Google Colab na príklady.
  • Podrobne si naštudujte databázu MS MARCO. Zistite a vyskúšajte dotrénovanie anglického modelu typu BERT (bert, roberta, xlm, deberta ...) na databáze MS Marco.
  • Píšte si poznámky o tom čo ste zistili o SBERT. Použite odkazy na vedecké články. Vedecké článkuý nájdete na Google Scholar.

Zásobník úloh:

  • pracujte na servri quadro a prostredí Anaconda.
  • Natrénujte slovenský BERT model na preloženej databáze MS MARCO (WIP K. Sopkovič).

Diplomový projekt 2024

Stretnutie 4.4. 2024

Úlohy:

  • Oboznámte sa s tým, ako funguje neurónová sieť typu Transformer. Urobte si poznámky. Poznačete si zdroje, uprednostnite vedecké články.
  • Oboznámte sa ako funguje rekurentná neurónová sieť. Sústreďte sa na typ RWKV. Urobte si poznmámy.
  • Vyskúšajte si túto NN. Začnite tu https://wiki.rwkv.com/basic/play.html

Zásobník úloh:

  • Oboznámte sa ako funguje NN Mamba.
  • Zostavte RAG systém s pomocou RWKV.
  • Oboznámte sa ako funguje Sentence Transformer.
  • Porovnajte embeddingy RWKV s inými metódami (Sentence Transformers)

Stretnutie 15.2.2024

Úlohy: