Yevhenii Leonov

November 8, 2024 Daniel Hladek vp2024, bp2025 2 minutes, 6 seconds
rag, nlp

rok začiatku štúdia: 2022

Bakalárska práca 2025

Téma:

Generovanie slovenského jazyka s pomocou vyhľadávania

Predbežné zadanie:

  1. Vypracujte prehľad metód a modelov generovania jezyka s pomocou vyhľadávania
  2. Vyskúšajte a vyhodnotte vybranú metódu generovania jazyka s pomocou vyhľadávania.

Návrh na tému:

  • Vyhodnotenie systémov RAG

Spolupráca Oleh Poiasnik

Stav:

  • Práca na úlohách z minulého stretnutia, vyskúšaný RAGAS.
  • Nainštalovaný a vyskúšaný systém od p . Poiasnika.

Úlohy:

  • Pripravte "vzorovú" množinu na testovanie.
  • Pripravte testovaciu množinu. Množina by sa mala skladať z čo najväčšieho množstva príkladov.
  • Vyskúšajte testovaciu množinu pomocou RAGAS a modelov ktoré používa p. Poiasnik. Vyhodnotte modely pomocou množiny.
  • Kódy dávajte na GIT (napr. branch alebo adresár p Poiasnik GIT).
  • Pokračujte v písomných úlohách. Hľadajte články cez scholar a píšte si poznámky. Do BP.

Zásobník úloh:

  • Pripravte (nakódujte, odkopírovať) postup vyhľadávania podobný ako "reálny systém", ale využíval RAGAS.
  • Pripravte testovacie API pre RAG systém. Bude to funkcia alebo URL cez ktorú sa bude dať systém testovať.
  • Pomocou metriky a množiny vyhodnotte reálny systém.

Stretnutie 11.1.:

Stav:

  • Urobené poznámky na tému RAG
  • Nainštalované PrivateGPT, Ollama na Windowse

Úlohy:

  • [x] Budeme využívať systém RAGAS. Nainštalujte si ho a vyskúšajte. Optimálne použite systém Anaconda-Linux. V anaconda využívajte virtuálne prostredia.
  • [x] Naštudujte dokumentáciu a články https://docs.ragas.io/en/stable/index.html
  • [ ] Vyhľadajte vedecké články na tému "retrieval augmented generation evaluation" a prečítajte si aj článok o "ragas". Použite google scholar. Napíšte si poznámky.
  • [-] Zistite a opíšte aké metriky sa používajú. Ku každej metrike je potrebný odkaz na článok.

Zásobník úloh:

  • [-] Zostavte množinu na vyhodnotenie RAG systému pre medicínsku oblasť. Množina bude vyjadrovať "testovací scenár" navštevy lekárne. V prvej fáze neriešime dialóg, ale otázky a odpovede.
  • [ ] Napíšte príklady alebo použite generatívny model

Vedecký projekt 2024

RAG: Generovanie jazyka s pomocou vyhľadávania -Retrieval augmented generation

Úlohy na semester:

  • Zistite čo je to Retrieval Augmented Generation a napíšte o tom správu.
  • Naučte sa základy jazyka Python.
  • Podrobne si prejdite minimálne dva tutoriály.
  • Napíšte krátky report na 2 strany kde napíšete čo ste urobili a čo ste sa dozvedeli.
  • Nainštalujte si a vyskúšajte softvér PrivateGPT

Stretnutie 12.4.

Stav:

  • Učenie sa Pythonu, nainštalovaná Anaconda.
  • Urobené stručné poznámky o RAG o BERT a o GPT.

Úlohy:

  • Pokračujte v otvorených úlohách.
  • Vyskúšajte systém OLLAMA. Keď to nejde na Windows, vyskúšajte Ubuntu WSL(2).
  • Pracujte na "článku".

Stretnutie 22.3.

Úlohy:

  • [-] Nainštalujte si prostredie Anaconda. Prejdite si knihu Dive Deep into Python 3.
  • [-] Nainštalujte si PrivateGPT. Zistite ako funguje RAG. Zistite ako funguje ChatGPT. Zistite ako funguje vyhľadávanie pomocou SentenceTranformers. Napíšte o tom poznámky.
  • [-] Prečítajte si knihu https://d2l.ai/ a napíšte si poznámky.