Matej Novotný

March 28, 2025 Daniel Hladek dp2026 1 minute, 2 seconds
nlp

rok začiatku štúdia: 2021

Diplomová práca 2026

Klasifikácia webových dát pre lepšie jazykové modelovanie

Cieľ je lepšie pripraviť webové dáta na trénovanie jazykového modelu.

Stretnutie:

Úlohy:

  • Naučte sa Python. Nainštalujte si prostredie Anaconda.
  • Naučte sa pracovať s knižnicou Transformers a HuggingFace Hub - prejdite si jeden alebo 2 tutoriály na klasifikáciu textu.
  • Zistite čo je to jazykový model a urobte si poznámky.
  • Pozrite si knihu Deep Dive into Deep Learning a napíšte si poznámky.
  • Zistite, ako funguje neurónová sieť typu Transformer a napíšte si poznámky.
  • Zistite, čo je to korpus textov mc4.
  • Zistite, ako funguje klasifikácia textov pomocou Transformera. Zisite, čo je to tokenizácia.

Zásobník úloh:

  • Vytovrte množinu príkladov textov z webu a zotriedte ich podľa kvality a druhu.
  • Natrénujte neurónovú sieť pre rozlišovanie druhov textov.

Stretnutie 28.3.2025

Stav:

  • Naštudovaný Python, neurónové siete čiastočne.

Úlohy:

  • Pozrite si dataset https://huggingface.co/datasets/allenai/c4
  • Pozite si knihu https://d2l.ai/
  • Pokračujte v štúdiu HF transformers, vyskúšajte si tutoriály.
  • Sústredte sa na "Document Classification". a Document Embeddings. Tu sa používajú tzv. encoder-only modely, napr. BERT, SentenceTransformer.

Zásobník úloh:

  • definovať kategórie, ktoré sú dôležité z hľadiska jazykového modelovania. Ku každej kategórii budú potrebné príklady.
  • Príklad kategórie: Novinový článok, blog, diskusia, urážlivý text, kniha, odborný článok, doménovo orientovaný text - právo, medicína, reklamna, eshop, inzerát, nelegálny obsah,