Simona Bobrovčanová

April 3, 2025 Daniel Hladek bp2026 0 minutes, 39 seconds
lm, nlp

rok začiatku štúdia: 2023

Bakalárska práca 2026

Téma:

Automatická sumarizácia slovenského textu

Ciele:

Zlepšite spracovanie slovenkých právnych textov - vytvorte systém pre sumarizáciu rozsudkov alebo iných právnych dokumentov.

Stretnutie 3.4.

Úlohy:

  • Oboznámte sa s problematikou veľkých jazykových modelov. Towards Data Science
  • Naučte sa Python lepšie. Nainštalujte si prostredie Anaconda.
  • Poučte sa o strojovom účení. Dive into deep learning.
  • Vyskúšajte si framework HF Transformers.
  • Vyskúšajte si veľký jazykový model, napr. cez systém OLLAMA.
  • Oboznámte sa so stránkou otvorenesudy.sk
  • Zistite, ako vieme dotrénovať jazykový model. Zistite čo je to metóda PEFT, čo je to Supervised finetuning.
  • Oboznámte sa s databázou https://huggingface.co/datasets/NaiveNeuron/slovaksum
  • Napíšte si poznámky z vecí ktoré ste sa naučili.

Zásobník úloh:

  • Spracujte slovenské súdne dáta, upravte ich do podoby vhodnej na trénovanie jazykového modelu
  • Natrénujte a vyhodnotte model pre úlohu sumarizácie.