Dominik Nagy

January 27, 2022 Daniel Hladek dp2022, bp2019 3 minutes, 21 seconds

Dominik Nagy

Rok začiatku štúdia: 2016

Diplomová práca 2022

GIT repozitár

Názov diplomovej práce: Neurónový strojový preklad pomocou knižnice Fairseq

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

  1. Vypracujte teoretický prehľad metód neurónového strojového prekladu.
  2. Podrobne opíšte vybranú metódu neurónového strojového prekladu.
  3. Natrénujte viacero modelov pre strojový preklad pomocou nástroja Fairseq a vyhodnoťte ich.
  4. Na základe výsledkov experimentov navrhnite zlepšenia.

Stretnutie 11.1.2022

  • Urobené všetky úlohy z minulého stretnutia, okrem textu a gitu.
  • Natrénované modely fairseq pre obojsmerný preklad angličtina slovenčina.

Úlohy:

  • dajte všetky skripty do repozitára dp2022
  • Napíšte si osnovu diplomovej práce.
  • Vypracujte draft (hrubý text) diplomovej práce.
  • V texte DP sumarizujte vykonané experimenty.
  • Pripravte si prezentáciu na obhajoby.
  • Skontrolovať či sa robí tokenizácia správne pri vyhodnotení.

Zásobník úloh:

  • Pripravte článok (pre vedúceho).
  • Urobte experiment s architektúrou MBART. Porovnajte Vaše výsledky s výsledkami v článku MBART (Liu et al. : Multilingual Denoising Pre-training for Neural Machine Translation).

Stretnutie 17.12.2021

Stav:

  • rozbehané trénovanie na slovensko-anglickom (LinDat) paralelnom korpuse.
  • model z angličtiny do slovenčiny.
  • tokenizácia subword NMT.
  • rozbehané trénovanie na GPU, bez anaconda.

Úlohy:

  • [x] Cieľ je aby Vaše experimenty boli zopakovateľné. Pridajte všetky trénovacie skripty do git repozitára. Nepridávajte dáta. Pridajte skripty alebo návody na to ako pripraviť dáta.
  • [x] Zostavte tabuľku kde zapíšete parametre trénovania a dosiahnuté výsledky.
  • Napíšte prehľad aktuálnych metód strojového prekladu pomocou neurónových sietí kde prečítate viacero vedeckých článkov a ku každému uvediete názov a čo ste sa z neho dozvedeli. Vyhľadávajte kľúčové slovíčka: "Survey of neural machine translation". Chceme sa dozvedieť aj o transformeroch a neurónových jazykových modeloch.
  • [x] vyskúšajte trénovanie aj s inými architektúrami. Ku každému trénovaniu si poznačte skript, výsledky a dajte to na git.

Zásobník úloh:

  • [x] Výskúšajte preklad v opačnom smere.
  • [x] Vyskúšanie inej metódy tokenizácie (BPE, sentencepiece, wordpiece - huggingface tokenizers).

Stretnutie 6.7.2021

Stav:

  • Podarilo sa rozbehať setup pre trénovanie slovensko anglického prekladu na korpuse 10 viet pomocou fairseq.

Úlohy:

  • Pokračujte v trénovaní na servri IDOC, použite skript na príápravu prostredia ktorý som Vám dal.
  • Pripravte veľký slovensko-anglický paralelný korpus a natrénujte z neho model.
  • Model vyhodnotťe pomocou metriky BLEU. Naštudujte si metriku BLEU.

Príprava na Diplomový projekt 2 2021

Zásobník úloh:

  • Využiť BERT model pri strojovom preklade zo slovenčiny

Stretnutie 17.2.2021

Stav:

  • Plán ukončiť v roku 2022
  • Vypracovaný tutoriál https://fairseq.readthedocs.io/en/latest/getting_started.html#training-a-new-model a https://fairseq.readthedocs.io/en/latest/tutorial_simple_lstm.html

Do ďalšieho stretnutia:

  • Treba zlepšiť teoretickú prípravu a písanie.
  • Pripraviť slovensko-anglický korpus do podoby vhodnej na trénovanie. Zistite v akej podobe je potrebné dáta mať.
  • Natrénovať model fairseq pre strojový preklad zo slovenčiny.
  • Zistite ako prebieha neurónový strojový preklad, čo je to neurónová sieť, čo je to enkóder, dekóder model a napíšte to vlastnými slovami. Napíšte aj odkiaľ ste to zistili.
  • Prečítajte si https://arxiv.org/abs/1705.03122 a https://arxiv.org/abs/1611.02344 a napíšte čo ste sa dozvedeli.

Diplomový projekt 2

Virtuálne stretnutie 25.9.

  • Možnosť predĺženia štúdia
  • Inak pokračovať v otvorených úlohách

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Diplomový projekt 1 2020

Literatúra:

Neural Network Methods for Natural Language Processing

Úlohy na semester:

  • Získať a pripraviť slovenský paralelný korpus pre preklad do angličtiny a češtiny
  • Natrénovať a vyhodnotiť Fairseq Model

Virtuálne stretnutie 30.7.2020:

Dohoda na opakovaní predmetu.

Virtuálne stretnutie 14.5.2020:

Urobené: rozbehaný tutoriál fairseq pre trénovanie nemecko anglických dát

Úlohy na ďalšie stretnutie:

  • pozrieť a pripraviť česko-slovenský paralelný korpus, natrénovať a vyhodnotiť model
  • pozrieť a pripraviť anglicko-slovenský paralelný korpus, natrénovať a vyhodnotiť model

Stretnutie 6.3.2020.

Úloha na ďalšie stretnutie:

Tímový projekt 2019

Písomná práca: Rešerš na tému "Sequnce to Sequence"

Úlohy tímového projektu:

  • Vypracujte min. 4 stranový rešerš na tému: "Sequence to Sequence" (Encoder-Decoder, seq2seq, transformer, attention)
  • citujte min. 10 najvýznamnejších bibliografických zdrojov
  • Prečítajte si o konvolučných sieťach
  • Prečítajte si Sequence to Sequence Convolutional Neural Network for Automatic Spelling Correction
  • Skúste si nainštalovať nástroj fairseq
  • prejdite si tutoriál https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Poznámky

Projektové stránky:

V prípade záujmu je možné pracovať na úlohe strojového prekladu.

Možné trénovacie dáta: https://www.clarin.eu/resource-families/parallel-corpora