Dárius Lindvai
Dárius Lindvai
Rok začiatku štúdia: 2016
Repozitár so zdrojovými kódmi
Názov: Obnovenie interpunkcie pomocou hlbokých neurónových sietí
- Vypracujte prehľad metód na obnovenie interpunkcie pomocou neurónových sietí.
- Vyberte vhodnú metódu obnovenia interpunkcie pomocou neurónových sietí.
- Pripravte množinu dát na trénovanie neurónovej siete, navrhnite a vykonajte sadu experimentov s rôznymi parametrami.
- Vyhodnoťte experimenty a navrhnite možné zlepšenia.
Diplomový projekt 2 2020
Stretnutie 25.1.2021
Stav:
- Vypracovaný report experimentov
- Prezentácia
Do ďalšieho stretnutia:
- Dopísať časť kde opíšete Vašu metódu
- Rozšíriť teoretickú časť - zistite a napíšte čo je Transformer, BERT, RNN a Adversarial (kontradiktórne učenie) learning.
Virtuálne stretnutie 20.11.2020
Stav:
- Urobené úlohy z ďalšieho stretnutia
- Práca na písomnej časti, ešte treba spracovať experimenty.
Do ďalšieho stretnutia:
- Finalizovať text.
Virtuálne stretnutie 6.11.2020
Stav:
- Vypracovaná tabuľka s 5 experimentami.
- vytvorený repozitár.
Na ďalšie stretnutie:
- nahrať kódy na repozitár.
- závislosťi (názvy balíčkov) poznačte do súboru requirements.txt.
- Prepracujte experiment tak aby akceptoval argumenty z príkazového riadka. (sys.argv)
- K experimentom zapísať skript na spustenie. V skripte by mali byť parametre s ktorými ste spustili experiment.
- dopracujte report.
- do teorie urobte prehľad metód punctuation restoration a opis Vašej metódy.
Virtuálne stretnutie 25.9.2020
Urobené:
- skript pre vyhodnotenie experimentov.
Úlohy do ďalšieho stretnutia:
- vytvorte nový repozitár so zdrojovými kódmi (nazvite ho dp2021)
- vykonať a vyhodnotiť experimenty
- Zvážiť publikovanie na http://conf.uni-obuda.hu/sami2021/paper.html
- napísať draft na min. 4 strany s teóriou, experimantami aj bibliografipou. Môže byť aj po slovensky, potom to preložíme do nagličtiny.
Diplomový projekt 2020
Úlohy na diplomový projekt:
-
- Vybrať a pripraviť dátovú množinu na natrénovanie
-
- Vybrať a implementovať neurónovú sieť
-
- Vykonať sadu experimentov na overenie presnosti klasifikácie zvolenej neurónovej siete
Zápis o činnosti
Virtuálne stretnutie 26.6.
Urobené:
- Trénovanie modelu BiLSTM+CFR a jeho vyhodnotenie Precision Recall pre každú triedu
Treba urobiť:
- Vyhodnotenie na testovacej množine
- Doplnenie skriptu pre prípravu dát
- Krátky záznam o experimentoch - stručný opis nastavenia, dát a záznam výsledkov.
Virtuálne stretnutie 14.5.2020:
Prebrali sme premenu Pytorch Tensor na NumPy Maticu
- Pokračuje práca na Precision Recall - konfidenčná matica
Revízia 8.5.2020:
- Práca pokračuje.
- Precision-recall vypočítate z konfidenčnej matice takto.
Revízia 17.4.2020:
- Upravené zdrojové kódy BiLSTM+CRF pre Punctuation Restoration
- repozitár dp2021
Nové úlohy:
- Pripravte si trénovaciu a testovaciu množinu.
- Natrénujte neurónovú sieť na väčších dátach, použite server idoc.
- Vyhodnnotte presnosť vo forme Precision-Recall pre každú triedu
Stretnutie 9.3.2020:
Pozrieť si:
- https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Sequence-Labeling
- Comparison of Recurrent Neural Networks for Slovak Punctuation Restoration (poslané emailom)
Skúste upraviť kódy:
- https://pytorch.org/tutorials/beginner/nlp/advanced_tutorial.html
- repozitár https://git.kemt.fei.tuke.sk/dano/comma
na problém dopĺňania interpunkcie.
Na ďalšie stretnutie rozbehané kódy.
Stretnutie 20.2.2020
Úlohy na ďalšie stretnutie:
- Ako zmeniť postupnosť slov na postupnosť vektorov?
- [Slovo na číslo] (https://hackernoon.com/what-is-one-hot-encoding-why-and-when-do-you-have-to-use-it-e3c6186d008f)
- Ako použiť postupnosť vektorov na natrénovanie neurónovej siete?
- Sequence Tagging, Vocab
Tímový projekt 2019
Projektové stránky:
Úlohy na vypracovanie:
- rešerš tak na 3 strany - čo najnovšie sa píše na tému "puctuation restoration"
- krátky program a tutoriál (program s rozsiahlym komentárom) v Pythone na využitie LSTM, napr. ako.
- zaujímavý blog
Výstup TP: