Than Trung Thanh

February 9, 2021 Daniel Hladek bp2021 2 minutes, 11 seconds

Than Trung Thanh

Bakalársky projekt 2020

Rozpoznávanie pomenovaných entít v slovenskom jazyku pomocou nástrojov Spacy a Prodigy

Podobná práca:

Ciel je práce je zlepšiť presnosť rozpoznávania pomenovaných entít pre slovenský jazyk. Presnosť je možné zlepšiť pomocou nových trénovacích dát alebo pomocou zlepšenia procesu trénovania.

Predbežné zadanie:

  • Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí.
  • Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy .
  • Pomocou nástroja Prodigy anotujte dostatočné množstvo textu pre výskyt pomenovaných entít.
  • Pomocou nástroja Spacy vytvorte a vyhodnoťte model pre rozpoznávanie pomenovaných entít v slovenčine. Zistite, ako Vami anotované dáta zlepšili presnosť vytvoreného modelu.
  • Navrhnite spôsoby pre ďalšie zlepšenie presnosti modelu pre rozpoznávanie pomenovaných entít.

Stretnutie 8.2.2020:

Stav:

  • Anotovaných 1000 anotácií (3 dni).
  • Prečítané články a spracovaný rešerš na 3,5 strany.

Do ďalšieho stretnutia:

  • Pracovať na zlepšení písomného prejavu.
  • Nájsť odborné články z dokumentácie Spacy, ku každému napísať bibliografický odkaz a čo ste sa dozvedeli do prehľadu.
  • Prepracovať rešerš kompletne - odstrániť sémantické aj gramatické chyby.
  • Prečítajte si a napíšte poznámky z: Li, Jing, et al. "A survey on deep learning for named entity recognition." IEEE Transactions on Knowledge and Data Engineering (2020).

Stretnutie 28.1.2020:

Stav:

  • Preštudované Spacy a Prodigy.
  • Pokus o spracovanie XML dump Wikipédia.
  • Prečítané blogy.
  • Urobená prezentácia.
  • Natrénovaný model.

Úlohy:

  • Začať pracovať na písomnej časti. Prečítajte si niekoľko nových odborných článkov a napíšte čo ste sa dozvedeli na minimálne 4 strany.
  • Schmitt, Xavier, et al. "A replicable comparison study of NER software: StanfordNLP, NLTK, OpenNLP, SpaCy, Gate." 2019 Sixth International Conference on Social Networks Analysis, Management and Security (SNAMS). IEEE, 2019.
  • Partalidou, Eleni, et al. "Design and implementation of an open source Greek POS Tagger and Entity Recognizer using spaCy." 2019 IEEE/WIC/ACM International Conference on Web Intelligence (WI). IEEE, 2019.
  • Fernández-Pedauye, Julio, et al. "Enhancing the spaCy Named Entity Recognizer for Crowdsensing." Intelligent Environments 2020: Workshop Proceedings of the 16th International Conference on Intelligent Environments. Vol. 28. IOS Press, 2020.
  • Nájdite si sami ďalšie články.

Osobné stretnutie 23.9.2020

Úlohy do ďalšieho stretnutia:

  • preštudujte si, čo je to rozpoznávanie pomenovaných entít a ako sa robí, prečítajte si aj odborné články a knihy. Informácie získate zadaním hesla "named entity recognition".
  • Nainštalujte si prostredie Anaconda.
  • Nainštalujte si a spustite trénovanie existujúceho modelu.
  • preštudujte materiály:
    • https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/nlp
    • https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/python
    • https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/topics/prodigy

Dalšie stretnutie odporúčam o 2 týždne.

Konzultácie sa budú konakť minimálne raz za dva týždne, menej ako 6 konzutácií za semester je dôvodom pre zníženie hodnotenia semester je dôvodom pre zníženie hodnotenia alebo neudelenie zápočtu.alebo neudelenie zápočtu.