Jakub Maruniak

September 30, 2021 Daniel Hladek dp2021, bp2019 4 minutes, 42 seconds

spacy, ner, annotation, nlp

Edit this Page

Jakub Maruniak

Rok začiatku štúdia: 2016

Návrh na názov DP:

Anotácia a rozpoznávanie pomenovaných entít v slovenskom jazyku.

CRZP

Vypracujte teoretický úvod, kde vysvetlíte čo je to rozpoznávanie pomenovaných entít a akými najnovšími metódami sa robí. Vysvetlite, ako pracuje klasifikátor pre rozpoznávanie pomenovaných entít v knižnici Spacy.
Pripravte postup na anotáciu textového korpusu pre systém Prodigy pre trénovanie modelu vo vybranej úlohe spracovania prirodzeného jazyka.
Vytvorte množinu textových dát v slovenskom jazyku vhodných na trénovanie štatistického modelu spracovania prirodzeného jazyka pomocou knižnice Spacy.
Natrénujte štatistický model pomocou knižnice Spacy a zistite, aký vplyv má veľkosť trénovacej množiny na presnosť klasifikátora.

Spolupráca s projektom:

Diplomová práca 2021

Stretnutie 12.3.

Stav:

Anotovanie dát, vykonané experimenty s trénovaním.
Dosiahli sme presnosť cca 72 percent.
Výsledky sú zhrnuté v tabuľke.

Úlohy:

Píšte prácu.
Uložte trénovacie skripty na GIT.

Diplomový projekt 2

Ciele:

Anotovať sadu dát s použitím produkčnej anotačnej schémy, natrénovať a vyhodnotiť model.

Zásobník úloh:

Použiť model na podporu anotácie
Do konca ZS vytvoriť report vo forme článku.

Stretnutie 12.2.:

Prebrali sme článok. Treba vyhodiť a popresúvať niektoré časti, inak v poriadku.

Do budúceho stretnutia:

Vybrať vhodný časopis na publikovanie
Využiť pri trénovaní ďalšie anotované dáta.

Stretnutie 20.1.

Preberanie draftu práce.

Do článku vyradiť príliš všeobecné časti - napr. o strojovom učení.
V úvode zadefinujte problém, pojmy a bežné spôsoby riešenia problému. Čo je korpus? Ako sa vyrába? Na čo a ako sa používa?
V jadre predstavte Vaše riešenie. Ako vyzerá korpus? Ako ste ho urobili?
Na konci definujte metodiku vyhodnotenia, vyhodnotte riešenie a navrhnite zlepšenia. Akú presnosť má model vytvorený s pomocou korpusu?

Virtuálne stretnutie 18.12.2021:

Stav:

Vytvorené anotácie do databázy, cca 1700 jednotiek.
Začiatok článku.

Virtuálne stretnutie 27.11.2020:

Zatiaľ zostávame pri ručnej extrakcii dát z anotačnej schémy.
Vypracovaná tabuľka s experimentami
Dáta a skripty

Úlohy:

Pracovať na ďalších anotáciách, zlepšiť presnosť modelu.
Urobiť ďalšie experimenty.
Začať pracovať na článku. Niečo podobné ako Znalosti, alebo AEI. šablóna ieee alebo llncs.

Stretnutie 20.1.2021

Draft článku

Virtuálne stretnutie 13.11.2020:

výsledky skopírované do adresára
prečítané 3 články - porovnanie manuálnej anotácie a poloautomatickej.
začiatok práce na skripte pre počítanie anotovaných entít, treba ešte vylepšiť aby vznikla tabuľka.
anotačná schéma vyzerá byť v poriadku, niektoré články treba odfiltrovať (zoznam obrázkov, prázdna kategória, nadpis).

Úlohy do ďalšieho stretnutia:

vytvoriť spôsob pre získanie dát z produkčnej anotačnej schémy. (pre vedúceho)
vytvorte ďalšie anotácie.
Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
Vytvorte tabuľku kde uvediete presnosť modelu s rôznym množstvom anotovaných dát.
Aký je najlepší spôsob vyhodnotnenia? Vytvoriť jednotnú testovaciu množinu. Druhý spôsob je použiť "10 fold cross validation" (Všetky dáta sa rozdelia na 10 častí, 9 sa využije pri trénovaní, 1 pri testovaní. Trénovanie sa opakuje 10 krát stále pre inú testovaciu množinu, výsledky sa spriemerujú).

Virtuálne stretnutie 30.10.2020:

Stav:

Vylepšený návod
Vyskúšaný export dát a trénovanie modelu z databázy. Problém pri trénovaní Spacy - iné výsledky ako cez Prodigy trénovanie
Práca na textovej časti.

Úlohy do ďalšieho stretnutia:

Vytvorte si repozitár s názvom dp2021 a tam pridajte skripty a poznámky.
Pokračujte v písaní práce. Vykonajte prieskum literatúry "named entity corpora" aj poznámky.
Vytvorte systém pre zistenie množstva a druhu anotovaných dát. Koľko článkov? Koľko entít jednotlivvých typov? Výsledná tabuľka pôjde do práce.
Pripraviť sa na produkčné anotácie. Je schéma pripravená?

Virtuálne stretnutie 16.10.2020:

Stav:

Spísané stručné poznámky k procesu anotácie
Pokusne anotovaných niekoľko článkov

Úlohy na ďálšie stretnutie:

Vylepšiť oficiálny návod na anotáciu NER https://zp.kemt.fei.tuke.sk/topics/named-entity/navod podľa poznámok a skúsenosti pri anotácii. Pridajte pravidlá pre učenie Accept a Reject článku. Ktorý paragraf je vhodný na anotáciu?
Pripraviť skript na výber anotovaných dát z databázy a úpravu do podoby vhodnej pre trénovanie.
Spísať pravidlá pre validáciu. Aký výsledok anotácie je dobrý? Je potrebné anotované dáta skontrolovať?
Pokračujte v písaní DP.

Virtuálne stretnutie 9.10.2020:

Stav:

Vyskúšané trénovanie modelu podľa repozitára spacy-skmodel
Začiatok práce na textovej časti (vo Worde do šablóny ZP).

Úlophy na ďalšie stretnutie:

Prečítajte si návod na anotáciu a navrhnite zlepšenia návodu. Cieľ je napísať presnú metodiku anotácie.
Pokusne antujte niekoľko článkov, spíšte problémové miesta.

Stretnutie 25.9.2020:

Urobené:

Oboznámenie sa procesom anotácie NER

Úlohy na ďalšie stretnutie:

Natrénovať a vyhodnotiť model podľa https://git.kemt.fei.tuke.sk/dano/spacy-skmodel
začať pracovať na textovej časti podľa https://www.ieee.org/conferences/publishing/templates.html

Návrhny na zlepšenie:

Je potrebné rozbehať produkčnú anotáciu NER

Diplomový projekt 1 2020

Výstupy (18.6.2020):

Úlohy na semester:

Rozbehať anotačnú schému pre vyznačovanie slovenských pomenovaných entít
Vybrať a pripraviť vhodné dáta na anotáciu

Stretnutie 30.6.2020:

Dodaný korpus 1300 viet
Je dobré dáta rozdeliť na vety (odporúčanie, ľahšie sa sleduje anotované množstvo).

Virtuálne stretnutie 15.5.2020:

Rozbehaná slovenská anotačná schéma pre pomenované entity
Problém so slovenským NER modelom z wiki dát

Úlohy:

vytvoriť do repozitára annotation adresár ner so všetkým potrebným pre spustenie slovenskej ner schémy (skripty, vzorové textové dáta).
vyriešiť problém so spacy modelom.

Revízia 21.4.:

Odkaz na projekt: https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2016/jakub_maruniak/dp2021/annotation

Revízia 9.4. a 17.4.

Nové úlohy:

vytvorte skript pre anotáciu slovenských pomenovaných entít.
- Pozrite si https://prodi.gy/docs/named-entity-recognition (aj video)
- Spustite schému "Manual annotation with suggestions from a model" (použite aj príklady
Ako zdroj dát použite https://git.kemt.fei.tuke.sk/dano/spacy-skmodel/src/branch/master/sources/skner/wikiann-sk.bio
- Urobte skript, ktorý zmení wiki dáta do spacy formátu
- Uložte skript na GIT a pridajte odkaz do profilu

Stretnutie 9.3.2020:

Vyvorený prístup do repozitára https://git.kemt.fei.tuke.sk/dano/annotation

Úlohy na ďalšie stretnutie:

Oboznámte sa s so systémom Docker
Rozbehajte si anotáciu z repozitára
Skúste upraviť proces tak aby bol vhodný na anotáciu slovenských pomenovaných entít

Návrh možných entít na anotáciu:

OSOBA
MIESTO alebo politická geografická entita
ORGANIZACIA
PRODUKT
INE

Tímový projekt 2019

Anotácia textových dát

Úlohy tímového projektu:

Vypracujte min. 4. stranový rešerš na tému "Crowdsourcing"
citujte min. 10 najvýznamnejších bibliografických zdrojov

Písomná práca: Rešerš

Jakub Maruniak

Jakub Maruniak

Diplomová práca 2021

Diplomový projekt 2

Diplomový projekt 1 2020

Tímový projekt 2019

Anotácia textových dát

Obsah

Categories

Popular Articles