Pomenované entity

October 2, 2020 Daniel Hladek project 1 minute, 12 seconds
ner, nlp

Pomenované entity

Stretnutia

11.8.2020

Rozdelíme wikicorpus na 100 častí.

Nebudeme riešiť doménový bias vo wikipédii.

Budeme riešiť bias na dĺžku článkov.

Tagová značka asi: LOC, MISC, ORG, PER.

Peter sa pozrie na wikiextraktor.

Daniel:

  • vyrieši šablóny
  • vypočíta štatistiky o dĺžke paragrafov
  • navrhne pravidlo na ohodnotenie kvality článku, Kvalita článku závisí na dĺžke dobrých paragrafov a dĺžke celého článku.

Úlohy

Príprava dát

Repozitár annotation/wikicorpus

Vstup: Wiki XML dump

Výstup: Množina dokumentov pre anotáciu

urobené:

  • Parsovanie XML Wiki DUMP
  • Skript pre extrakciu paragrafov.

urobiť:

  • Filter pre vyradenie článkov a paragrafov.
  • Ručný výber článkov.

Príprava anotačnej schémy

Vstup: dataset na anotovanie

Výstup: nasadená a pripravená aplikácia na anotovanie

Repozitár annotation/ner

urobené:

  • Anotačný recept (Jakub Maruniak)
  • Deploymment Prodigy (Daniel Hládek)
  • Konverzia dát do Prodigy (Jakub Maruniak)

urobiť:

  • Anotačný manuál
  • Sada značiek na anotáciu
  • Podporný model? Ak pomáha tak pripraviť aj schému alebo dataset s podporným modelom.
  • Pripraviť podrobné anotovanie "development" množiny

Prípravná anotačná dávka

Repozitár annotation/database_app

Vstup:

  • pripravená aplikácia pre anotovanie

Výstup:

  • prvé anotované dáta
  • aplikácia pre analýzu anotovaných dát
  • skript pre spájanie a filtrovanie anotovaných dát

urobené:

  • nasadenie aplikácie pre analýzu anotovaných dát http://askner.tukekemt.xyz (Daniel Hládek)

prebieha:

  • aplikácia pre analýzu anotovaných dát - kto anotoval čo, ako a koľko (Tomáš Kuchárik)

urobiť:

  • Anotácia dát
  • Príprava skriptu na čistenie anotovaných dát

Produkčná anotačná dávka

Vstup: Pripravená aplikácia a dáta na anotovanie

Výstup:

  • Anotované dáta
  • korpus

treba urobiť:

  • Motivácia študentov
  • Anotácia dát
  • Analýza anotovaných dát
  • tvorba korpusu anotovaných dát
  • Validácia anotovaných dát (anotačná schéma pre validáciu?)