Podpora slovenčiny v knižnici Spacy

December 6, 2021 Daniel Hladek project 0 minutes, 59 seconds

spacy, nn, pos, ner, annotation, nlp

Trénovanie modelov Spacy

Ciele

Vytvoriť modul v jazyku Python pre podporu slovenčiny
Natrénovať štatistické modely:
- pre morfologickú analýzu
- rozpoznávanie pomenovaných entít
Unifikovaný systém pre predspracovanie slovenského jazyka
Možné aplikácie:
- Podporiť dialógový systém RASA
- Neurónové vyhľadávanie

Hotové úlohy

trénovanie modelu Spacy 2, kompletné skripty
trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
zahrnuté slovné vektory Fasttext Common Crawl
Trénovanie Dependency, POS pomocu UD Corpus
Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

Budúce úlohy

Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
Nájsť optimálne hyperparametre.
Zostaviť korpus pomenovaných entít.
Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

Neprioritné úlohy (zásobník)

Zaradiť vlastné WordEmbedding (fasttext).
Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset

Súvisiace projekty

Anotácia pomenovaných entít pomocu frameworku Prodigy.
Predtrénovanie jazykového modelu

Repozitár

https://github.com/hladek/spacy-skmodel
Repozitár Jozef Olekšák(slovenské stop words a pravidlá)
https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely

Ľudia

Maroš Harahus (štatistické značkovanie)
Kristián Sopkovič (vylepšenie parametrov, transformery)

Ukončené projekty

Jozef Olekšák (slovenské stop words a pravidlá),
Lukáš Pokrývka (Word Embedding Modely)
Martin Wencel demo aplikácia

Obsah

Categories

Popular Articles