Podpora slovenčiny v knižnici Spacy
Ciele
- Vytvoriť modul v jazyku Python pre podporu slovenčiny
- Natrénovať štatistické modely:
- pre morfologickú analýzu
- rozpoznávanie pomenovaných entít
- Unifikovaný systém pre predspracovanie slovenského jazyka
- Možné aplikácie:
- Podporiť dialógový systém RASA
- Neurónové vyhľadávanie
Hotové úlohy
- trénovanie modelu Spacy 2, kompletné skripty
- trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
- trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
- zahrnuté slovné vektory Fasttext Common Crawl
- Trénovanie Dependency, POS pomocu UD Corpus
- Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).
Budúce úlohy
- Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
- Nájsť optimálne hyperparametre.
- Zostaviť korpus pomenovaných entít.
- Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.
Neprioritné úlohy (zásobník)
- Zaradiť vlastné WordEmbedding (fasttext).
- Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
- Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset
Súvisiace projekty
- Anotácia pomenovaných entít pomocu frameworku Prodigy.
- Predtrénovanie jazykového modelu
Repozitár
- https://github.com/hladek/spacy-skmodel
- Repozitár Jozef Olekšák(slovenské stop words a pravidlá)
- https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely
Ľudia
- Maroš Harahus (štatistické značkovanie)
- Kristián Sopkovič (vylepšenie parametrov, transformery)
Ukončené projekty
- Jozef Olekšák (slovenské stop words a pravidlá),
- Lukáš Pokrývka (Word Embedding Modely)
- Martin Wencel demo aplikácia