Podpora slovenčiny v knižnici Spacy

December 6, 2021 Daniel Hladek project 0 minutes, 59 seconds

Trénovanie modelov Spacy

Ciele

  • Vytvoriť modul v jazyku Python pre podporu slovenčiny
  • Natrénovať štatistické modely:
    • pre morfologickú analýzu
    • rozpoznávanie pomenovaných entít
  • Unifikovaný systém pre predspracovanie slovenského jazyka
  • Možné aplikácie:
    • Podporiť dialógový systém RASA
    • Neurónové vyhľadávanie

Hotové úlohy

  • trénovanie modelu Spacy 2, kompletné skripty
  • trénovanie modelu Spacy 3 do SNK POS tagsetu (ver. 3.0), kompletné skripty
  • trénovanie modelu Spacy 3 do UD tagsetu (ver. 3.1.), kompletné skripty
  • zahrnuté slovné vektory Fasttext Common Crawl
  • Trénovanie Dependency, POS pomocu UD Corpus
  • Trénovanie NER pomocou automatického korpusu WikiNER (druhý model).

Budúce úlohy

  • Zahrnúť predtrénované modely (MultilingualBert, SlovakBert....).
  • Nájsť optimálne hyperparametre.
  • Zostaviť korpus pomenovaných entít.
  • Zaradiť model do oficiálnej distribúcie Explosion AI, podmienka je vlastný korpus pomenovaných entít.

Neprioritné úlohy (zásobník)

  • Zaradiť vlastné WordEmbedding (fasttext).
  • Pridať lexikálne pravidlá (skratky, stop slová) do oficiálnej distrubúcie Spacy.
  • Zaradiť MultextEast do trénovania. Tam je ale potrebné konvertovať tagy do UD, napr. pomocou Interset

Súvisiace projekty

Repozitár

  • https://github.com/hladek/spacy-skmodel
  • Repozitár Jozef Olekšák(slovenské stop words a pravidlá)
  • https://files.kemt.fei.tuke.sk/minio/models/spacy/ Hotové spacy modely

Ľudia

Ukončené projekty