Category: bp2022

Bakalárske práce 2022

Ak ste študentom 2. alebo 3. ročníka odboru Počítačové siete na KEMT a máte záujem o niektorú z týchto tém, napíšte e-mail na daniel.hladek@tuke.sk.

Naučíte sa:

  • niečo o spracovaní prirodzeného jazyka
  • vytvárať webové aplikácie
  • pracovať s nástrojmi v jazyku Python
  • prekonávať technické problémy

Požiadavky:

  • chcieť sa naučiť niečo nové

Témy

Automatické odpovede z Wikipédie

  1. Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku
  2. Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
  3. Vytvorte demonštračnú webovú aplikáciu.
  4. Navrhnite zlepšenia systému pre generovanie odpovede.
  • Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
  • Vytvorte demonštračnú webovú aplikáciu.

Strojový preklad slovenského jazyka

  • Zoberte existujúci systém pre strojový preklad.
  • Pripravte existujúci paralelný korpus pre trénovanie.
  • Vytvorte model pre strojový preklad slovenského jazyka.
  1. Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku
  2. Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
  3. Vytvorte demonštračnú webovú aplikáciu.
  4. Navrhnite zlepšenia systému pre generovanie odpovede.

Rozpoznávanie pomenovaných entít v slovenskom jazyku

  • Zlepšite model pre rozpoznávanie pomenovaných entít.
  • Anotujte korpus, navrhnite lepší klasifikátor.

Pomenované entity sú väčšinou vlastné podstatné mená v texte. Ich rozpoznanie nám pomôže určiť o čom text je. To sa často využíva v chatbotoch alebo vo vyhľadávaní v texte.

  1. Vypracujte prehľad metód rpre rozpoznávanie pomenovaných entít v texte.
  2. Vyberte vhodnú metódu a natrénujte model pre rozpoznávanie pomenovaných entít.
  3. Vykonajte viacero experimentov a zistite s akými parametrami má model najvyššiu presnosť.
  4. Navrhnite ďalšie zlepšenia modelu pre rozpoznávanie pomenovaných entít.

Vyhľadávač na slovenskom internete

Databáza dokumentov je k dispozícii. Na vytvorenie indexu je možné použiť Elasticsearch alebo podobný systém. Dokument je potrebné spracovať pomocou skriptu v jazyku Python alebo Javascript.

  • Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
  • Vytvorte webové rozhranie k vyhľadávaču.
  1. Vypracujte prehľad metód pre získavanie informácií.
  2. Vytvorte vyhľadávací index dokumentov zo slovenského internetu.
  3. Vytvorte demonštračnú webovú aplikáciu pre vyhľadávanie na slovenskom internete.
  4. Navrhnite zlepšenia vyhľadávania.

Model Spacy pre spracovanie prirodzeného jazyka

Knižnica Spacy je často používaný nástroj na spracovanie prirodzeného jazyka. Dobrý model slovenčiny pomože pri vývoji virtuálnych asistentov a iných nástrojov.

  1. Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
  2. Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
  3. Indentifikujte slabé miesta a zlepšite presnosť spracovania.
  4. Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.

Related Articles