Category: bp2022
Bakalárske práce 2022
Ak ste študentom 2. alebo 3. ročníka odboru Počítačové siete na KEMT a máte záujem o niektorú z týchto tém, napíšte e-mail na daniel.hladek@tuke.sk.
Naučíte sa:
- niečo o spracovaní prirodzeného jazyka
- vytvárať webové aplikácie
- pracovať s nástrojmi v jazyku Python
- prekonávať technické problémy
Požiadavky:
- chcieť sa naučiť niečo nové
Témy
Automatické odpovede z Wikipédie
- Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
- Vytvorte demonštračnú webovú aplikáciu.
- Navrhnite zlepšenia systému pre generovanie odpovede.
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
- Vytvorte demonštračnú webovú aplikáciu.
Strojový preklad slovenského jazyka
- Zoberte existujúci systém pre strojový preklad.
- Pripravte existujúci paralelný korpus pre trénovanie.
- Vytvorte model pre strojový preklad slovenského jazyka.
- Vypracujte prehľad aktuálnych metód pre generovanie odpovede na otázku v prirodzenom jazyku
- Natrénujte existujúci systém pre generovanie odpovede na otázku v prirodzenom jazyku.
- Vytvorte demonštračnú webovú aplikáciu.
- Navrhnite zlepšenia systému pre generovanie odpovede.
Rozpoznávanie pomenovaných entít v slovenskom jazyku
- Zlepšite model pre rozpoznávanie pomenovaných entít.
- Anotujte korpus, navrhnite lepší klasifikátor.
Pomenované entity sú väčšinou vlastné podstatné mená v texte. Ich rozpoznanie nám pomôže určiť o čom text je. To sa často využíva v chatbotoch alebo vo vyhľadávaní v texte.
- Vypracujte prehľad metód rpre rozpoznávanie pomenovaných entít v texte.
- Vyberte vhodnú metódu a natrénujte model pre rozpoznávanie pomenovaných entít.
- Vykonajte viacero experimentov a zistite s akými parametrami má model najvyššiu presnosť.
- Navrhnite ďalšie zlepšenia modelu pre rozpoznávanie pomenovaných entít.
Vyhľadávač na slovenskom internete
Databáza dokumentov je k dispozícii. Na vytvorenie indexu je možné použiť Elasticsearch alebo podobný systém.
Dokument je potrebné spracovať pomocou skriptu v jazyku Python alebo Javascript.
- Vytvorte index pre vyhľadávanie v databáze slovenských stránok (Cassandra, Elasticseaech).
- Vytvorte webové rozhranie k vyhľadávaču.
- Vypracujte prehľad metód pre získavanie informácií.
- Vytvorte vyhľadávací index dokumentov zo slovenského internetu.
- Vytvorte demonštračnú webovú aplikáciu pre vyhľadávanie na slovenskom internete.
- Navrhnite zlepšenia vyhľadávania.
Model Spacy pre spracovanie prirodzeného jazyka
Knižnica Spacy je často používaný nástroj na spracovanie prirodzeného jazyka.
Dobrý model slovenčiny pomože pri vývoji virtuálnych asistentov a iných nástrojov.
- Zistite ako pracuje knižnica Spacy a opíšte metódy ktoré používa.
- Natrénujte model pre spracovanie slovenského prirodzeného jazyka.
- Indentifikujte slabé miesta a zlepšite presnosť spracovania.
- Vykonajte viacero experimentov a zistite presnosť pri rôznych parametroch.
Related Articles