Ján Holp
Ján Holp
Rok začiatku štúdia: 2016
Diplomová práca 2021
Názov diplomovej práce: Systém získavania informácií v slovenskom jazyku.
Meno vedúceho: Ing. Daniel Hládek, PhD.
Zadanie diplomovej práce:
- Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií.
- Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
- Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov.
- Navrhnite možné zlepšenia presnosti vyhľadávania.
Stretnutie 12.3.
Stav:
- Implementovaný PageRank, indexovanie webových stránok
Úlohy:
- Pripravte experiment s PageRank, databáza SCNC2, vyhodnotenie pomocou P-R-F1
- Pozrite do knihy na metódy vyhodnotenta s PageRank
- Pozrite do knihy a skúste pripraviť inú metriku.
- Popri tom priprave demonštráciu s webovým rozhraním.
Diplomový projekt 2 2020
Zásobník úloh:
- Urobiť verejné demo - nasadenie pomocou systému Docker. Využiť veľké slovenské dáta z internetu.
- zlepšenie Web UI
- vytvoriť REST api pre indexovanie dokumentu.
- V indexe prideliť ohodnotenie každému dokumentu podľa viacerých metód, napr. PageRank
-
Využiť vyhodnotenie pri vyhľadávaní
- Použiť overovaciu databázu SCNC na vyhodnotenie každej metódy
- Do konca zimného semestra vytvoriť "Mini Diplomovú prácu cca 8 strán s experimentami" vo forme článku
Virtuálne stretnutie 7.1.2020:
Dohoda na zmene smerovania práce. Chceme:
- Rozšíriť BP o vyhľadávanie pomocou PageRank
- Doplniť pagerank do indexu z BP
- zakomponovať Pagerank do vyhľadávania a zistiť ako to ovplyvnilo P-R
- Implementovať podobným spôsobom minimálne jednu ďalšiu metriku zo študijnej literatúry
- Zásobník úloh ostáva ak bude čas. Napr. vyrobiť demo aj z BP.
Virtuálne stretnutie 18.12:2020:
Žiaden pokrok.
Virtuálne stretnutie 3.1ľ:2020:
Riešenie technických problémov ako implementovať PageRank.
Virtuálne stretnutie 13.11:2020:
Stav:
- Vyriešené technické problémy s cassandrou. Vieme indexovať z Cassandra do ES.
Úlohy na ďalšie stretnutie:
- urobte návrh metódy PageRank.
- priprave Vaše kódy do formy web aplikácie a dajte ich do repozitára.
- backend s REST API.
- frontend s Javascriptom.
- skúste pripraviť Dockerfile s Vašou aplikáciou.
Virtuálne stretnutie 6.11:2020:
Stav:
- Riešenie problémov s cassandrou a javascriptom. Ako funguje funkcia then?
Úlohy na ďalšie stretnutie:
- vypracujte funkciu na indexovanie. Vstup je dokument (objekt s textom a metainformáciami). Fukcia zaindexuje dokument do ES.
- Naštudujte si ako funguje funkcia then a čo je to callback.
- Naštudujte si ako sa používa Promise.
- Naštudujte si ako funguje async - await.
- https://developer.mozilla.org/en-US/docs/Learn/JavaScript/Asynchronous/
Virtuálne stretnutie 23.10:2020:
Stav:
- Riešenie problémov s cassandrou. Ako vybrať dáta podľa primárneho kľúča.
Do ďalšiehio stretnutia:
- pokračovať v otvorených úlohách.
- urobte funkciu pre indexovanie jedného dokumentu.
Virtuálne stretnutie 16.10.
Stav:
- Riešenie problémov s pripojením na Cassandru.
- Riešenie spôsobu výberu dát z databázy a indexovanie.
Do ďalšieho stretnutia:
- Pokračovať v otvorených úlohách z minulého stretnutia.
Virtuálne stretnutie 2.10.2020
Urobené:
- Výber a indexovanie dát z Cassandry
Do ďalšieho stretnutia:
- pracovať ďalej na indexovaní, použite Cassandra Javascript API
- urobte návrh metódy PageRank
- urobte si GIT repozitár nazvite ho dp2021 a dajte tam zdrojové kódy
- priprave Vaše kódy do formy web aplikácie
- backend s REST API
- frontend s Javascriptom
- skúste pripraviť Dockerfile s Vašou aplikáciou
Diplomový projekt 2020
Virtuálne stretnutie 23.6.2020:
Hotové:
- funguje databáza Cassandra
- funguje web rozhranie
- funguje indexovanie zo súboru.
Výsledky sú v ZIP súbore
Treba dokončiť:
- Indexovanie z Cassandra do ES
Virtuálne stretnutie 14.5.2020:
Nové úlohy:
- Rozbehať Cassandra DB a agenta pre získavanie textu
- Indexovať dokumnety z Cassandra DB do Elasticsearch
- Pokračovať na práci na Web rozhraní
- Doriešiť obnovenie slovenskej konfigurácie
Urobené:
- rozrobené web rozhranie
- rozrobené indexovanie do ElasticSearch
Revízia 13.5.2020:
- Potrebné skompletizovať zdrojové kódy.
- Nová verzia agenta pre získavanie textu: https://git.kemt.fei.tuke.sk/dano/websucker-pip
Revízia 9.4.2020:
Návod na prácu s Elasticsearch : Návod
Návod na spustenie web aplikácie : Návod
Záznam o doterajšom pokroku : Pokrok
Úloha:
- Nainštalujte si a oboznámte sa s agentom pre získavanie textu.
- Zistite, aká je štruktúra dokumentov v indexoch.
- vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu.
Stretnutie 20.2.2020
Úlohy na tento semester:
- Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu.
- Nájsť spôsob ako vytvoriť verejne prístupné demo.
Do ďalšieho stretnutia:
- Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod.
- Porozmýšľajte nad HTML používateľským rozhraním.
Tímový projekt 2019
Písomná práca : Rešerš
Úlohy tímového projektu:
- Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
- Sústreďte sa najprv na algoritmus PageRank a BM25
- citujte 10 najvýznamnejších bibliografických zdrojov
Poznámky k vypracovaniu DP
- možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
- možnosť vypracovať jednoduché demo web vyhľadávača
- inšpirácia Agent pre získavanie textu "dano/websucker"
- Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)
Bakalárska práca 2019
Meno vedúceho: Ing. Daniel Hládek, PhD.
Názov bakalárskej práce: Vyhľadávač na slovenskom internete
Text bakalárskej práce: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)
Zadanie bakalárskej práce:
- Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti.
- Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte.
- Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania.
- Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania.