Ján Holp

March 12, 2021 Daniel Hladek dp2021, bp2019 3 minutes, 59 seconds

Ján Holp

Rok začiatku štúdia: 2016

Diplomová práca 2021

Názov diplomovej práce: Systém získavania informácií v slovenskom jazyku.

Meno vedúceho: Ing. Daniel Hládek, PhD.

Zadanie diplomovej práce:

  1. Vypracujte prehľad metód ohodnotenia dokumentov v systémoch získavania informácií.
  2. Implementujte jednoduchý systém pre získavanie informácií v slovenskom jazyku, v ktorom využijete ohodnotenie dokumentov.
  3. Navrhnite a vypracujte experimenty, v ktorých vyhodnotíte vybrané metódy odhodnotenia dokumentov.
  4. Navrhnite možné zlepšenia presnosti vyhľadávania.

Stretnutie 12.3.

Stav:

  • Implementovaný PageRank, indexovanie webových stránok

Úlohy:

  • Pripravte experiment s PageRank, databáza SCNC2, vyhodnotenie pomocou P-R-F1
  • Pozrite do knihy na metódy vyhodnotenta s PageRank
  • Pozrite do knihy a skúste pripraviť inú metriku.
  • Popri tom priprave demonštráciu s webovým rozhraním.

Diplomový projekt 2 2020

Zásobník úloh:

  • Urobiť verejné demo - nasadenie pomocou systému Docker. Využiť veľké slovenské dáta z internetu.
  • zlepšenie Web UI
  • vytvoriť REST api pre indexovanie dokumentu.
  • V indexe prideliť ohodnotenie každému dokumentu podľa viacerých metód, napr. PageRank
  • Využiť vyhodnotenie pri vyhľadávaní

  • Použiť overovaciu databázu SCNC na vyhodnotenie každej metódy
  • Do konca zimného semestra vytvoriť "Mini Diplomovú prácu cca 8 strán s experimentami" vo forme článku

Virtuálne stretnutie 7.1.2020:

Dohoda na zmene smerovania práce. Chceme:

  • Rozšíriť BP o vyhľadávanie pomocou PageRank
  • Doplniť pagerank do indexu z BP
  • zakomponovať Pagerank do vyhľadávania a zistiť ako to ovplyvnilo P-R
  • Implementovať podobným spôsobom minimálne jednu ďalšiu metriku zo študijnej literatúry
  • Zásobník úloh ostáva ak bude čas. Napr. vyrobiť demo aj z BP.

Virtuálne stretnutie 18.12:2020:

Žiaden pokrok.

Virtuálne stretnutie 3.1ľ:2020:

Riešenie technických problémov ako implementovať PageRank.

Virtuálne stretnutie 13.11:2020:

Stav:

  • Vyriešené technické problémy s cassandrou. Vieme indexovať z Cassandra do ES.

Úlohy na ďalšie stretnutie:

  • urobte návrh metódy PageRank.
  • priprave Vaše kódy do formy web aplikácie a dajte ich do repozitára.
    • backend s REST API.
    • frontend s Javascriptom.
    • skúste pripraviť Dockerfile s Vašou aplikáciou.

Virtuálne stretnutie 6.11:2020:

Stav:

  • Riešenie problémov s cassandrou a javascriptom. Ako funguje funkcia then?

Úlohy na ďalšie stretnutie:

  • vypracujte funkciu na indexovanie. Vstup je dokument (objekt s textom a metainformáciami). Fukcia zaindexuje dokument do ES.
  • Naštudujte si ako funguje funkcia then a čo je to callback.
  • Naštudujte si ako sa používa Promise.
  • Naštudujte si ako funguje async - await.
  • https://developer.mozilla.org/en-US/docs/Learn/JavaScript/Asynchronous/

Virtuálne stretnutie 23.10:2020:

Stav:

  • Riešenie problémov s cassandrou. Ako vybrať dáta podľa primárneho kľúča.

Do ďalšiehio stretnutia:

  • pokračovať v otvorených úlohách.
  • urobte funkciu pre indexovanie jedného dokumentu.

Virtuálne stretnutie 16.10.

Stav:

  • Riešenie problémov s pripojením na Cassandru.
  • Riešenie spôsobu výberu dát z databázy a indexovanie.

Do ďalšieho stretnutia:

  • Pokračovať v otvorených úlohách z minulého stretnutia.

Virtuálne stretnutie 2.10.2020

Urobené:

  • Výber a indexovanie dát z Cassandry

Do ďalšieho stretnutia:

  • pracovať ďalej na indexovaní, použite Cassandra Javascript API
  • urobte návrh metódy PageRank
  • urobte si GIT repozitár nazvite ho dp2021 a dajte tam zdrojové kódy
  • priprave Vaše kódy do formy web aplikácie
    • backend s REST API
    • frontend s Javascriptom
    • skúste pripraviť Dockerfile s Vašou aplikáciou

Diplomový projekt 2020

Virtuálne stretnutie 23.6.2020:

Hotové:

  • funguje databáza Cassandra
  • funguje web rozhranie
  • funguje indexovanie zo súboru.

Výsledky sú v ZIP súbore

Treba dokončiť:

  • Indexovanie z Cassandra do ES

Virtuálne stretnutie 14.5.2020:

Nové úlohy:

  • Rozbehať Cassandra DB a agenta pre získavanie textu
  • Indexovať dokumnety z Cassandra DB do Elasticsearch
  • Pokračovať na práci na Web rozhraní
  • Doriešiť obnovenie slovenskej konfigurácie

Urobené:

  • rozrobené web rozhranie
  • rozrobené indexovanie do ElasticSearch

Revízia 13.5.2020:

  • Potrebné skompletizovať zdrojové kódy.
  • Nová verzia agenta pre získavanie textu: https://git.kemt.fei.tuke.sk/dano/websucker-pip

Revízia 9.4.2020:

Návod na prácu s Elasticsearch : Návod

Návod na spustenie web aplikácie : Návod

Záznam o doterajšom pokroku : Pokrok

Úloha:

  • Nainštalujte si a oboznámte sa s agentom pre získavanie textu.
  • Zistite, aká je štruktúra dokumentov v indexoch.
  • vytvorte návrh a prototyp webovej aplikácie ktorá bude slúžiť ako rozhranie k vyhľadávaciemu indexu.

Stretnutie 20.2.2020

Úlohy na tento semester:

  • Nainštalovať Elasticsearch a zindexovať veľkú databázu dát z webu.
  • Nájsť spôsob ako vytvoriť verejne prístupné demo.

Do ďalšieho stretnutia:

  • Vytvorte git repozitár a dajte tam výsledky z bakalárskej práce. Vytvorte k tomu návod.
  • Porozmýšľajte nad HTML používateľským rozhraním.

Tímový projekt 2019

Písomná práca : Rešerš

Úlohy tímového projektu:

  • Vypracujte min. 4 stranový abstrakt z knihy "Hang Li: Learning to Rank for Information Retrieval and Natural Language Processing"
  • Sústreďte sa najprv na algoritmus PageRank a BM25
  • citujte 10 najvýznamnejších bibliografických zdrojov

Poznámky k vypracovaniu DP

  • možnosť pracovať s veľkými dátami Elasticsearch, je nutné sprevádzkovať ES Cluster.
  • možnosť vypracovať jednoduché demo web vyhľadávača
  • inšpirácia Agent pre získavanie textu "dano/websucker"
  • Pozrite si Python knižnice pre elasticsearch, a information retrieval (pagerank a pod.)

Bakalárska práca 2019

Meno vedúceho: Ing. Daniel Hládek, PhD.

Názov bakalárskej práce: Vyhľadávač na slovenskom internete

Text bakalárskej práce: (https://opac.crzp.sk/?fn=detailBiblioForm&sid=A4CA3C451D400D4BD034603141D1)

Zadanie bakalárskej práce:

  1. Zostaviť prehľad aktuálnych metód vyhľadávania v textových dátach a metód vyhodnotenia presnosti.
  2. Navrhnúť a opísať vlastnú metódu indexovania a vyhľadávania v slovenskom texte.
  3. Navrhnúť a vykonať sadu experimentov pomocou ktorých sa vyhodnotí navrhnutá metóda indexovania a vyhľadávania.
  4. Na základe experimentov navrhnúť vylepšenia navrhnutej metódy vyhľadávania.

Bakalárska práca 2018 - Vyhľadávač na slovenskom internete

alt