Projekt z przedmiotu WEDT - Wprowadzenie do eksploracji danych tekstowych w sieci WWW
Odpowiadanie na pytania (Question Answering). 2-3 os.
- jezyk implementacji: dowolny
Zadania:
- Studia literaturowe.
- Wybor rozwiazania.
- Zgromadzenie i przygotowanie danych do uczenia.
- Wytrenowanie modelu.
Program zajmuje się odpytywaniem popularnych wyszukiwarek internetowych, celem zdobycia podsumowań (snippetów), z których wyciągane będą odpowiedzi na zadane pytania. Wykorzystuje on przeglądarkę headless, bez renderowania okna. Do jej uruchomienia, oprócz należy zainstalować odpowiedni driver do Firefoxa. Aby to zrobić, po zainstalowaniu środowiska i otworzeniu shella, należy wykonać polecenie webdrivermanager firefox
. Pobierze to odpowiedni sterownik, zainstaluje w wirtualnym środowisku i pozwoli na uruchamianie przeglądarki w trybie headless.
Program który odpowiada na zadane pytania. Komunikuje się z innymi serwisami aby uzyskać potrzebną bazę wiedzy, wyniki analizy morfologicznej, rozkłady zdania oraz inne informacje potrzebne do ekstrakcji odpowiedzi.
Moduł do półautomatycznego testowania dokładności naszego rozwiązania. Pobiera pytania z arkusza kalkulacyjnego pytania.xlsx
a zebrane odpowiedzi zapisuje w pliku wyniki.xlsx
. W celu przetestowania rozwiązania, oba serwery kps
i zapytajka
należy uruchomić w trybie produkcyjnym. Aby to zrobić należy uruchomić komendę gunicorn -w 4 -b 127.0.0.1:5000 --timeout 10000 summary_search:app
oraz gunicorn -w 4 -b 127.0.0.1:5010 --timeout 10000 kps:app
. Po uruchomieniu obu usług, należy uruchomić program testujący jako zwykły skrypt python tester.py
.