Plan działania:
Faza I:
✔️ Parsowanie artykułów reutersa z formatu sgm do stworzonej przez nas klasy.
Ekstrachowanie cech z artykułów znajdujących się już w stworzonej wcześniej klasie.
Faza II:
Wybór cech dla każdej etykiety znajdującej się w wybranym zbiorze testowym, które mają się znaleźć w wektorze testowym.
Faza III:
Określenie wartości wektora cech dla tekstów ze zbioru testowego.
Zamieszczenie wszystkiego w przestrzeni.
Klasyfikacja KNN tekstów ze zbioru testowego, pierwsze kilka mają klasę określoną poprzez podglądanie etykiet.
Faza IV:
Określenie błędów, precyzji itp.. na podstawie: http://rali.iro.umontreal.ca/rali/sites/default/files/publis/SokolovaLapalme-JIPM09.pdf?fbclid=IwAR2M7_a4QxL_F4yCOB_Akp4ghkoUKrBnHT9xzCfuTcoVrLBe3lN3kIlPt00
Zwracanie wyników w jakiś sposób