Skip to content

Latest commit

 

History

History
31 lines (20 loc) · 2.52 KB

README.md

File metadata and controls

31 lines (20 loc) · 2.52 KB

О репозитории

Этот репозиторий - мой пет-проект на Python, представляющий из себя парсер для сбора данных о чудовищах из игры "Ведьмак 3: Дикая Охота" и ее DLC с сайта Ведьмак Вики.

В этом репозитории

  • src - директория с исходным кодом парсера
  • results - директория с примерами результатов выполнения программы - файлами .csv и .xlsx
  • requirements.txt - зависимости проекта
  • .gitignore - ну с ним все ясно

Как работает

Задействованные библиотеки

В проекте использовались такие библиотеки, как BeautifulSoup, requests, lxml, CSV.

Первые 3 необходимы для отправки запроса на веб-страницу и получения ответа от нее в формате HTML для последующего ее разбора по тэгам. То есть:

  1. Отправили запрос на страничку
  2. Получили ответ
  3. Распарсили текст ответа
  4. Теперь мы можем осуществлять поиск содержимого странички по тэгам

То есть мы на главной страничке собираем данные об именах (названиях) всех чудовищ, далее отправляем поочередно запросы на URL странички, посвященной конкретному чудовищу, собираем всю необходимую нам информацию и записываем данные об очереднеом монстре как новую строку выходного файла формата CSV.

Прокси и обход блокировок

Несмотря на отстутствие блокировок со стороны сайта по IP-адресу, в проекте продемонстрировано использование прокси.

В качестве прокси-сервера выступает браузер Tor.

Подробнее про настройку конфигурационного файла Tor для этих целей можно почитать в этой статье на Хабре - https://habr.com/ru/companies/ruvds/articles/486688/