О репозитории

Этот репозиторий - мой пет-проект на Python, представляющий из себя парсер для сбора данных о чудовищах из игры "Ведьмак 3: Дикая Охота" и ее DLC с сайта Ведьмак Вики.

В этом репозитории

src - директория с исходным кодом парсера
results - директория с примерами результатов выполнения программы - файлами .csv и .xlsx
requirements.txt - зависимости проекта
.gitignore - ну с ним все ясно

Как работает

Задействованные библиотеки

В проекте использовались такие библиотеки, как BeautifulSoup, requests, lxml, CSV.

Первые 3 необходимы для отправки запроса на веб-страницу и получения ответа от нее в формате HTML для последующего ее разбора по тэгам. То есть:

Отправили запрос на страничку
Получили ответ
Распарсили текст ответа
Теперь мы можем осуществлять поиск содержимого странички по тэгам

То есть мы на главной страничке собираем данные об именах (названиях) всех чудовищ, далее отправляем поочередно запросы на URL странички, посвященной конкретному чудовищу, собираем всю необходимую нам информацию и записываем данные об очереднеом монстре как новую строку выходного файла формата CSV.

Прокси и обход блокировок

Несмотря на отстутствие блокировок со стороны сайта по IP-адресу, в проекте продемонстрировано использование прокси.

В качестве прокси-сервера выступает браузер Tor.

Подробнее про настройку конфигурационного файла Tor для этих целей можно почитать в этой статье на Хабре - https://habr.com/ru/companies/ruvds/articles/486688/

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

О репозитории

В этом репозитории

Как работает

Задействованные библиотеки

Прокси и обход блокировок

Files

README.md

Latest commit

History

README.md

File metadata and controls

О репозитории

В этом репозитории

Как работает

Задействованные библиотеки

Прокси и обход блокировок