Этот репозиторий - мой пет-проект на Python, представляющий из себя парсер для сбора данных о чудовищах из игры "Ведьмак 3: Дикая Охота" и ее DLC с сайта Ведьмак Вики.
- src - директория с исходным кодом парсера
- results - директория с примерами результатов выполнения программы - файлами .csv и .xlsx
- requirements.txt - зависимости проекта
- .gitignore - ну с ним все ясно
В проекте использовались такие библиотеки, как BeautifulSoup, requests, lxml, CSV.
Первые 3 необходимы для отправки запроса на веб-страницу и получения ответа от нее в формате HTML для последующего ее разбора по тэгам. То есть:
- Отправили запрос на страничку
- Получили ответ
- Распарсили текст ответа
- Теперь мы можем осуществлять поиск содержимого странички по тэгам
То есть мы на главной страничке собираем данные об именах (названиях) всех чудовищ, далее отправляем поочередно запросы на URL странички, посвященной конкретному чудовищу, собираем всю необходимую нам информацию и записываем данные об очереднеом монстре как новую строку выходного файла формата CSV.
Несмотря на отстутствие блокировок со стороны сайта по IP-адресу, в проекте продемонстрировано использование прокси.
В качестве прокси-сервера выступает браузер Tor.
Подробнее про настройку конфигурационного файла Tor для этих целей можно почитать в этой статье на Хабре - https://habr.com/ru/companies/ruvds/articles/486688/