Парсинг данных по продуктам на сайте.

Краткое описание

Скрипт был написан в рамках реальной задачи для АШАН. Целью являются выгрузка артикулов и наименований товаров с сайта для формирования актуальной базы по товарам на сайте.

Задачи:

Создать срипт для парсинга сайта;
Выгрузить массив данных с артикулами и наименованиями товаров;
Выгрузить существующую базу по товарам с помощью SQL;
Объединенить таблицы для добавления навигационных столбцов;
Загрузка полученного результата в базу.

Проект выполнен с нуля и предназначен только для выгрузки определенных данных.

Результаты:

Создан рабочий код для конкретной задачи;
Финальные данные используются при проведении маркетинговых акций. Можно быстро получить данные по требуемым категориям.

Полный скрипт расположен в файле "Parsing_auchan.ipynb".

Стэк:

Python
SQL
Parsing
HTML

Библиотеки для работы с Python, SQL и Запросами на сайт.

import requests
from bs4 import BeautifulSoup
import pandas as pd
import math
import time
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
import psycopg2
from sqlalchemy import create_engine

Библиотеки для оформления кода

import ipywidgets as wi
from ipywidgets import IntProgress
from IPython.display import display
from ipywidgets import Layout

Полученные выгрузки не выкладываются в общий доступ из-за конфеденциальности. Также скрыты все доступы для подключения к базам.

Последние изменения

Код оптимизирован путем добавления класса и методов для выгрузки разных типов категорий с сайта. В класс не входят функции для оформления кода и загрузки базы в Dbeaver.

Процесс

Для подключения использовалась бибилотека BeautifulSoup. Все этапы получения данных разделены на методы, чтобы весь процесс был более отслеживаемым и наглядным.

В связи с тем, что процесс парсинга может занимать довольно длительное время, у каждого метода в классе присутствует виджет с процентами загрузки данных, а также простой подсчет оставшегося времени получения выгрузки.

Финальный результат

Итоговая таблица, загружаемая обратно в базы данных, выглядит следующим образом:

Name		Name	Last commit message	Last commit date
Latest commit History 15 Commits
Parsing_Aushan.ipynb		Parsing_Aushan.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Парсинг данных по продуктам на сайте.

Краткое описание

Библиотеки для работы с Python, SQL и Запросами на сайт.

Библиотеки для оформления кода

Последние изменения

Процесс

Финальный результат

About

Releases

Packages

Languages

AlenaLes/Parsing

Folders and files

Latest commit

History

Repository files navigation

Парсинг данных по продуктам на сайте.

Краткое описание

Библиотеки для работы с Python, SQL и Запросами на сайт.

Библиотеки для оформления кода

Последние изменения

Процесс

Финальный результат

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages