Skip to content

Парсинг данных по продуктам для сопоставления с базами данных

Notifications You must be signed in to change notification settings

AlenaLes/Parsing

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

15 Commits
 
 
 
 

Repository files navigation

Парсинг данных по продуктам на сайте.

Краткое описание

Скрипт был написан в рамках реальной задачи для АШАН. Целью являются выгрузка артикулов и наименований товаров с сайта для формирования актуальной базы по товарам на сайте.

Задачи:

  • Создать срипт для парсинга сайта;
  • Выгрузить массив данных с артикулами и наименованиями товаров;
  • Выгрузить существующую базу по товарам с помощью SQL;
  • Объединенить таблицы для добавления навигационных столбцов;
  • Загрузка полученного результата в базу.

Проект выполнен с нуля и предназначен только для выгрузки определенных данных.

Результаты:

  • Создан рабочий код для конкретной задачи;
  • Финальные данные используются при проведении маркетинговых акций. Можно быстро получить данные по требуемым категориям.

Полный скрипт расположен в файле "Parsing_auchan.ipynb".

Стэк:

  • Python
  • SQL
  • Parsing
  • HTML

Библиотеки для работы с Python, SQL и Запросами на сайт.

import requests
from bs4 import BeautifulSoup
import pandas as pd
import math
import time
from requests.packages.urllib3.exceptions import InsecureRequestWarning
requests.packages.urllib3.disable_warnings(InsecureRequestWarning)
import psycopg2
from sqlalchemy import create_engine

Библиотеки для оформления кода

import ipywidgets as wi
from ipywidgets import IntProgress
from IPython.display import display
from ipywidgets import Layout

Полученные выгрузки не выкладываются в общий доступ из-за конфеденциальности. Также скрыты все доступы для подключения к базам.


Последние изменения

Код оптимизирован путем добавления класса и методов для выгрузки разных типов категорий с сайта. В класс не входят функции для оформления кода и загрузки базы в Dbeaver.


Процесс

Для подключения использовалась бибилотека BeautifulSoup. Все этапы получения данных разделены на методы, чтобы весь процесс был более отслеживаемым и наглядным.

В связи с тем, что процесс парсинга может занимать довольно длительное время, у каждого метода в классе присутствует виджет с процентами загрузки данных, а также простой подсчет оставшегося времени получения выгрузки.

image


Финальный результат

Итоговая таблица, загружаемая обратно в базы данных, выглядит следующим образом:

1

About

Парсинг данных по продуктам для сопоставления с базами данных

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published