Skip to content

Data collection and cleaning from real estate and internet sites

Notifications You must be signed in to change notification settings

WilliamCallao/Automated-Scraping-Tool

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

45 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Proyecto de Big Data: Recolección y Limpieza de Datos

Este proyecto tiene como objetivo recolectar y limpiar datos de tres sitios web diferentes utilizando web scraping. Los datos recolectados se utilizarán para análisis y estudios de mercado en los sectores inmobiliarios y de servicios de internet.

Sitios Objetivo

  1. LosTiempos - Sección de Inmuebles
  2. Zillow - Sitio de Bienes Raíces
  3. ATT - Paquetes de Internet

Instalación

Requisitos

  • Python 3.x
  • Virtualenv (opcional, pero recomendado)

Pasos

  1. Clonar el repositorio:

    git clone https://github.com/WilliamCallao/ATT-Automated-Scraping-Tool.git
    cd tu_repositorio
  2. Crear un entorno virtual (opcional):

    python -m venv env
    source env/bin/activate  # En Windows: env\Scripts\activate
  3. Instalar las dependencias para cada subproyecto:

    cd ATT_Tarifas
    pip install -r requirements.txt
    cd ../LosTiempos_Inmuebles
    pip install -r requirements.txt
    cd ../Zillow_Inmuebles
    pip install -r requirements.txt

Uso

ATT Tarifas

Para ejecutar el script de scraping de ATT:

cd ATT_Tarifas
python ATT_scraper.py

Para ejecutar la herramienta de recoleccion

cd ATT_Tarifas
python Programa.py

image

Los Tiempos Inmuebles

Para ejecutar el script de scraping de Los Tiempos:

cd LosTiempos_Inmuebles
python Scraper.py

Para limpiar los datos:

python DataCleaner.py

Zillow Inmuebles

Para ejecutar el script de scraping de Zillow:

cd Zillow_Inmuebles
python Scraper.py

About

Data collection and cleaning from real estate and internet sites

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages