Este proyecto tiene como objetivo analizar los factores que influyen en el precio de los diamantes utilizando técnicas de ciencia de datos. A través de la exploración de datos, visualizaciones y modelos predictivos, se identifican patrones que determinan el valor de un diamante basado en sus características físicas, como el quilataje, el color, la claridad y el corte.
Construir un modelo predictivo que estime con precisión el precio de un diamante en función de sus características físicas y cualitativas. Este proyecto busca identificar las variables más relevantes para mejorar la precisión del modelo.
-
Análisis Exploratorio de Datos (EDA)
- Visualizar la distribución del precio y la correlación relaciones entre las variables numéricas y categóricas para obtener información relevante.
- Determinar qué variables tienen la mayor influencia sobre el precio del diamante mediante
- Identificar Outliers
-
Construcción del Modelo
-
Validación y Evaluación del Modelo
- Validar los modelos con datos de prueba (train/test split) para verificar su capacidad predictiva.
- Comparar los resultados obtenidos con diferentes técnicas y algoritmos para seleccionar el mejor modelo.
-
Implementación y Presentación de Resultados
- Crear visualizaciones claras que expliquen los resultados del modelo de manera comprensible para públicos técnicos y no técnicos.
- Datasets: El conjunto de datos contiene información detallada sobre diamantes, incluyendo características como quilates (
carat
), corte (cut
), color (color
), claridad (clarity
), profundidad (depth
), y precio (price
). - Notebooks:
1_EDA.ipynb
: Visualización inicial y análisis descriptivo.2_Data_cleaning_Preprocessing.ipynb
: Procesos para manejar valores atípicos, datos faltantes y estandarización.3_Models.ipynb
: Construcción de modelos de machine learning para predecir precios.4_Results_Evaluation.ipynb
: Comparación de modelos y métricas de desempeño.