Este repositorio contiene un proyecto de análisis de datos que investiga la relación entre hábitos de vida (como fumar, beber y hacer ejercicio) y la probabilidad de cáncer. Utilizando PySpark, el proyecto analiza un conjunto de datos que incluye diferentes hábitos de los participantes y su probabilidad asociada de desarrollar cáncer
link donde se obtiene el dataset wget www.kaggle.com/datasets/tusharkute/cancer-probabilities/croissant/download