Este projeto demonstra o uso de técnicas de clusterização para análise de dados de um e-commerce, utilizando algoritmos como K-Means e DBSCAN. O objetivo é aplicar métodos de pré-processamento e avaliação de modelos, bem como visualizar os resultados obtidos a partir da análise de dados de transações de clientes.
- Pré-processamento e normalização dos dados utilizando
pandas
esklearn
- Análise exploratória de dados com visualizações interativas utilizando
matplotlib
,seaborn
eplotly
- Clusterização com os algoritmos
K-Means
eDBSCAN
- Avaliação de clusters com métricas:
- Silhouette Score
- Calinski-Harabasz Score
- Davies-Bouldin Score
- Visualização do número ideal de clusters com a ferramenta
yellowbrick
pandas
– Manipulação de dadosnumpy
– Operações matemáticas e numéricasmatplotlib
– Visualizações básicasseaborn
– Visualizações avançadasplotly
– Visualizações interativasscikit-learn
– Algoritmos de machine learningyellowbrick
– Visualização do número ideal de clusters
- Clone o repositório:
git clone https://github.com/Ogarit/Clusteriza-o_e_Analise_de_Dados_de_um_E-Commerce.git
- Descompacte o arquivo de dados: O arquivo
data.rar
contém os dados necessários para a análise. Use o WinRAR ou outro software para descompactá-lo. - Instale as dependências necessárias: Instale as bibliotecas necessárias utilizando o pip:
pip install pandas numpy matplotlib seaborn plotly scikit-learn yellowbrick
- Abra o Jupyter Notebook: Após instalar as dependências, abra o notebook para rodar a análise:
jupyter notebook cluster.ipynb
cluster.ipynb
: O notebook principal que contém a análise de clusterização, incluindo o pré-processamento dos dados, a aplicação dos algoritmos e as visualizações.data.rar
: Arquivo compactado contendo os dados do e-commerce.
Os dados utilizados neste projeto foram obtidos a partir de um conjunto disponível no Kaggle. O arquivo contém informações de transações realizadas em uma loja online, com as seguintes colunas:
- InvoiceNo: Identificação da transação
- StockCode: Código de estoque do produto
- Description: Descrição do produto
- Quantity: Quantidade de produtos vendidos por transação
- InvoiceDate: Data da transação
- UnitPrice: Preço unitário do produto
- CustomerID: Identificação do cliente
- Country: País de origem da transação