Este projeto tem como objetivo analisar e prever o engajamento de influenciadores no Instagram utilizando um modelo de regressão linear. A base de dados utilizada contém informações sobre o número de seguidores, posts, curtidas, e taxa de engajamento, entre outras variáveis.
A partir da base de dados dos influenciadores do Instagram, o projeto busca analisar a relação entre diversas variáveis e a taxa de engajamento dos influenciadores. O modelo de regressão linear foi utilizado para entender essa relação e realizar previsões sobre a taxa de engajamento com base em variáveis como o número de seguidores, curtidas por post e a média de curtidas em posts recentes.
- Analisar a correlação entre variáveis como seguidores, curtidas e número de postagens.
- Construir e treinar um modelo de regressão linear para prever a taxa de engajamento.
- Comparar o modelo de regressão linear com os modelos de regularização Lasso e Ridge.
- Avaliar a precisão do modelo utilizando métricas como MSE, MAE, e R².
A base de dados utilizada foi baixada do Kaggle e contém informações sobre influenciadores no Instagram. O dataset inclui as seguintes colunas principais:
- followers: Número de seguidores do influenciador.
- posts: Número de postagens feitas pelo influenciador.
- avg_likes: Média de curtidas por post.
- 60_day_eng_rate: Taxa de engajamento dos últimos 60 dias.
- new_post_avg_like: Média de curtidas nos novos posts.
O dataset foi limpo para remover dados nulos e valores inconsistentes.
- Clone o Repositório Primeiro, faça o clone do repositório em sua máquina local:
git clone https://github.com/aureliodeboa/Restic36-Ciencia-de-Dados.git
cd .\Restic36-Ciencia-de-Dados\
- Configure o Ambiente Certifique-se de que possui o Python 3.7 ou superior instalado. Recomenda-se a utilização de um ambiente virtual para instalar as dependências:
python -m venv venv
source venv/bin/activate # Linux/Mac
venv\Scripts\activate # Windows
- Instale as Dependências Instale todas as bibliotecas necessárias listadas no arquivo requirements.txt:
pip install -r requirements.txt
Alternativamente você pode instalar as dependências manualmente:
pip install kagglehub pandas seaborn numpy matplotlib scikit-learn
Certifique-se de ter os seguintes pacotes Python instalados:
pandas
seaborn
numpy
matplotlib
sklearn
kagglehub
-
Baixe o dataset utilizando o KaggleHub:
import kagglehub path = kagglehub.dataset_download("surajjha101/top-instagram-influencers-data-cleaned")
-
Carregue o dataset e realize uma análise exploratória dos dados:
import pandas as pd df = pd.read_csv('path/to/dataset.csv')
-
Limpeza e transformação dos dados, como remover valores nulos e converter unidades:
df = df.dropna(subset=['country'])
-
Visualize a correlação entre as variáveis com um gráfico de dispersão e matriz de correlação:
import seaborn as sns sns.heatmap(df.corr(), annot=True)
-
Normalize os dados e divida o conjunto de dados entre treino e teste:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
-
Treine o modelo de regressão linear e calcule as métricas de avaliação:
from sklearn.linear_model import LinearRegression model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
-
Avalie o modelo com as métricas MSE, MAE e R².
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score mse = mean_squared_error(y_test, y_pred) mae = mean_absolute_error(y_test, y_pred) r2 = r2_score(y_test, y_pred)
- MSE: [0.0059]
- MAE: [0.0442]
- R²: [0.8153]
Os resultados mostram que o modelo de regressão linear conseguiu explicar uma parte significativa da variabilidade na taxa de engajamento dos influenciadores com uma boa precisão.
O relatório detalhado deste projeto, incluindo a metodologia, análise de dados e resultados obtidos, pode ser encontrado no arquivo PDF relatorio.pdf.
O modelo de regressão linear forneceu uma boa base para análise de tendências no engajamento de influenciadores do Instagram. Embora o modelo tenha mostrado bons resultados, outras variáveis, como o conteúdo dos posts e a frequência de postagens, podem influenciar ainda mais a taxa de engajamento e poderiam ser exploradas em modelos mais complexos.
Autores: Andressa Carvalho, Aurélio José