Projeto de Regressão Linear: Análise de Engajamento de Influenciadores no Instagram

Este projeto tem como objetivo analisar e prever o engajamento de influenciadores no Instagram utilizando um modelo de regressão linear. A base de dados utilizada contém informações sobre o número de seguidores, posts, curtidas, e taxa de engajamento, entre outras variáveis.

📄 Descrição do Projeto

A partir da base de dados dos influenciadores do Instagram, o projeto busca analisar a relação entre diversas variáveis e a taxa de engajamento dos influenciadores. O modelo de regressão linear foi utilizado para entender essa relação e realizar previsões sobre a taxa de engajamento com base em variáveis como o número de seguidores, curtidas por post e a média de curtidas em posts recentes.

📈 Objetivos

Analisar a correlação entre variáveis como seguidores, curtidas e número de postagens.
Construir e treinar um modelo de regressão linear para prever a taxa de engajamento.
Comparar o modelo de regressão linear com os modelos de regularização Lasso e Ridge.
Avaliar a precisão do modelo utilizando métricas como MSE, MAE, e R².

📊 Base de Dados

A base de dados utilizada foi baixada do Kaggle e contém informações sobre influenciadores no Instagram. O dataset inclui as seguintes colunas principais:

followers: Número de seguidores do influenciador.
posts: Número de postagens feitas pelo influenciador.
avg_likes: Média de curtidas por post.
60_day_eng_rate: Taxa de engajamento dos últimos 60 dias.
new_post_avg_like: Média de curtidas nos novos posts.

O dataset foi limpo para remover dados nulos e valores inconsistentes.

🛠️ Instruções para Replicar o Projeto

Clone o Repositório Primeiro, faça o clone do repositório em sua máquina local:

git clone https://github.com/aureliodeboa/Restic36-Ciencia-de-Dados.git
cd .\Restic36-Ciencia-de-Dados\

Configure o Ambiente Certifique-se de que possui o Python 3.7 ou superior instalado. Recomenda-se a utilização de um ambiente virtual para instalar as dependências:

python -m venv venv
source venv/bin/activate  # Linux/Mac
venv\Scripts\activate     # Windows

Instale as Dependências Instale todas as bibliotecas necessárias listadas no arquivo requirements.txt:

pip install -r requirements.txt

Alternativamente você pode instalar as dependências manualmente:

pip install kagglehub pandas seaborn numpy matplotlib scikit-learn

✔️ Pré-requisitos

Certifique-se de ter os seguintes pacotes Python instalados:

pandas
seaborn
numpy
matplotlib
sklearn
kagglehub

📑 Passos

Baixe o dataset utilizando o KaggleHub:

import kagglehub
path = kagglehub.dataset_download("surajjha101/top-instagram-influencers-data-cleaned")

Carregue o dataset e realize uma análise exploratória dos dados:
```
import pandas as pd
df = pd.read_csv('path/to/dataset.csv')
```
Limpeza e transformação dos dados, como remover valores nulos e converter unidades:
```
df = df.dropna(subset=['country'])
```
Visualize a correlação entre as variáveis com um gráfico de dispersão e matriz de correlação:
```
import seaborn as sns
sns.heatmap(df.corr(), annot=True)
```

Normalize os dados e divida o conjunto de dados entre treino e teste:

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Treine o modelo de regressão linear e calcule as métricas de avaliação:

from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

Avalie o modelo com as métricas MSE, MAE e R².

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

🔎 Resultados

MSE: [0.0059]
MAE: [0.0442]
R²: [0.8153]

Os resultados mostram que o modelo de regressão linear conseguiu explicar uma parte significativa da variabilidade na taxa de engajamento dos influenciadores com uma boa precisão.

📝 Relatório

O relatório detalhado deste projeto, incluindo a metodologia, análise de dados e resultados obtidos, pode ser encontrado no arquivo PDF relatorio.pdf.

💡 Conclusão

O modelo de regressão linear forneceu uma boa base para análise de tendências no engajamento de influenciadores do Instagram. Embora o modelo tenha mostrado bons resultados, outras variáveis, como o conteúdo dos posts e a frequência de postagens, podem influenciar ainda mais a taxa de engajamento e poderiam ser exploradas em modelos mais complexos.

Autores: Andressa Carvalho, Aurélio José

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
Atividade_RESTIC.ipynb		Atividade_RESTIC.ipynb
README.md		README.md
relatorio.pdf		relatorio.pdf
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto de Regressão Linear: Análise de Engajamento de Influenciadores no Instagram

📄 Descrição do Projeto

📈 Objetivos

📊 Base de Dados

🛠️ Instruções para Replicar o Projeto

✔️ Pré-requisitos

📑 Passos

🔎 Resultados

📝 Relatório

💡 Conclusão

About

Releases

Packages

Contributors 2

Languages

aureliodeboa/Restic36-Ciencia-de-Dados

Folders and files

Latest commit

History

Repository files navigation

Projeto de Regressão Linear: Análise de Engajamento de Influenciadores no Instagram

📄 Descrição do Projeto

📈 Objetivos

📊 Base de Dados

🛠️ Instruções para Replicar o Projeto

✔️ Pré-requisitos

📑 Passos

🔎 Resultados

📝 Relatório

💡 Conclusão

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages