Boas-vindas!
Você foi contratado(a) como pessoa cientista de dados para trabalhar em um banco digital internacional chamado Alura Cash. Na primeira reunião do seu novo trabalho, a diretoria financeira informa que, recorrentemente, estão surgindo pessoas inadimplentes após a liberação de créditos. Portanto, é solicitada uma solução para que seja possível diminuir as perdas financeiras por conta de pessoas mutuarias que não quitam suas dívidas.
Como cientista de dados, você sugere um estudo das informações financeiras e de solicitação de empréstimo para encontrar padrões que possam indicar uma possível inadimplência.
Desse modo, você solicita um conjunto de dados que contenha as informações de clientes, da solicitação de empréstimo, do histórico de crédito, bem como se a pessoa mutuaria é inadimplente ou não. Com esses dados, você sabe que consegue modelar um classificador capaz de encontrar potenciais clientes inadimplentes e solucionar o problema do Alura Cash.
Objetivos:
- Instalar MySQL Workbench e importar database dump.
- Entender quais informações o conjunto de dados possui.
- Analisar quais os tipos de dados.
- Verificar quais são as inconsistências nos dados.
- Corrigir as inconsistências nos dados.
- Unir as tabelas de dados de acordo com os IDs.
- Traduzir as colunas.
- Exportar a tabela de dados unidos como csv.
1. Primeiramente foi instalado o SGBD MySQL Workbench e importado o database dump, disponibilizado pela Alura Cash aqui.
- Instalar MySQL Workbench e importar database dump.
2. A segunda tarefa fiu entender o conjuntos de dados disponibilizados. São 4 tabelas que são explicadas abaixo:
• dados_mutuarios: Tabela contendo os dados pessoais de cada solicitante;
• emprestimos: Tabela contendo as informações do empréstimo solicitado;
• historicos_banco: Histório de emprétimos de cada cliente;
• id: Tabela que relaciona os IDs de cada informação da pessoa solicitante.
- Entender quais informações o conjunto de dados possui.
3. A terceira etapa solicita a análise dos tipos de dados. Neste link foi fornecido o dicionário da Alura Cash, porém os tipos não foram especificados. Abaixo representei em tabelas os tipos de cada coluna do dataset:
Feature | Tipo |
---|---|
person_id |
VARCHAR(16) |
person_age |
INT |
person_income |
INT |
person_home_ownership |
VARCHAR(8) |
person_emp_length |
DOUBLE |
Feature | Tipo |
---|---|
loan_id |
VARCHAR(16) |
loan_intent |
VARCHAR(32) |
loan_grade |
VARCHAR(1) |
loan_amnt |
INT |
loan_int_rate |
DOUBLE |
loan_status |
INT |
loan_percent_income |
DOUBLE |
Feature | Tipo |
---|---|
cb_id |
VARCHAR(16) |
cb_person_default_on_file |
VARCHAR(1) |
cb_person_cred_hist_length |
INT |
Feature | Tipo |
---|---|
person_id |
VARCHAR(16) |
loan_id |
VARCHAR(16) |
cb_id |
VARCHAR(16) |
- Analisar quais os tipos de dados.
4. Optei por traduzir as colunas primeiro antes de trata-las usando o seguinte comando:
ALTER TABLE nome_da_tabela RENAME COLUMN nome_antigo_da_coluna TO nome_novo_da_coluna;
Alguns registros das tabelas estão em inglês. Optei por traduzi-las também.
UPDATE nome_da_tabela SET nome_da_coluna ='registro_em_ptbr' WHERE nome_da_coluna = 'registro_em_ingles';
- Traduzir as colunas.
5. Algumas da insconsistências de dados foram valores em branco nas colunas de ID.
- Verificar quais são as inconsistências nos dados.
6. Essas insconsistências foram removidas, visto que sem o ID não seria possível fazer EDA desses registros.
- Corrigir as inconsistências nos dados.
7. Para unificar as tabelas foi utilizado o comando INNER JOIN, no arquivo .SQL tem todos os detalhes de como foi feito tanto o tratamento quanto a união das tabelas.
- Unir as tabelas de dados de acordo com os IDs.
8. A tabela foi exportada no formato .CSV para ser utilizada na semana seguinte.
- Exportar a tabela de dados unidos como csv.
Na segunda semana, foi proposto fazer uma limpeza nos dados para remover possíveis outliers. Em seguida, elaborar modelos de ML capaz de prever se o cliente era adimplente ou inadimplente, comparar as diversas técnicas utilizadas e escolher o modelo que melhor generalizava nosso problema. Por último, o modelo foi otimizado e exportado para ser utilizado em dados futuros desconhecidos.
Toda essa semana foi explicada e desenvolvida neste arquivo Jupyter Notebook