title | subtitle | author | date | output | toc-title | ||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Plano Analítico para Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica |
DOCUMENTO: SAP-2021-011-JG-v01 |
**De:** Felipe Figueiredo **Para:** Josir Gomes |
2021-10-12 |
|
Sumário |
Plano Analítico para Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica
Histórico do documento
Versão | Alterações |
---|---|
01 | Versão inicial |
- DP: Desvio padrão
Avaliação da qualidade do agrupamento de acordo com dois critérios: altura da árvore e número putativo de clusters. Criação do elbow plot para auxiliar a tomada de decisão no uso do kmeans.
- Avaliar número ideal de clusters de acordo em um dendograma de clusterização hierárquica, para uso do kmeans.
- Avaliar em particular a acurácia do agrupamento aplicado em 2 clusters com a proposta de identificar os deputados da bancada evangélica vs outros, de acordo com a classificação pré estabelecida.
Deputados federais da bancada evangélica que foram eleitos em 2018 podem ser identificados com base nas doações recebidas durante a campanha eleitoral, número de votos recebidos e outras características.
Base de dados recebida contendo características dos deputados federais eleitos em 2018.
Todas as variáveis da tabela de dados analíticos foram identificadas de acordo com as descrições das variáveis, e os valores foram identificados de acordo com o dicionário de dados providenciado. Estas identificações possibilitarão a criação de tabelas de resultados com qualidade de produção final.
Depois dos procedimentos de limpeza e seleção 12 variáveis foram incluídas na análise com 514 observações. A Tabela 1 mostra a estrutura dos dados analíticos.
id | partido | uf | capilaridade | primeira | sexo | evangelico | num_votos | posicao | decil_filiados | decil_deputados | total_receita |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | |||||||||||
2 | |||||||||||
3 | |||||||||||
... | |||||||||||
514 |
Table: Tabela 1 Estrutura da tabela de dados analíticos após seleção e limpeza das variáveis.
A tabela de dados analíticos serão disponibilizados na versão privada do relatório, e serão omitidas da versão pública do relatório.
O desfecho primário está definido como a classificação entre deputados da bancada evangélica e outros deputados explicada pela receita total recebida.
As seguintes características dos deputados federais serão consideradas para inclusão na análise: Número de votos recebidos, posicionamento político, capilaridade, a unidade da federação, o partido (sigla), o sexo e se é o primeiro mandato. As seguintes características dos partidos serão consideradas para inclusão na análise: decil do número de deputados eleitos e decil do número de filiados.
As receitas discriminadas em suas diversas origens não serão consideradas na análise, devido à baixa representatividade de valores em suas distribuições (figura A1).
As características dos deputados serão descritas, por estado, como média (DP)
ou frequência e proporção (%), conforme apropriado. As distribuições serão sumarizadas em tabelas e visualizadas em gráficos exploratórios
Não serão realizadas análises inferenciais.
Será ajustado um modelo de clusters hierárquico aos dados numéricos. O dendograma associado ao modelo de agrupamento será cortado em diferentes alturas e números de clusters para obter o número ótimo de clusters que melhor explique a classificação do desfecho primário.
Todas as análises serão realizadas ao nível de significância de 5%. Todos os testes de hipóteses e intervalos de confiança calculados serão bicaudais.
N/A
Esta análise será realizada utilizando-se o software R
versão 4.1.1.
- SAR-2021-011-JG-v01 -- Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica
Tanto este plano analítico como o relatório correspondente (SAR-2021-011-JG-v01) podem ser obtidos no seguinte endereço:
https://philsf-biostat.github.io/SAR-2021-011-JG/
**Figura A1** Distribuição das receitas de deputados federais, por origem (agp = receita que veio do Partido ao invés de apoiadores privados (empresariais ou não); agr = setor agrícola; com = setor do comércio; fin = setor específico dos bancos e outras instituições financeiras e imobiliárias; ind = setores da indústria; inf = setor de infra-estrutura; pf = pessoa física; rp = recursos próprios; ser = setor de serviços).