Skip to content

Latest commit

 

History

History
179 lines (116 loc) · 7.61 KB

SAP-2021-011-JG-v01.md

File metadata and controls

179 lines (116 loc) · 7.61 KB
title subtitle author date output toc-title
Plano Analítico para Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica
DOCUMENTO: SAP-2021-011-JG-v01
**De:** Felipe Figueiredo **Para:** Josir Gomes
2021-10-12
html_document pdf_document word_document
fig_caption fig_height fig_width keep_md number_sections toc
true
6
6
true
true
true
number_sections toc
true
true
fig_caption fig_height fig_width reference_docx toc
true
6
6
misc/style_SAP_pt.docx
true
Sumário

Plano Analítico para Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica

Histórico do documento

Versão Alterações
01 Versão inicial

Lista de abreviaturas

  • DP: Desvio padrão

Introdução

Contexto

Avaliação da qualidade do agrupamento de acordo com dois critérios: altura da árvore e número putativo de clusters. Criação do elbow plot para auxiliar a tomada de decisão no uso do kmeans.

Objetivos

  1. Avaliar número ideal de clusters de acordo em um dendograma de clusterização hierárquica, para uso do kmeans.
  2. Avaliar em particular a acurácia do agrupamento aplicado em 2 clusters com a proposta de identificar os deputados da bancada evangélica vs outros, de acordo com a classificação pré estabelecida.

Hipóteses

Deputados federais da bancada evangélica que foram eleitos em 2018 podem ser identificados com base nas doações recebidas durante a campanha eleitoral, número de votos recebidos e outras características.

Dados

Dados brutos

Base de dados recebida contendo características dos deputados federais eleitos em 2018.

Tabela de dados analíticos

Todas as variáveis da tabela de dados analíticos foram identificadas de acordo com as descrições das variáveis, e os valores foram identificados de acordo com o dicionário de dados providenciado. Estas identificações possibilitarão a criação de tabelas de resultados com qualidade de produção final.

Depois dos procedimentos de limpeza e seleção 12 variáveis foram incluídas na análise com 514 observações. A Tabela 1 mostra a estrutura dos dados analíticos.

id partido uf capilaridade primeira sexo evangelico num_votos posicao decil_filiados decil_deputados total_receita
1
2
3
...
514

Table: Tabela 1 Estrutura da tabela de dados analíticos após seleção e limpeza das variáveis.

A tabela de dados analíticos serão disponibilizados na versão privada do relatório, e serão omitidas da versão pública do relatório.

Variáveis do estudo

Desfechos primário e secundários

O desfecho primário está definido como a classificação entre deputados da bancada evangélica e outros deputados explicada pela receita total recebida.

Covariáveis

As seguintes características dos deputados federais serão consideradas para inclusão na análise: Número de votos recebidos, posicionamento político, capilaridade, a unidade da federação, o partido (sigla), o sexo e se é o primeiro mandato. As seguintes características dos partidos serão consideradas para inclusão na análise: decil do número de deputados eleitos e decil do número de filiados.

As receitas discriminadas em suas diversas origens não serão consideradas na análise, devido à baixa representatividade de valores em suas distribuições (figura A1).

Métodos estatísticos

Análises estatísticas

Análise descritiva

As características dos deputados serão descritas, por estado, como média (DP)

ou frequência e proporção (%), conforme apropriado. As distribuições serão sumarizadas em tabelas e visualizadas em gráficos exploratórios

Análise inferencial

Não serão realizadas análises inferenciais.

Modelagem estatística

Será ajustado um modelo de clusters hierárquico aos dados numéricos. O dendograma associado ao modelo de agrupamento será cortado em diferentes alturas e números de clusters para obter o número ótimo de clusters que melhor explique a classificação do desfecho primário.

Significância e Intervalos de Confiança

Todas as análises serão realizadas ao nível de significância de 5%. Todos os testes de hipóteses e intervalos de confiança calculados serão bicaudais.

Tamanho da amostra e Poder

N/A

Softwares utilizados

Esta análise será realizada utilizando-se o software R versão 4.1.1.

Exceções e Observações

Referências

  • SAR-2021-011-JG-v01 -- Clusterização hierárquica para determinação do número ótimo de clusters para classificação de deputados federais como bancada evangélica

Apêndice

Disponibilidade

Tanto este plano analítico como o relatório correspondente (SAR-2021-011-JG-v01) podem ser obtidos no seguinte endereço:

https://philsf-biostat.github.io/SAR-2021-011-JG/

Análise exploratória de dados

**Figura A1** Distribuição das receitas de deputados federais, por origem (agp = receita que veio do Partido ao invés de apoiadores privados (empresariais ou não); agr = setor agrícola; com = setor do comércio; fin = setor específico dos bancos e outras instituições financeiras e imobiliárias; ind = setores da indústria; inf = setor de infra-estrutura; pf = pessoa física; rp = recursos próprios; ser = setor de serviços).

**Figura A1** Distribuição das receitas de deputados federais, por origem (agp = receita que veio do Partido ao invés de apoiadores privados (empresariais ou não); agr = setor agrícola; com = setor do comércio; fin = setor específico dos bancos e outras instituições financeiras e imobiliárias; ind = setores da indústria; inf = setor de infra-estrutura; pf = pessoa física; rp = recursos próprios; ser = setor de serviços).