quinta-feira, 18 de setembro de 2014

Eleições: candidatos x segmentos

Ontem o Ibope soltou mais uma pesquisa eleitoral e o Estadão publicou esses interessantes dados de associação entre candidatos e segmentos econômicos:



Não me pareceu ter nenhum sentido a ordem dos gráficos no quadro acima. Olhando cada um individualmente, a gente tira conclusões isoladas. Como a própria manchete do jornal diz: "Petista é mais associada a bancos que rivais". Tentei então fazer algum agrupamento, já que os dados seriam mais interessantes se a gente soubesse interpretar essas associações em conjunto. O resultado é esse gráfico:



E de onde eu tirei essa ordem?

Vamos lá, a soma dos percentuais é praticamente constante, deve haver então duas dimensões que predominam nesses dados (2 = número de candidatos - 1). Eu gostaria de saber qual a carga de cada candidato nessas duas dimensões. Rodei (por conta e risco) uma ferramenta da Análise Multivariada chamada Componentes Principais e obtive os seguintes pesos:

Componente 1 (70% da variação): Dilma (0,471); Marina (-0,687); Aécio (0,553)
Componente 2 (30% da variação): Dilma (0,774); Marina (0,022); Aécio (-0,633)

Hã...? E o que isso quer dizer? É mais ou menos isso: a primeira componente é um contraste entre a Marina de um lado (valor negativo) e uma média de Dilma e Aécio do outro (valores próximos e positivos); a segunda componente é um contraste somente entre Dilma e Aécio. Eles têm sinais opostos e a Marina tem praticamente zero de carga nessa componente. Com isso fiz um gráfico de dispersão cujo X é Marina e Y é a diferença Dilma-Aécio, e plotei cada segmento nele.



Observando o posicionamento dos itens, vemos as seguintes associações:

Marina (meio ambiente, agricultura, jovens e pobres);
Dilma (pobres, trabalhadores, aposentados, funcionalismo e comércio);
Aécio (comércio, indústria, financeiro e ricos).

Ordenei os setores conforme essas associações e fiz o gráfico de barras abaixo:



O resultado final foi aquele primeiro gráfico. Observe que como a componente 1 é a que explica 70% da variação, esse gráfico é praticamente o ranking conforme o % de Marina.

Puxa, me surpreendi com essa análise, para mim fez bastante sentido esses agrupamentos. E para você, é muita viagem?

Até
Roberto

6 comentários:

  1. Muito interessante e importante esta análise. Parabéns!

    ResponderExcluir
  2. Obrigado Lopes, seja muito bem vindo ao Atirei!

    ResponderExcluir
  3. Cara, na boa, entendo a sua disposição, mas usar ACP para ordenar uma tabela é muito estranho. Se vc tivesse os microdados da pesquisa poderia, então, fazer cluster, ACP e o escambau. Mas só com a tabela, não faz qq sentido. Desculpe.

    ResponderExcluir
    Respostas
    1. Caro colega, sabemos que ACP é uma técnica muito adequada para se trabalhar com uma base de dados multivariada por meio da decomposição espectral da matriz de variâncias e covariâncias. Ocorre que, como disse no texto, por conta e risco, eu me dei toda a liberdade de enxergar aqueles dados pela ACP e me orientei pelos resultados da técnica. Obrigado pelo comentário!

      Excluir
  4. Grande Roberto, análise interessante. Nunca pensei em utilizar ACP para esse tipo de dados. O que foi mais surpreendente é que revelou as tendências de cada candidato. As vezes temos que arriscar para poder inovar! Está valendo a análise! Grande abraço!

    ResponderExcluir
    Respostas
    1. Obrigado pela força aí Bruno. Forte abraço!

      Excluir