quinta-feira, 18 de setembro de 2014

Eleições: candidatos x segmentos

Ontem o Ibope soltou mais uma pesquisa eleitoral e o Estadão publicou esses interessantes dados de associação entre candidatos e segmentos econômicos:



Não me pareceu ter nenhum sentido a ordem dos gráficos no quadro acima. Olhando cada um individualmente, a gente tira conclusões isoladas. Como a própria manchete do jornal diz: "Petista é mais associada a bancos que rivais". Tentei então fazer algum agrupamento, já que os dados seriam mais interessantes se a gente soubesse interpretar essas associações em conjunto. O resultado é esse gráfico:



E de onde eu tirei essa ordem?

Vamos lá, a soma dos percentuais é praticamente constante, deve haver então duas dimensões que predominam nesses dados (2 = número de candidatos - 1). Eu gostaria de saber qual a carga de cada candidato nessas duas dimensões. Rodei (por conta e risco) uma ferramenta da Análise Multivariada chamada Componentes Principais e obtive os seguintes pesos:

Componente 1 (70% da variação): Dilma (0,471); Marina (-0,687); Aécio (0,553)
Componente 2 (30% da variação): Dilma (0,774); Marina (0,022); Aécio (-0,633)

Hã...? E o que isso quer dizer? É mais ou menos isso: a primeira componente é um contraste entre a Marina de um lado (valor negativo) e uma média de Dilma e Aécio do outro (valores próximos e positivos); a segunda componente é um contraste somente entre Dilma e Aécio. Eles têm sinais opostos e a Marina tem praticamente zero de carga nessa componente. Com isso fiz um gráfico de dispersão cujo X é Marina e Y é a diferença Dilma-Aécio, e plotei cada segmento nele.



Observando o posicionamento dos itens, vemos as seguintes associações:

Marina (meio ambiente, agricultura, jovens e pobres);
Dilma (pobres, trabalhadores, aposentados, funcionalismo e comércio);
Aécio (comércio, indústria, financeiro e ricos).

Ordenei os setores conforme essas associações e fiz o gráfico de barras abaixo:



O resultado final foi aquele primeiro gráfico. Observe que como a componente 1 é a que explica 70% da variação, esse gráfico é praticamente o ranking conforme o % de Marina.

Puxa, me surpreendi com essa análise, para mim fez bastante sentido esses agrupamentos. E para você, é muita viagem?

Até
Roberto

segunda-feira, 15 de setembro de 2014

Gráfico de bolhas: bom recurso de análise

Na semana passada, saiu uma matéria na Folha analisando a situação dos afastamentos por uso de drogas no Brasil. A Reportagem trazia dois quadros. O primeiro mostrava o aumento de 2009 a 2013 na frequência (total e por tipo de causa) e no valor gasto em nível Brasil.



O seguinte trazia os estados ranqueados pela variação nos anos. Veja o gráfico de barras abaixo:



Como você interpretou esse último quadro? O Amapá, por ser o estado no topo, corre o maior risco de afastamentos? Em Alagoas, sendo o último da lista, a política antidrogas está funcionando? Veja os estados da região Sul, esta é a melhor região do país em afastamentos por uso de drogas?

Se você ficou em dúvida quanto às questões acima, talvez tenha sido por causa das enormes diferenças nos números absolutos entre estados. Por exemplo, São Paulo tem quase 1000 vezes mais casos que o Amapá. Como comparar coisas tão diferentes?

É simples, procure usar indicadores relativos.

Tomar os totais (Brasil) de cada ano como referência não é uma boa ideia, pois não saberíamos analisar se os aumentos foram grandes ou pequenos. Isso ocorre porque na matéria não há dados de trabalhadores empregados, só de afastados.

Fui, então, ao site da RAIS e achei os totais de empregados por estado nos anos de 2009 e 2013. Com isso, calculei o número de afastamentos concedidos por auxílio-doença para cada 100 mil trabalhadores empregados em cada ano e por estado. Veja o ranking de estados com maiores índices em 2013:



Esse gráfico nos mostra uma realidade muito diferente. Santa Catarina e Rio Grande do Sul saem da base da lista anterior para o topo desse novo ranking, passando dos 500 afastamentos para cada 100 mil empregados em 2013. No país, a média é de 277 concessões de auxílio-doença por drogas para cada 100 mil empregados.

Assim, para se fazer uma análise mais sistêmica, deveríamos ver mais de um indicador no gráfico. Um bom recurso pra isso é o gráfico de bolhas que pode receber pelo menos 3 variáveis numéricas (X, Y e tamanho da bolha) e uma categórica (cor da bolha). Como exercício, usei os seguintes indicadores para o caso em questão:

  • X: Variação percentual do índice de concessão de 2009 para 2013;
  • Y: índice de concessão por 100 mil empregados em 2013;
  • Tamanho da bolha: número de afastamentos em 2013;
  • Cor da bolha: região do país.

Veja o resultado:



Agora sim, podemos enxergar algumas coisas bem interessantes. Veja as posições de Santa Catarina e do Rio Grande do Sul, apesar de terem os maiores índices, houve recuo do indicador em 2013. Ao contrário da maioria dos estados que caminhou para pior nos índices. Alertas soam, por exemplo, para o Espírito Santo (com o maior aumento), e para Minas Gerais, (estado de grande contingente, com índice superior a da média nacional).

Fique craque na interpretação de gráficos de bolhas visitando o site do Hans Hosling: Gapminder. Lá você aprende a analisar dados de centenas de países modificando as variáveis de um gráfico de bolhas interativamente. É uma forma lúdica e didática de mostrar ao mundo como estamos e donde viemos.



Até
Roberto

segunda-feira, 8 de setembro de 2014

Gráfico mirabolante

Quem procura mirabolâncias, pode achar algo mirabolante. Explico pelas definições do Michaelis:



Eu já estava incomodado com esse gráfico de barras curvas que sai toda segunda no caderno de economia do Estadão:



Agora dêem uma olhada nesse gráfico do Especial de Economia que o próprio Estadão publicou hoje. Digam-me se não se trata de algo mirabolante:



Até
Roberto