domingo, 17 de fevereiro de 2013

Orçamento do Congresso é uma aberração lognormal

Incrível é o custo anual de um parlamentar brasileiro: US$7,4 milhões! Deixa eu repetir: sete vírgula quatro milhões de dólares! Isso mesmo. A Folha soltou neste domingo a nossa colocação no ranking de parlamentares mais caros. Estamos na vergonhosa segunda posição:



É muito? Do ponto de vista do cidadão comum, claro que é. Sentimos falta de vários serviços básicos: saúde, educação, segurança... Agora, parlamentar? Nunca vi ninguém reclamar disso: precisamos de mais deputados no congresso! Você, já? Fiz uma pequena conta: 1 parlamentar = 260 policiais (PM/SP) em termos de custo.

Foco, foco, voltemos ao gráfico porque meu assunto de hoje vai ser Distribuições Assimétricas. Acompanhe...

Para falar delas vou usar os dados dos parlamentos publicado pela Folha. Na reportagem, ela trouxe somente os primeiros colocados, mas no seu site ela traz uma tabela com informações dos 110 países. Há duas variáveis interessantes, número de congressistas e orçamento por congressista. Com todos os 110 países plotados num gráfico de dispersão, vemos mais claramente as discrepâncias entre os países:



Olha o Brasil lá, bem destacado logo abaixo dos EUA. Acho que se a Folha mostrasse assim, a notícia daria mais impacto, não? Copiamos muito do modelo de democracia deles mas não precisava ser tão exato nas contas. Aliás, se quisermos ganhar dos EUA, não precisamos investir nada, é só manter o orçamento atual e reduzir o total de senhores e senhoras representantes do povo a 460.

Com os mesmos dados fiz um histograma da variável orçamento por parlamentar. Veja como a distribuição é assimétrica, isto é, a cauda de um lado é bem diferente da do outro. Nesse caso nem temos uma cauda a esquerda, só a direita.



Nós estatísticos gostamos não só de ver a distribuição de uma variável, mas de arrumar um modelo para ela. O modelo que mais frequentemente explica bem os desvios medidos em fenômenos naturais é a da Distribuição Normal, a famosa curva em forma de sino. Ocorre que para esses dados, esse modelo parece inadequado devido à assimetria que já observamos. Surge a pergunta: qual modelo usar então? Há várias técnicas para se procurar um modelo adequado.

Eu fui no chute. Chutei que esses dados se parecem com uma distribuição Lognormal. Ela é chamada assim porque, se aplicarmos o operador log aos dados que a seguem, eles assim transformados seguirão uma distribuição normal.

Para verificar se meu chute estava bom, um gráfico bem interessante, o de probabilidade, pode ser usado. Trata-se de uma gráfico de dispersão onde o Y são os percentis calculados a partir de um modelo de distribuição, contra os valores observados no eixo X. Caso os pontos estejam razoavelmente bem alinhados, você acertou a distribuição (colegas estatísticos, perdoem minha falta de formalismo, por favor). Veja o resultado:



Uau! Temos uma Lognormal. Uhuuuuu!

Ok, e daí?
Bom, daí podemos fazer alguns cálculos a partir do modelo!

Humm, e daí?
Daí, você pode ver o modelo junto com o histograma:



Ok, e daí?
Bem, daí... Sei lá, o orçamento do Congresso continua sendo uma aberração. Uma aberração lognormal!

Até
Roberto

domingo, 10 de fevereiro de 2013

Analisando a série histórica do IPCA

Pessoal, voltei e trago de novo o assunto que não sai da moda: inflação. Já relacionamos aqui IPCA com a Selic, e hoje vamos analisar o comportamento da série histórica do IPCA.

Na quinta passada saiu o IPCA mensal de 0,86% para janeiro/2013. Um valor alto, de assustar mesmo! A Folha da última sexta, usou o verbo "disparar" para descrever esse fato:

 

Disparar, segundo o Michaelis, é: "partir à desfilada, fugir desabaladamente". Vamos ver se é isso que aconteceu. Neste post vou explorar mais a fundo os dados mensais do IPCA. Mostrarei algumas ferramentas de análise que normalmente não aparecem aqui, acompanhe:

Primeiro vamos dar uma olhada na série histórica do IPCA. Coletei os dados desde 2005 e fiz um gráfico de controle para ver se nosso último janeiro encontra-se fora dos limites calculados:



Bem, pelo que vemos, o valor de 0,86 passou do limite superior. Por um triz, mas passou. Isso já é um indicador de algo a ser verificado. Não é à toa que choveram comentários por aí a respeito.

O texto do jornal diz que foi o pior janeiro desde 2003. Isso disparou em mim uma dúvida: será que a série do IPCA apresenta uma sazonalidade? A palavra sazonalidade deriva de sazão, ou estação do ano. Para se observar melhor se um resultado mensal tem relação com os meses anteriores podemos fazer o gráfico da função autocorrelação. A autocorrelação é a correlação entre observações de um mesmo indicador separadas por um intervalo de observações. Veja a análise para a série do IPCA:



Muito interessante! Espera-se nenhum padrão para dados que não são autocorrelacionados, mas para o IPCA há claramente um padrão. Note que a cada 6 meses a correlação inverte o sinal. Negativo para 6, 18 etc, e positivo para 12, 24 etc. Isso indica haver duas estações no indicador, uma no fim+início de ano e outra no meio do ano. Ótimo, estamos indo bem. Vamos explorar isso então.

Vou tentar mostrar essas duas estações com algumas visualizações dos dados agrupados por mês. Fiz 3 gráficos equivalentes e gostaria da sua opinião sobre qual deles mais mostra a variação sazonal da série histórica do IPCA, aí vão eles:







No primeiro, usei pontos para representar cada valor do IPCA. Trata-se de um gráfico de pontos individuais. No segundo, usei as linhas para mostrar cada ano. Fiz um espaguete de propósito para tentar mostrar a sazonalidade. No último gráfico usei box-plots para mostrar a distribuição dos valores de cada mês. Então, qual deles lhe parece mais fácil notar a tal sazonalidade? Você observou que normalmente os valores do IPCA de janeiro são relativamente altos?

Agora que sabemos que em janeiro a inflação normalmente "dispara", vamos ver se ela disparou em relação aos últimos anos. Acompanhe a variação dos meses de janeiro num gráfico de controle e veja a situação do "nosso" janeiro:



O que vemos? Sim, foi bem alto, mas disparar ainda não disparou...

Até
Roberto

Obs: agradeço ao leitor Getúlio de Oliveira que me enviou o tema da inflação para comentar!