segunda-feira, 11 de novembro de 2013

Brasil, país de empreendedores.

Um blog puxa outro, né? Num post do Rodrigo Constantino na Veja, ele mostra pesquisa da Sage para o Financial Times que posiciona o Brasil com o maior percentual de tomadores de risco entre 16 países (incluindo os Estados Unidos) para pequenos empresários. As explicações desse fenômeno podem ser lidas nas matérias originais, aqui vamos analisar seu gráfico:



Convido você a fazer uma crítica para afiarmos juntos nossa habilidade de mostrar dados. Quais são os pontos positivos dele? O que poderia ser melhorado?

Minha lista de pontos positivos começa pela escolha do local do nome dos países, o centro. Afinal quer-se mostrar uma lista. Segundo ponto: barras verticais, boa opção para tantos países. Um terceiro aspecto é a escolha das cores nas barras representando os percentuais dentro de cada variável. As barras funcionam bem para se captar pequenas diferenças entre países. Por último, os números inscritos nas barras em cor mais clara. Ficou bom.

Vamos às melhorias. Meu primeiro incomodo é a colocação dos títulos das variáveis na vertical dificultando a leitura. Outro ponto é a posição das variáveis que deveria ser invertida pela natureza das suas polaridades. Tomadores de risco é um atributo positivo e deveria ficar à direita dos nomes. Vejamos o aspecto geral do gráfico com essas mudanças (não me preocupei em fazer o gráfico de novo, somente seu esboço).



Ficaria melhor. Paramos por aí? Não. Observe a variável "avessos a risco", para que ela serve? Do modo como é apresentada, é apenas mais uma curiosidade sobre os países, sem uso na ordenação deles. Poderíamos atribuir uma função a ela, a de desempate. Tome, por exemplo, os três países seguintes ao Brasil: Canadá, Polônia e Malásia. Eles têm o mesmos 52% de tomadores de risco mas diferentes percentuais de avessos. Eu os ordenaria do menor para o maior percentual, justamente na ordem inversa do apresentado no gráfico.

Proponho ainda mais. Uma outra forma de ordenação, levando-se em conta as duas variáveis em conjunto. Gostaria de ver os países alinhados pelos tomadores líquidos, isto é, o resto da subtração de avessos, do percentual de tomadores de risco. Isso nos dá a ideia do excesso ou falta de tomadores de risco em relação aos avessos de um país.

Fiz essa conta, reordenei os países e produzi o gráfico abaixo:



O ranking dos países muda, parece mais coerente, e já estou apostando nessa forma de análise. Mas sabe, não fiquei totalmente convencido de que nossos leitores compreenderão essa informação. Quebrei um pouco a cabeça e refiz o gráfico incluindo a subtração das variáveis na forma visual. Talvez tenha melhorado:



Preciso agora do seu feedback, deu pra entender bem esse gráfico? Seja sincero, ok? risos...

Até
Roberto


Gráficos dos leitores:

Olha só que bacana as sugestões que nossos leitores trouxeram. A Renata pede para fazermos um gráfico de dispersão com as duas variáveis:



Podemos ver a posição relativa de cada país. Note que essas variáveis são naturalmente correlacionadas (são proporções do mesmo todo).

O Roberto Nanni nos sugere um gráfico fechando em 100%. Ficou bem direto ao ponto:



Parabéns e continuem contribuindo para o Atirei!

quarta-feira, 6 de novembro de 2013

O gráfico de barras e a visualização de tendências.

O que você quer saber quando pega um gráfico com dados sobre violência? Se há alguma tendência, não é? Subiu, caiu ou estabilizou? O que será que aconteceu com o número de crimes nos últimos tempos?

Ok, então procure por essa informação no gráfico da Folha dessa última terça:



É visível que os roubos diminuíram nos últimos anos em Nova York, certo? Mas e quanto aos homicídios? Hum, deixe-me ver... É, eles caíram também.

Essa segunda resposta exige esforço. Precisa-se de observar os valores escritos no gráfico, não dá pra ver pelas barras azuis. Elas são muito pequenas para se observar quaisquer tendências.

Dizemos, nesse caso, que não há resolução gráfica. Não há porque são duas séries cujos valores têm magnitudes muito diferentes (uma na casa dos milhares e outra na das centenas) colocadas sob a mesma escala.

O que fazer então?

A primeira coisa é certificar-se que seu objetivo é mostrar tendências. Se sim, vamos recorrer a quem tem justamente esse nome, o gráfico de tendências. Vejamos, o resultado com as duas séries juntas:



Pois é, deu na mesma que o gráfico da Folha... O problema da escala ainda persiste. O jeito mais simples, então, é fazer os gráficos em separado:



Opa! Bem melhor, poderíamos parar por aqui. O leitor já teria sua informação de maneira eficiente e precisa. Em contraste ao subtítulo da Folha, os indicadores não estão estáveis. Eles caíram.

Avançando na análise, eu me perguntaria: caíram na mesma proporção? Para ver isso precisamos fazer contas. É comum (veja exemplo em Prolixidade Gráfica) plotar as variações percentuais de um ano para outro. Observe o resultado ao se fazer isso com nossos dados:



Ficou bonitinho, caprichado, desvios positivos numa cor e negativos noutra, barras bem apresentadas etc. Uma nota para esse gráfico, por favor?

Zero, um redondo zero! Cadê a informação de que a violência vem caindo nos dois tipos de crime? Não faça isso, hein? Por meio de variações não se vê claramente as tendências, ok?

Tenho outra sugestão. Opte por uma forma mais fácil e que dá bons resultados. Tome o primeiro valor de cada série como referência e atribua 100% a ele. Plote em seguida os próximos valores como percentuais desse primeiro. Você pode colocar, assim, todas as séries numa só escala e comparar a proporção de queda de cada indicador.



Gostei.

Até
Roberto

sexta-feira, 1 de novembro de 2013

Falso alarme ou erro de detecção?

Li com muito interesse hoje no caderno Folha Saúde+Ciência o artigo: "Teste evita biópsia de próstata desnecessária", porém não encontrei dados para concluir isso no gráfico da matéria:



O novo teste (Scanner) é rápido e não invasivo, muito melhor que uma biópsia, mas apresenta ainda 10% de erros. Ocorre que o texto não explica quais erros são esses. Há basicamente dois tipos: falsos alarmes e erros de detecção dependendo de qual veredito a biópsia (exame tido como correto) produziu: biópsia deu negativo, ou positivo.

Veja uma tabela mostrando esses erros:



Para eu concluir que o Scanner evita biópsias, ele teria de ser bom para garantir que um indivíduo está são. Ele não pode produzir erros de diagnóstico, dizendo que está tudo bem quando na verdade há doença. Poderíamos até suportar alguns falsos alarmes, que exigiriam a biópsia desnecessariamente.

Exemplificando a falta de dados na matéria, apresento duas situações hipotéticas extremas em que os mesmos 15 erros foram distribuídos de maneira diversa conforme os resultados das biópsias. Uma premissa que usei foi de que normalmente 40% dos teste de biópsia dão positivo na prática. Esse dado sim, está na matéria. Na primeira hipótese, coloquei todos os erros como se fossem falsos alarmes:



Veja que os 15 erros se concentram nos casos cuja biópsia deu negativo e nenhum erro ocorreu com biópsia dando positivo. A taxa de falso alarme seria de 15/90=17% e a taxa de erro de detecção seria 0/60=0%. Dessa forma, o Scanner foi bem rigoroso. Toda vez que ele disse não haver câncer, realmente não havia, apesar de algumas vezes ele ter detectado câncer quando não havia. O novo teste evitaria assim que os 75 casos em que o Scanner apontou negativo passassem pela biópsia. É uma redução de 50% de indicação para biópsia.

Veja uma segunda situação em que os erros sejam todos de detecção:



Aqui temos um sério problema. Com os 15 erros ocorrendo somente nas biópsias com resultado positivo, o Scanner deixou de detectar o câncer em 15/60=25% dos pacientes realmente doentes. Ou seja não se pode confiar quando ele fala que está tudo bem, né? Assim, qualquer diagnóstico do Scanner, seja positivo ou negativo, teria de ser confirmado. Portanto, nenhuma redução de biópsia.

Conclusão?

Folha: não dá pra não mostrar todos os dados.

Até
Roberto

domingo, 27 de outubro de 2013

Prolixidade gráfica

Precisei criar o termo prolixidade gráfica para expressar o que senti ao ver o gráfico da matéria da Folha deste sábado cujo título é "Homicídio em SP cai pelo sexto mês seguido". Procure você mesmo por essa informação:



O pecado do jornal foi tentar rebuscar demais a análise ao comparar mesmos meses de anos consecutivos e não simplesmente a sequencia natural de meses. Seria adequado adotar essa comparação de mesmos meses se houvesse uma forte sazonalidade nos dados. Além disso a matéria traz dados somente a partir de abril de cada ano, estranho...

Para esclarecer um pouco as coisas, colhi os dados faltantes no portal da SSP/SP e fiz o gráfico:



Não noto diferenças significativas entre os anos, e você? Estranha essa escolha justamente dos meses em que houve a tal queda relativa. Seria proposital para se criar a matéria? Está com cara de um press-release de que o jornal se aproveitou e tentou trabalhar os dados contidos nele.

Voltando ao gráfico prolixo, minha sugestão é que se faça simplesmente um bom e velho gráfico de tendência para acompanhar cada indicador de violência. Veja por exemplo os casos de homicídios, roubos, estupros e roubos de veículos desde 2011 (disponíveis na página da SSP/SP):



Mais fácil de ler e interpretar, não acha? Quanto aos homicídios, note que houve um surto no fim de 2012, voltando aos padrões após a troca de secretários de segurança.

No caso de estupros, estamos numa tendência de retorno aos padrões de 2011 após elevação em 2012.

Roubos e roubos a veículos, estão saindo do controle e esses deveriam ser o foco da matéria.

Até
Roberto

segunda-feira, 20 de maio de 2013

Ministra comemora ao comparar médias indevidamente

O cérebro não dói, senão nosso amigo Formigari sentiria uma fisgada no lobo frontal ao ler as inúmeras notas veiculadas na internet a respeito da fala da ministra Tereza Campello (Desenvolvimento Social) no último dia 16.

Veja, por exemplo, a do O Globo:

Título: Alunos do Bolsa Família têm aprovação acima da média
Subtítulo: Estudantes beneficiados pelo programa governamental Bolsa Família nas regiões Norte e Nordeste têm rendimento melhor do que a média brasileira no ensino médio das escolas públicas. A taxa de aprovação desses alunos é 82,3% no Norte e 82,7% no Nordeste, enquanto a taxa brasileira é 75,2%.

Ele me escreve: "Roberto, veja que a manchete é formulada a partir da comparação da média de aprovação do NE e N de alunos do Bolsa Família contra média brasileira geral. Na minha visão, temos que comparar com a média geral do NE e N ou trazer a estatística geral do Brasil para o Bolsa Família para a manchete trazer a informação correta".

Não precisava nem ver os dados para concordar, mas como a curiosidade é o motor da análise, fui buscá-los no portal do INEP (indicadores educacionais). Lá encontrei as médias de aprovação dos alunos do ensino médio já segmentados por região geográfica, zona (rural e urbana) e esfera (estadual e federal). Olha só que curiosos mesmo esses resultados:

Escolas federais são melhores que as estaduais? Rurais são melhores que as urbanas? Será? Ou a política de aprovação é diferente para esses estabelecimentos? Há confusão no ar...

Para mim, um leigo no assunto, chutaria que esse indicador (aprovação) não mede o desempenho dos alunos, mas das políticas adotadas do tipo "mandei aprovar 85%, então, façam o favor de me entregar esse resultado". A Ministra, além de não comparar médias de "laranjas com bananas", deveria apoiar-se nos resultados da Prova Brasil e Saeb, por exemplo.

Ministra Tereza, desculpe esfriar sua comemoração, mas diz aí para seus assessores que é pau na análise!

Até
Roberto

sexta-feira, 12 de abril de 2013

Esqueçam o infeliz



Desde a posse do Feliciano como presidente da Comissão de Direitos Humanos da Câmara estamos assistindo a uma novela marcada por inúmeras manifestações. Sob protestos e aplausos as reuniões da comissão são iniciadas e logo paralisadas. É uma novela cujo enredo nada tem a ver com os objetivos da Comissão, mas com o fim do próprio Feliciano: ele fica ou não fica?

Claro que ele não ficará, isso é ponto pacífico. O problema é quanto tempo essa novela ficará no ar e quantos capítulos ainda terão. Está claro que os objetivos do Feliciano são ganhar e, principalmente, manter popularidade.

Um indicador dessa popularidade pode ser o número de pesquisas pelo nome do deputado no Google. Usando o Google Trends fica fácil observar que o primeiro objetivo foi alcançado, ele ganhou notoriedade e parece estar mantendo:



Fiz um segundo gráfico incluindo outros dois nomes que apareceram muito nas últimas semanas, o Hugo Chávez e o Papa Francisco. A diferença é que a "novela" deles já praticamente acabou, vejam só:



O melhor ataque ao Feliciano não seria parar os protestos e deixá-lo apodrecer lá na comissão? Como fazer com que ele seja totalmente esquecido agora?

Até
Roberto

segunda-feira, 25 de março de 2013

Brasileiro, quanto faz seu carro?

Quando alguém lhe pergunta quanto faz seu carro, você pensa no consumo em km/l e não em R$/km, certo? A conversão é fácil, por exemplo, se seu carro faz 10km/l de gasolina a R$2,80/l, ele consome R$0,28/km? Não, não é isso. É mais, muito mais.

Você não computou o custo de se ter um carro. Numa análise de consultoria financeira publicado no Estado: "Brasileiro gasta por ano 40% do valor do carro com manutenção e despesas" a gente vê vários itens que entram no nosso orçamento mas que não colocamos na conta do carro. Veja um exemplo da matéria:



Nesse caso o custo com combustível foi de 14%. Então, meu caro, são R$2,00 gastos para cada km rodado!

Ocorre que não foi essa a razão para eu trazer esses dados aqui. O nosso amigo Formigari, com toda sua experiência e visão estatística me escreveu discordando de alguns pontos da matéria:

"Achei que tudo foi superestimado, principalmente o quesito seguro (9% do valor do carro – lembrando 70% dos brasileiros não fazem seguro do carro) e também considerar a parcela do financiamento como despesas e não investimento (até porque boa parte da população não compra carro à vista, pois não tem crédito). Adicionalmente, como se gasta para se deslocar mesmo sem carro (exceção para quem anda de bicicleta ou a pé), dever-se-ia fazer uma estimativa de gastos com locomoção e apenas o incremento de gastos ser considerado."

"Além disso, ao “engordar” as despesas, a manchete passa uma informação equivocada, por indução: em 3 anos, você terá gasto mais do que o valor do carro. Também, para dar conteúdo à matéria, faz-se o uso de conclusões sem apresentar dados com sub-manchetes (ex.: quase um filho). Ou a frase “este valor às vezes é a compra do mês da família”. Que família? Que compras? Quem tem um gasto de combustível de R$ 450,00 gasta quanto em Alimentação, Educação etc. Onde estão os dados? Ou seja, tira-se a conclusão com alguns dados para outras questões, superestimados na minha visão. Hipóteses virando comprovações."

É para quem esperava uma análise mais aprofundada do comprometimento de renda das famílias com transporte privado, ficou a ver navios. Foi muito bem lembrado a informação de que só 30% da frota tem seguro. Fiquei pensando em outras questões, por exemplo, quantas famílias usufruem de transporte privado? Deve depender fortemente da renda, né? Felizmente achei um bom estudo do IPEA a respeito ("Gastos das Famílias Brasileiras com Transporte Urbano Público e Privado no Brasil: Uma Análise da POF 2003 e 2009").Os dados usados são da POF (Pesquisa de Orçamento Familiar). Reproduzo aqui alguns resultados.

A primeira resposta é 51% das famílias usufruem transporte privado. E o gráfico abaixo mostra como a dependência com a renda é forte:



Seguindo um pouco mais no texto acham-se os gráficos do comprometimento de renda com transporte público e privado segundo a renda:





Ainda segundo o artigo, dos gastos com transporte privado, a aquisição de veículos é o item que apresenta maior participação percentual, respondendo por 55%, seguido pelos gastos com combustíveis e manutenção, que respondem por 27% e 13%, respectivamente. Seguros e documentação juntos representam 3,5%. Voltando à matéria do Estadão, só seguros seriam 12,7%.

Nessa comparação de estudos, a gente tem de entender que fazer as contas para um caso em particular nada se pode afirmar sobre o brasileiro em geral. Outros dados estatísticos têm que serem levados em conta.

Agora, nosso amigo Formigari está afiado hein?!

Até
Roberto

terça-feira, 19 de março de 2013

Foi o trânsito ou a cidade que piorou?

Recebi um interessante e-mail do amigo André Duarte sobre a reportagem da Folha deste último domingo cujo título é: "Trânsito piora e SP se iguala ao RJ no trajeto casa-trabalho". Ele questiona a média do tempo de deslocamento casa-trabalho como medida de trânsito em regiões metropolitanas (RM). Veja o gráfico da matéria abaixo:



Sua teoria é de que "Apesar da média ser uma boa medida, como estamos lidando com trânsito, um processo exposto à efeito da teoria de filas, a volatilidade (variação) é tão importante quanto".

Ele explica: "Com a média maior, o desvio padrão é bem maior que as outras capitais de média menor. Isso faz com que o cidadão tenha que sair com mais antecedência para garantir um nível de confiança de 95% de que não se atrasará. Isso não foi explorado na reportagem".

Li a reportagem para respondê-lo e fiquei com mais dúvidas ainda. Decidi ir ao artigo original do IPEA em http://www.ipea.gov.br/

A primeira dúvida é: como se mede o trânsito? Todos os dias ouvimos no rádio a "quantidade" de congestionamento em Km (fornecida pela CET). Mas não é dessa medida que a reportagem fala. A medida plotada no gráfico trata-se da média estimada de tempo gasto para o deslocamento casa-trabalho declarada pelos cidadãos na PNAD (Pesquisa Nacional por Amostra de Domicílios). Portanto não é uma medida direta da observação do trânsito. Nesse caso, meu caro André, nada há mesmo de informação sobre volatilidade do trânsito. Mas a média citada parece muito boa para comparar as diferentes regiões metropolitanas do Brasil e ao longo do tempo (a pesquisa é feita anualmente desde 1967).

A segunda dúvida é por que a média de RJ e SP são altas? A resposta seria óbvia: o maldito trânsito piorou, e piorou por causa dos carros. O artigo está muito bom, mostra bem os dados de cada RM ao longo dos anos, mas não chegou a explorar uma curiosa tabela inicial para essa análise. Veja:




São pouquíssimos pontos o que torna a análise uma mera exploração, mesmo assim, com esses dados fiz gráficos de dispersão (enxergando o posicionamento de cada RM) para verificar qual das variáveis teria relação com a média de tempo. A hipótese que pensei ser a mais provável era que a taxa de motorização apresentaria a relação mais forte: mais carros por habitante, mais trânsito, você não acha? Pois então veja:



Não. Não parece ter a tal relação. Vejamos, então, a relação com o PIB. Minha hipótese: maior PIB, mais progresso, melhores condições urbanas, melhores resultados de trânsito! Vejamos:



Nada também... E quanto à densidade demográfica? Minha última esperança...


Nossa! Parece haver algo aí! RJ e SP, com maiores densidades populacionais têm maiores tempos de deslocamento. Hummm...

Lembremos do indicador, são respondentes da PNAD. Será que esse tempo maior nas RM mais densas está ligado à falta de planejamento de moradia? As pessoas moram cada vez mais afastadas dos locais de trabalho e tendo cada vez menos recursos públicos de mobilidade. São as cidades que estão piorando, não só o trânsito.

A questão do nosso amigo André ainda está no ar. Alguém se habilita?

Até
Roberto

domingo, 17 de fevereiro de 2013

Orçamento do Congresso é uma aberração lognormal

Incrível é o custo anual de um parlamentar brasileiro: US$7,4 milhões! Deixa eu repetir: sete vírgula quatro milhões de dólares! Isso mesmo. A Folha soltou neste domingo a nossa colocação no ranking de parlamentares mais caros. Estamos na vergonhosa segunda posição:



É muito? Do ponto de vista do cidadão comum, claro que é. Sentimos falta de vários serviços básicos: saúde, educação, segurança... Agora, parlamentar? Nunca vi ninguém reclamar disso: precisamos de mais deputados no congresso! Você, já? Fiz uma pequena conta: 1 parlamentar = 260 policiais (PM/SP) em termos de custo.

Foco, foco, voltemos ao gráfico porque meu assunto de hoje vai ser Distribuições Assimétricas. Acompanhe...

Para falar delas vou usar os dados dos parlamentos publicado pela Folha. Na reportagem, ela trouxe somente os primeiros colocados, mas no seu site ela traz uma tabela com informações dos 110 países. Há duas variáveis interessantes, número de congressistas e orçamento por congressista. Com todos os 110 países plotados num gráfico de dispersão, vemos mais claramente as discrepâncias entre os países:



Olha o Brasil lá, bem destacado logo abaixo dos EUA. Acho que se a Folha mostrasse assim, a notícia daria mais impacto, não? Copiamos muito do modelo de democracia deles mas não precisava ser tão exato nas contas. Aliás, se quisermos ganhar dos EUA, não precisamos investir nada, é só manter o orçamento atual e reduzir o total de senhores e senhoras representantes do povo a 460.

Com os mesmos dados fiz um histograma da variável orçamento por parlamentar. Veja como a distribuição é assimétrica, isto é, a cauda de um lado é bem diferente da do outro. Nesse caso nem temos uma cauda a esquerda, só a direita.



Nós estatísticos gostamos não só de ver a distribuição de uma variável, mas de arrumar um modelo para ela. O modelo que mais frequentemente explica bem os desvios medidos em fenômenos naturais é a da Distribuição Normal, a famosa curva em forma de sino. Ocorre que para esses dados, esse modelo parece inadequado devido à assimetria que já observamos. Surge a pergunta: qual modelo usar então? Há várias técnicas para se procurar um modelo adequado.

Eu fui no chute. Chutei que esses dados se parecem com uma distribuição Lognormal. Ela é chamada assim porque, se aplicarmos o operador log aos dados que a seguem, eles assim transformados seguirão uma distribuição normal.

Para verificar se meu chute estava bom, um gráfico bem interessante, o de probabilidade, pode ser usado. Trata-se de uma gráfico de dispersão onde o Y são os percentis calculados a partir de um modelo de distribuição, contra os valores observados no eixo X. Caso os pontos estejam razoavelmente bem alinhados, você acertou a distribuição (colegas estatísticos, perdoem minha falta de formalismo, por favor). Veja o resultado:



Uau! Temos uma Lognormal. Uhuuuuu!

Ok, e daí?
Bom, daí podemos fazer alguns cálculos a partir do modelo!

Humm, e daí?
Daí, você pode ver o modelo junto com o histograma:



Ok, e daí?
Bem, daí... Sei lá, o orçamento do Congresso continua sendo uma aberração. Uma aberração lognormal!

Até
Roberto

domingo, 10 de fevereiro de 2013

Analisando a série histórica do IPCA

Pessoal, voltei e trago de novo o assunto que não sai da moda: inflação. Já relacionamos aqui IPCA com a Selic, e hoje vamos analisar o comportamento da série histórica do IPCA.

Na quinta passada saiu o IPCA mensal de 0,86% para janeiro/2013. Um valor alto, de assustar mesmo! A Folha da última sexta, usou o verbo "disparar" para descrever esse fato:

 

Disparar, segundo o Michaelis, é: "partir à desfilada, fugir desabaladamente". Vamos ver se é isso que aconteceu. Neste post vou explorar mais a fundo os dados mensais do IPCA. Mostrarei algumas ferramentas de análise que normalmente não aparecem aqui, acompanhe:

Primeiro vamos dar uma olhada na série histórica do IPCA. Coletei os dados desde 2005 e fiz um gráfico de controle para ver se nosso último janeiro encontra-se fora dos limites calculados:



Bem, pelo que vemos, o valor de 0,86 passou do limite superior. Por um triz, mas passou. Isso já é um indicador de algo a ser verificado. Não é à toa que choveram comentários por aí a respeito.

O texto do jornal diz que foi o pior janeiro desde 2003. Isso disparou em mim uma dúvida: será que a série do IPCA apresenta uma sazonalidade? A palavra sazonalidade deriva de sazão, ou estação do ano. Para se observar melhor se um resultado mensal tem relação com os meses anteriores podemos fazer o gráfico da função autocorrelação. A autocorrelação é a correlação entre observações de um mesmo indicador separadas por um intervalo de observações. Veja a análise para a série do IPCA:



Muito interessante! Espera-se nenhum padrão para dados que não são autocorrelacionados, mas para o IPCA há claramente um padrão. Note que a cada 6 meses a correlação inverte o sinal. Negativo para 6, 18 etc, e positivo para 12, 24 etc. Isso indica haver duas estações no indicador, uma no fim+início de ano e outra no meio do ano. Ótimo, estamos indo bem. Vamos explorar isso então.

Vou tentar mostrar essas duas estações com algumas visualizações dos dados agrupados por mês. Fiz 3 gráficos equivalentes e gostaria da sua opinião sobre qual deles mais mostra a variação sazonal da série histórica do IPCA, aí vão eles:







No primeiro, usei pontos para representar cada valor do IPCA. Trata-se de um gráfico de pontos individuais. No segundo, usei as linhas para mostrar cada ano. Fiz um espaguete de propósito para tentar mostrar a sazonalidade. No último gráfico usei box-plots para mostrar a distribuição dos valores de cada mês. Então, qual deles lhe parece mais fácil notar a tal sazonalidade? Você observou que normalmente os valores do IPCA de janeiro são relativamente altos?

Agora que sabemos que em janeiro a inflação normalmente "dispara", vamos ver se ela disparou em relação aos últimos anos. Acompanhe a variação dos meses de janeiro num gráfico de controle e veja a situação do "nosso" janeiro:



O que vemos? Sim, foi bem alto, mas disparar ainda não disparou...

Até
Roberto

Obs: agradeço ao leitor Getúlio de Oliveira que me enviou o tema da inflação para comentar!