quinta-feira, 28 de outubro de 2010

Boa notícia

Um gráfico é uma tentativa de se expressar dados visualmente para facilitar a compreensão dos padrões formados por eles.

Vejam um que traz uma notícia muito animadora:


A manchete da matéria, publicada ontem na página C1 da Folha de São Paulo, é “Número de assassinatos cai 13% em SP”. Observem que a queda de 13% comparada ao trimestre anterior pode ser apenas variação, já discutida pelo Roberto no post Tiririca, o filósofo. A boa notícia mesmo é o padrão da queda revelada pelo gráfico (compare o período de 2005-2006 com 2007-2010).

Daí me fiz a seguinte pergunta: Como seria o histórico anterior a 2005? Será que já vinha em queda? Ou será que houve um pico de homicídios em 2005? Fui pesquisar...

Não encontrei a base de dados, mas achei o gráfico abaixo no site do Bepa (Boletim Epidemiológico Paulista) que mostra o número de homicídios no período de 1980 a 2007 no Brasil, no Estado de São Paulo (ESP) e no Brasil excluindo o Estado de São Paulo (Brasil menos o ESP).


Vejam que a queda no número de homicídios no Estado de São Paulo começou a partir de 2001, portanto, aquele comportamento que vimos no primeiro gráfico seria até mais impressionante se tivéssemos os dados anteriores a 2005. Notícia mais animadora ainda!

Voltando a reportagem, ao lado do gráfico há uma tira que informa “Estado ainda vive epidemia de homicídios” e explica que a OMS (Organização Mundial de Saúde) considera epidemia um índice superior a dez homicídios por grupo de 100mil habitantes por ano. Mas como é que concluo isto a partir do gráfico? Veja que este apresenta apenas números absolutos.



No site do Bepa encontrei o gráfico abaixo e tomei a liberdade de incluir uma linha de referência no 10.


Sei que o número de mortes por homicídio ainda é grande, mas mesmo sem os dados exatos de 2009 e 2010 (a FSP informa taxa de 10,36 nos últimos 12 meses e o governo informa taxa 8,86 homicídios a cada 100 mil habitantes no 3º tri de 2010) fica evidente a melhoria da taxa no estado de São Paulo.

O que acham da notícia, animadora não?

Abraços,
Satomi

Uma notícia curta: Esta semana, em Salt Lake City, Utah–EUA, acontece a VisWeek 2010 que inclui a 16a Conferência de Visualização da Informação (16th IEEE InfoVis Conference).

terça-feira, 26 de outubro de 2010

Gráfico espaguete

O que fazer quando precisamos representar várias curvas num gráfico de tendência?

A Donna Wong em seu livro "The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures" diz, em primeiro lugar, para não fazermos um espaguete.
Veja um exemplo: a Folha do último sábado trouxe um bom infográfico explicando a tal guerra cambial, mas junto veio uma bela macarronada como gráfico principal. Há quem veja nele algo de "Miojo"...



O gráfico traz a queda do valor do dólar em relação a várias moedas. A proposta é ótima, vemos que o dólar caiu em relação a todas as moedas rapidamente. O que dá trabalho é acompanhar o trajeto de queda em relação a uma moeda específica. Explico: todas as curvas estão da mesma grossura, com cores diferentes e com suas legendas afastadas, no alto. Isso dificulta localizá-las e segui-las ao longo do gráfico. No livro citado há três dicas: usar grossuras diferentes, tons diferentes de cinza e posicionar a legenda de cada curva proximo a ela, ou no final da curva do lado direito. Fiz um teste observado-se essas dicas e veja o que se deu:



Parece o mesmo gráfico, mas agora eu consigo identificar e percorrer cada curva muito mais facilmente. Para um daltônico, não misturar cores é fundamental (é o meu caso). Você sabia que cerca de 8% da população masculina de origem caucasiana tem daltonismo? Pense nisso antes de usar cores belas e formosas...
Outra coisa, vocês notaram que coloquei o Yuan também no gráfico? Pois bem, quem leu o infográfico da Folha viu que a todo momento se fala que o dólar não se desvalorizou frente ao Yuan, mas não o puseram no gráfico! Deslize de contexto.
Mais uma dica: nunca deixe sua curva ser suavizada pelo Excel. Num gráfico de tendência, ligue os pontos com segmentos de reta indicando que entre um ponto e outro não há informação.
É isso aí, o gráfico de tendência é um dos mais poderosos. Use-o com destreza.

Até
Roberto

quinta-feira, 21 de outubro de 2010

Pegadinha

Veja o gráfico abaixo e responda a seguinte pergunta:
O QUE MELHOR REPRESENTA A CULTURA BRASILEIRA?




A Folha de São Paulo, na página 7 do caderno Ilustrada, respondeu ontem:



Ahhh?! Como assim?


Com o "Outros" em primeiro lugar, com 40%, e o "Não sabe" em segundo, com 22%, a resposta é Esporte????

No post Manchete 0 x 0 Gráfico o Roberto já discutiu a situação de quando gráfico e manchete dizem coisas diferentes.

A manchete completa era




Mesmo que dentro de "Outros" tenham sido citados diversos esportes, que somados aos 10% do Futebol totalizaram os 15%, não é possível afirmar que "Esporte é o que mais bem representa a cultura brasileira".

Vamos imaginar que dentro de "Outros" tenham sido citadas as festas juninas, os bois Caprichoso e Garantido, e tantas outras festas populares. Somadas ao Carnaval, poderiam atingir mais de 15%. Mas quem é que sabe a resposta quando o "Outros" é a maioria?

Eu não sei.

:Dani


terça-feira, 19 de outubro de 2010

E o bêbado continua seu passeio

O portal G1 noticiou no último domingo um fato interessante e que com certeza deixou muita gente intrigada:



Fico imaginando se isso tivesse ocorrido aqui no Brasil. A discussão daria "pano pra manga" e quem sabe até uma CPI, mas como diz o Leonard Mlodinow no seu livro O Andar do Bêbado "o acaso interfere em nossas vidas muito mais do que imaginamos". Não foi a primeira vez e certamente não será a última.

Caso parecido ocorreu na Alemanha em 21 de junho de 1995. Na Lotto 6/49 (6 números entre 1 e 49) foram sorteados os números 15-25-27-30-42-48, exatamente os mesmos sorteados em 20 de dezembro de 1986. Foi a primeira vez em 3016 sorteios que uma sequência se repetiu. Qual a probabilidade que isso ocorra? Será baixa? Não tão baixa como muitos imaginam. Nesse caso da Alemanha, no início da loteria, a probabilidade de haver repetição, nos 3016 sorteios, era de cerca de 28% (isso mesmo, vinte e oito por cento).

No caso mais recente, da loteria de Israel, onde são sorteados 6 números entre 1 e 37, a obra do acaso ocorreu no sorteio 2194. Os 6 números se repetiram com intervalo de praticamente 1 mês (8 sorteios). Isso chamou atenção, pois a probabilidade de repetição dos números sorteados em 8 sorteios é da ordem de 1 em 83 mil. Baixa, concordo, mas se calcularmos a probabilidade de repetição em 2194 sorteios isso sobe para nada mais nada menos que 64% (2 em cada 3).

A Mega-Sena vai sortear amanhã as 6 dezenas do concurso 1224. Dado que já conhecemos os números sorteados nos 1223 concursos realizados, a probabilidade de que alguma sequência já sorteada se repita amanhã é de aproximadamente 0,002% (1 em 45 mil). Já a probabilidade de termos um resultado repetido nos próximos 1224 sorteios de 1,25% (1 em 80).

Talvez você esteja se perguntando “qual a utilidade dessa informação?”. Leonard Mlodinow responde na página 73 de seu livro O Andar do Bêbado: “Alguns anos atrás, os administradores da loteria canadense aprenderam, da pior maneira possível, a importância de se fazer uma contagem cuidadosa, quando tiveram que devolver um prêmio em dinheiro não reclamado que ficara acumulado. Compraram 500 automóveis como prêmios especiais e programaram um computador para determinar os vencedores, selecionando aleatoriamente 500 números de uma lista de 2,4 milhões de participantes. A loteria publicou a lista de 500 números vencedores, prometendo um automóvel para cada número listado. Para seu embaraço, uma pessoa alegou (corretamente) que havia ganhado dois carros... A chance de repetição, de fato, é de aproximadamente 5%. Não é enorme, mas deveria ter sido levada em consideração, fazendo-se com que o computador eliminasse da lista qualquer número já sorteado anteriormente. A loteria canadense pediu ao felizardo que abrisse mão do segundo carro, mas ele se recusou.”

Boa sorte aos que vão fazer uma fezinha amanhã na mega-sena!

:Dani

quinta-feira, 14 de outubro de 2010

Pau nas pesquisas, sim!

Quem explica é Alfredo Wenzel, colega e parceiríssimo da Limite Consultoria (http://limiteconsultoria.com.br/). Como eles são especialistas em pesquisa, aí vão informações esclarecedoras e preocupantes que merecem muita atenção:

"A audiência aqui é muito boa, portanto vou colocar mais alguns ingredientes e pontos para consideração sobre alguns dos temas já abordados nesse blog e que aparecem em outros fóruns e que muitas vezes não são discutidos como deveriam principalmente nessa época onde as pesquisas estão muito em foco.

O objetivo não é avaliar a qualidade do instituto A ou B, mas levantar questões pertinentes que deveriam ser observadas e que influenciam as estimativas finais, principalmente porque no final das contas o que vale é a diferença entre essas estimativas e valores observados, vou tentar não utilizar muitos jargões estatísticos:

1-Erro Amostral: em delineamentos por Cotas não existe procedimento para calcular a margem de erro porque não é uma amostragem probabilística, aliás sempre que se estiver trabalhando com amostras não probabilísticas não existe meios de calcular margens de erros. O fato de ser probabilística é que permite admitir a distribuição de probabilidade que permite calcular tais probabilidades.

2-Cálculo de Margem de Erro: supondo uma amostragem probabilística a distribuição que deveria ser utilizada na maioria dos casos para cálculo das margens de erro em pesquisas de Opinião Pública seria a Multinomial e não a Binomial no caso de perguntas fechadas. Se a questão for aberta essa possibilidade pode ser difícil de ser modelada.

3- Erro Não Amostral: aqui incluo os entrevistadores, e basicamente eles podem errar em pelo menos duas maneiras: proposital ou preenchimento, é claro que uma equipe bem treinada, coordenadores acompanhando o trabalho e algoritmos de validação orientando o trabalho de checagem são fundamentais e minimizam bem esses problemas.

4-Inferência para os indecisos (ou eles são desconsiderados?): me parece estranho, muito simplificado e não usual fazer inferência na intenção de voto de eleitores indecisos baseado apenas na distribuição dos índices globais de cada candidato, para realização dessas inferências no mínimo deveria ser levado em consideração também o perfil demográfico, econômico, etc da pessoa indecisa bem como indicadores de rejeição aos demais candidatos e mesmo assim não é uma tarefa fácil.

5-Por fim, a questão dos votos não computados é claro que também causam efeitos nas estimativas, quando um eleitor é entrevistado ele diz qual é a intenção de voto, em uma eleição com tantos cargos é natural que muitos dos votos que deveriam ocorrer na prática não ocorram.

Vou parar por aqui, novamente volto a salientar que pesquisa não é algo simples, nem todas as variáveis estão sob controle e que uma discussão sobre o tema deveria ser bastante profunda e não se limitar “a 2% para mais ou para menos” baseado apenas na quantidade de entrevistas feitas.
Abraços e pau nesse comentário!

Alfredo"


segunda-feira, 11 de outubro de 2010

Corinthians: pior que tava, ficou.

Terminei o último post prevendo a queda do treinador do Corinthians caso ele não ganhasse do Atlético (de Goiás) ontem. Longe de mim gorar o Timão, mas gostaria de ver o que aconteceria, pois meu interesse estava nas reações das pessoas diante de resultados ruins, mas prováveis. Concluí que torcedor não tem coração pra aguentar baixas probabilidades.
Vejam os resultados dos dois técnicos ao longo do Brasileirão abaixo:

Antes da sequência fatídica de cinco jogos sem ganhar assinalada no gráfico, ninguém diria que o substituto do Mano levaria o time pra baixo. Fazendo um cálculo simplificado supondo que nada mudou no Corinthians, apareceria essa crise com 3% de probabilidade. Explico o cálculo: por hipótese, o Corinthians tem uma chance idêntica de ganhar jogos no Brasileirão de 50% (14 vitórias em 28 rodadas). Cinco rodadas sem ganhar é da ordem, então, de 1/32 (meio elevado à quinta potência).
Ninguém aguentou esse tranco. Com três rodadas adversas já estavam todos de alerta, veja notícia publicada na Folha em 06/10:

Acho um exagero querer a cabeça do técnico com três rodadas ruins, a chance disso é da ordem de 1/8. Mas é a prática comum dos clubes. Pra mim, demissão de técnico é pura expiação, descarrego, vingança contra a "Santa Variância".
Até Roberto

quinta-feira, 7 de outubro de 2010

Tiririca, o filósofo.

“PIOR QUE TÁ NUM FICA”, é provável.

O bordão do Tiririca tem um conceito profundo sobre a variação: quando um sistema, sujeito às mesmas fontes de variação, produz um resultado em particular de baixo desempenho em relação à sua média, provavelmente ele produzirá um resultado melhor em seguida, ou seja: pior que tá num fica.

Isso vale também para um momento em que o sistema produz um resultado pontual de alto desempenho, e a frase seria: provavelmente, “MELHOR QUE TÁ, NUM FICA”.
Parece um conceito óbvio, mas ele freqüentemente vai de encontro (bate de frente) com a nossa intuição e agimos de maneira equivocada diante dessas variações: ficamos preocupados e esbravejamos com um resultado baixo ou condecoramos alguém por um resultado alto. Em seguida achamos que foi uma boa bronca ou nos arrependemos do elogio dado.
O conceito vale para sistemas estáveis (sujeitos às mesmas fontes de variação). Ocorre que instabilidades provocadas por fontes de variação não presentes o tempo todo aparecem e dão seus sinais. Veja o caso do IPCA que saiu hoje: nos três meses antes das eleições, o indicador se comportou estranhamente longe do padrão normal de variação.

Walter Shewhart, nos anos 1920, desenvolveu uma ferramenta para podemos avaliar quando um sistema dá sinais que está com uma fonte de variação incomum atuando pontualmente, tratam-se dos gráficos de controle. São gráficos de tendência com referências de variação comum. Há um procedimento estatístico que usa os próprios dados do indicador para calcular tais referências. Veja o IPCA com referências de variação comum:

Note, no gráfico, que ele assinala os três meses antes das eleições. Não me parece que foi obra do acaso, o que você acha? E o valor de 0,45% que saiu agora, seria absolutamente normal de acontecer, você não concorda?
Não disse que a gente interpreta mal a variação? Veja as manchetes que alguns portais publicaram hoje a respeito desse último dado do indicador:
- Inflação tem maior alta desde abril, revela IBGE
- A despeito de aceleração do IPCA, juros futuros operam com ...
- Inflação pelo IPCA em setembro acelera para 0,45%
- Seca na Rússia influencia alta da inflação oficial em setembro‎.
Grifei as palavras que contém certo exagero sobre o resultado. O único portal que não exaltou esse número e que considero um bom comentário do ponto de vista de entendimento da variação é o Globo abaixo:

Para saber mais sobre a filosofia do Tiririca, recomendo o livro “O Andar do Bêbado. Como o acaso determina nossas vidas” de Leonard Mlodinow (Ed. Zahar, Rio de Janeiro)
A propósito, o Corinthians não vence há quatro rodadas, e as manchetes destacam a pior fase do Timão: vai cair mais um técnico no Brasileirão ou PIOR QUE TÁ NUM FICA?

Até,
Roberto

segunda-feira, 4 de outubro de 2010

Pau na Pesquisa?

Eu defendo os institutos de pesquisa: existe uma coisa que se chama tendência. Numa eleição aparentemente morna, a coisa esquentou na última semana. Um fenômeno absolutamente plausível e bom para a democracia.
Veja o gráfico dos dados do Datafolha abaixo e me diga se o resultado das urnas (últimos pontos) é, ou não, verossímil em função da evolução histórica das pesquisas de intenção de voto.

Registro aqui minha indignação com relação aos comentaristas chamados para encher lingüiça na TV com suas explicações das urnas culpando o pessoal de pesquisa por ter de mudar seus argumentos após o pleito.
Pau no blá-blá-blá!
Até,
Roberto