segunda-feira, 20 de dezembro de 2010

Playfair: da Balança Comercial ao Google Imagens

Podemos dizer que o engenheiro e economista político escocês William Playfair (1759–1823) foi o inventor dos gráficos estatísticos mais usados atualmente: gráficos de tendência, de setores e os versáteis gráficos de barras. Vários autores afirmam que a publicação de gráficos estatísticos começa com o aparecimento do Commercial and Political Atlas (Playfair, 1786). Nessa publicação, os gráficos de tendência são vistos essencialmente da mesma forma que atualmente. Complementando nosso último post (Responda rápido), um assunto que motivou Playfair a inventar os gráficos de tendêcia foi como representar a Balança Comercial, veja um exemplo do resultado de seus esforços abaixo:



Para demonstrar que essa solução ainda está aí, veja o quadro publicado na FSP neste último domingo, no caderno sobre a era Lula:



O primeiro gráfico do quadro é conceitualmente idêntico ao de Playfair. Seus gráficos são quase sempre construídos para que comparações em diferentes domínios (linhas, cores, legendas etc.) não excedam a capacidade de trabalho e atenção da memória humana. As séries temporais e cores nunca excedem três ou quatro em número, as legendas são posicionadas próximo às linhas em vez de ficarem em quadros distantes. O cuidado na escolha do título, legenda dos eixos, formato, escalas, linhas de referência, não deixam dúvidas que ele intuitivamente aderiu às convenções pregadas pela moderna psicologia experimental de percepção gráfica.
Abra agora o Google Imagens e digite "Balança Comercial Brasileira".



Infelizmente vem muito lixo gráfico. Para nós isto é até bom, porque usamos o Google Imagens para nossos alunos praticarem a crítica aos gráficos. Faça você mesmo um teste, digite simplesmente "gráficos" e comece a "atirar". Mas vá com calma, advertimos que pode ser prejudicial à saúde, pois pode causar lesões por esforço repetitivo (LER), de tanta bobagem gráfica que há na internet. Até.
Ah, até o ano que vem, pois vamos dar uma paradinha de final de ano. Obrigado pela audiência e participações. No ano que vem incluiremos questões sobre a relação da habilidade em se lidar com dados e a Ciência de Melhoria.

Até!
Roberto

sexta-feira, 10 de dezembro de 2010

Responda rápido


Qual gráfico você faria no lugar deste, publicado sexta, dia 12, pela Folha de São Paulo (B2)?

Se pensou num simples e objetivo gráfico de tendência, concordo com você. Veja o resultado:

Mas espere um pouco, não seria legal compararmos também outros blocos? Encontrei as informações na mesma fonte (Ministério do Desenvolvimento, Indústria e Comércio Exterior). Neste caso teremos problemas com o efeito macarrão (veja o post Gráfico Espaguete). Então podemos repetir o gráfico, deixando de fundo o anterior, com as novas linhas mais em evidência. Veja:

Não há fórmulas prontas, mas o que vale é a informação bem passada, possibilitando que o próprio leitor tire suas conclusões.

Até,
Roberto

Resposta para o QUIZ Gráfico de Setores

Hoje é sexta e, conforme prometido no QUIZ - Gráfico de setores, estou de volta para falarmos sobre os deslizes cometidos no gráfico abaixo, publicado na terça, dia 7, pela Folha de São Paulo (pág. B2) em nota divulgando o resultado de uma pesquisa de Intenção de Gastos para as compras de Natal, realizada por um shopping de São Paulo.



Na minha opinião há vários pequenos deslizes, alguns deles reconhecidos nos comentários que reproduzo mais adiante e um grande "escorregão"...

Veja os dois gráficos abaixo, com os mesmos dados:





O grande "escorregão" é que para mostrar estes dados, o gráfico escolhido não foi adequado.
Um gráfico de barras cumpre muito melhor a função de compararmos o percentual cada faixa de gasto. Percebemos muito mais facilmente as diferenças, inclusive entre a barra dos R$100 e a barra do mais de R$ 200, mesmo que omitíssemos os valores 43% e 39%.

Outros deslizes foram bem identificados pelo Luciano e pelo Carlos.

"Luciano Peloche disse...
Na minha humilde opinião:
1 - cores. A falta de cores deixa o gráfico ruim de ser lido;
2 - mistura de percentual com os valores (R$). Tb complicado de entender;
Basicamente é um gráfico que perde-se mais de 30 segundos pra ser entendido, ou seja, ruim!
8 de dezembro de 2010 23:50"


"Carlos disse...
Também concordo com o Luciano. Me parece que as escolha das cores - ou falta delas, foi infeliz. Também costumo ordenar o gráfico de setores das frações maiores para as menores.
Por último, e aí sim é um preciosismo meu, o gráfico diz respeito a uma informação secundária da notícia. O título e o texto buscam mostrar que as pessoas não estão com pressa para fazer as compras de natal. Já o gráfico trata do quanto cada um pretende gastar. Esta é uma informação secundária na notícia.
9 de dezembro de 2010 11:06"

Se for usar gráfico de setores, use cores para diferenciar as fatias.

A mistura do percentual com valores ocorre pela escolha inadequada do tipo de gráfico. Agora, que os rótulos são ruins, isso são! "R$50" significa "até R$50", "em torno de R$50", "de R$50 a R$100" ou outra coisa? O mesmo vale para o "R$100".
Agora, o "mais de R$200" e o "acima de R$1000" são os piores. Pode ser preciosismo meu, plagiando o Carlos, mas na minha escola acima de R$1000 é maior que R$200.
Resumindo: uma confusão danada!

Quanto à ordenação das fatias, em geral ordenamos o gráfico de setores das frações maiores para as menores, porém, neste caso, se insistíssemos em usar setores, melhor manter a ordenação natural das fatias, pela intenção de gasto declarada.

Por último, concordo com o Carlos que o gráfico não se refere ao título da reportagem, NATAL SEM PRESSA, mas eu não saberia dizer qual é secundária. Ou seja, não sei se mudo o gráfico ou se mudo a manchete!

Agradeço ao Luciano e ao Carlos pelas suas contribuições.

Obrigada!
:Dani

Em tempo!
"Walker disse...
Já que Carlos e Luciano fizeram o trabalho sério, só me resta a preocupação de saber que estou ente os 4% que têm clara intenção de ultrapassar o milhar de reais e aqueles que presentear-me-ão estão entre os 15% cujo teto dos gastos bate em meia centena de reais.
10 de dezembro de 2010 20:47"

Sugiro uma pesquisa entre seus amigos e familiares. Você já sabe que gráfico utilizar para mostrar os resultados!



quarta-feira, 8 de dezembro de 2010

QUIZ - Gráfico de setores

Em nota publicada ontem, a Folha de São Paulo (pág. B2) divulgou o resultado de uma pesquisa de Intenção de Gastos para as compras de Natal, realizada por um shopping de São Paulo.

Veja o resultado abaixo:



Quais os deslizes cometidos no gráfico?

Volto na sexta para comentar as respostas.
:Dani

domingo, 28 de novembro de 2010

Meio ambiente: monitorar para preservar

Medir é geralmente difícil e custa caro, mas é fundamental para gerenciar as coisas. A Cetesb presta um enorme serviço há décadas ao avaliar sistematicamente a qualidade das praias de São Paulo. É um exemplo de constância de propósito em melhorar o meio ambiente. Neste último domingo a Folha trouxe a reportagem: "Em dez anos, S.Sebastião perde a excelência de praias" com este gráfico:



Trata-se do mesmo tipo de gráfico encontrado no site da Cetesb. Este tem sua função: a de um banco de dados que o cidadão pode consultar para decidir qual praia frequentar.

Ocorre que não é fácil notar a piora da qualidade das praias pelo excesso de cores e informações analíticas de cada praia. É preciso resumir isso. Minha sugestão é fazer um gráfico mostrando a quantidade de praias com classificação Boa ou Ótima pela Cetesb. Veja abaixo:



Aprendemos com ele que a manchete da Folha infelizmente parece ter razão. O percentual encontra-se em torno de 35%, quando já esteve em torno de 70% no início da década. Isso pode ser efeito da variação, que já abordamos aqui no post "Titirica, o filósofo". Importante é continuarmos acompanhando.

De volta aos gráficos, aqui é uma boa oportunidade para usar gráficos interativos (para publicações digitais). Trago a seguir um exemplo publicado pelo NY Times que poderia ser seguido: http://nyti.ms/dBhv4h.

O leitor tem bastante controle das informações que deseja obter navegando pelos gráficos. A Cetesb poderia usar essa tecnologia pois já coleciona muita informação a respeito de nossas praias. Pode ser um atrativo para que, com os indicadores em mãos, cada vez mais pressionemos nossos eleitos a exercer a gestão das mudanças necessárias para melhoria do nosso ambiente.
Até,
Roberto

terça-feira, 23 de novembro de 2010

Quem nunca levou uma nota vermelha no boletim?

Quem é do tempo do boletim, que vinha com as notas ou conceitos escritos a mão pela professora, sabe que levar nota vermelha era sinônimo de problema. Bom mesmo era ter no boletim só notas azuis.

Numa escala, em verde, amarelo e vermelho, como num semáforo, o verde é o "tudo bem, pode seguir", o amarelo "preste atenção" e o vermelho "pare".

Na folha de São Paulo do último domingo, encontrei dois gráficos (páginas a6 e b2) que me chamaram atenção pela escala de cores utilizadas.

O primeiro fez uma escolha de cores acertada e ainda leva ponto positivo pela escolha do tipo de gráfico. Um de barras e um mapa. Ótimos!



Já o segundo começou pelo laranja na categoira "Excelente", depois vermelho para o "Boa", passando pelo azul, cinza e por fim o verde para a categoria "Não sabe". Ficou no mínimo estranho.




Uma possibilidade, usando as mesmas cores, seria:



Quanto ao tipo de gráfico utilizado, este aí parece estar na última moda. Uma versão repaginada do bom e velho gráfico de setores.

:Dani

terça-feira, 16 de novembro de 2010

Tabelas também facilitam a compreensão do leitor

Neste blog a gente foca a comunicação com gráficos, mas nem sempre essa é a melhor forma de se apresentar dados. Existem ocasiões em que uma tabela traz mais ganhos para o leitor. Elas já apareceram no post "Nada se cria, tudo se copia". Veja, também, o exemplo abaixo onde o objetivo é comparar a força bélica da Índia com a do Brasil, publicado na FSP, dia 16/11/2010, A14.


Usando um pequeno espaço, o jornal me convenceu de que a força bélica da Índia se encontra muito superior a nossa.
Se fossemos transmitir esta informação através de gráficos faríamos várias barras, como no exemplo abaixo (publicado na mesma matéria).


Seriam necessários mais oito gráficos como esse, um para cada tipo de armamento.
Portanto, tenha sempre em mente qual o objetivo do gráfico, qual a conclusão que se quer transmitir ao receptor, e depois pense nos instrumentos disponíveis, seja um gráfico ou uma tabela.

No caso analisado a tabela resumo facilita a compreensão do fato (força bélica da Índia é superior a do Brasil). Isso se deve à diferença na ordem de grandeza dos números, ao bom uso da pontuação do milhar, e ao alinhamento à direita. A tabela apresentada está, também, bem leve, isto é, com linhas horizontais finas e sem as linhas verticais desnecessárias. Mas nem tudo saiu perfeito. Há um desalinhamento das figuras com o texto a que se referem. Deve ter havido um descuido de revisão final.

Resultado: Show de tabela, mas não se esqueça da revisão!
Abraços,
Satomi

terça-feira, 9 de novembro de 2010

Não à CPMF, mas cuidado com os números!

Mesmo morta, acho que nunca a CPMF foi tão “Twittada”. Tá todo mundo apavorado com a possibilidade dela voltar, mas tem notícia precisando revisão pra não cair na leviandade.
Neste último sábado (06/11) a Folha publica em Primeira Página com letras garrafais:

Desconfiei das orações, não pela sintaxe, pois parecem duas perfeitas coordenadas sindéticas adversativas, mas fui à caça de dados ou de um gráfico na certeza de que poderiam condená-las quanto ao conteúdo. Dentro do caderno, lá estava ele boiando no meio de uma página:



O seu impacto visual leva a uma confirmação instantânea da manchete. Embora gráfico e manchete concordem entre si, vamos atirar o pau nesse gráfico, e na manchete também...
O problema, como em muitos gráficos, está na escolha da escala. Aqui há algo muito particular. Ao colocar duas curvas de magnitudes bem distantes sob a mesma escala, a visualização da variação fica bastante prejudicada. Não percebemos, por exemplo, qualquer variação na curva da despesa com saúde que é visualmente constante.

A dica neste caso é fazer as duas curvas em gráficos separados tomando um cuidado especial com a escolha das escalas. Elas deverão ter suas amplitudes calculadas em função da curva de maior variação relativa. Para a curva da receita total, temos uma variação de 4,1 pontos percentuais, ou seja, 20% relativamente ao menor valor. Para o gasto com saúde, os 0,16 pontos percentuais de variação correspondem a 10% do valor inicial. Portanto, adotaremos as duas escalas com amplitude de 20% de variação relativa. O Resultado é esse:



A conclusão visual é bem diferente daquela inicial. O gasto da saúde cresceu proporcionalmente à metade do crescimento da receita total.
Pau no gráfico e na Manchete!
Até
Roberto

sexta-feira, 5 de novembro de 2010

Resposta para o QUIZ - Gráfico de Barras

Hoje é sexta e, conforme prometido no QUIZ - Gráfico de Barras e aguardado ansiosamente pela nossa legião de seguidores, estou de volta para falarmos sobre as gafes do gráfico abaixo, que ilustra a reportagem "O Brasil a preço de ouro", publicado na VEJA do último dia 27, páginas 94 e 95.





Já no primeiro comentário, que reproduzo a seguir, o Cochran nos apontou as duas gafes.

"Anônimo disse...
Cara Daniela (sem trocadilhos)
Em minha visão, são duas as gafes principais do gráfico apresentado, muito comum a meu ver em análises a partir de gráficos de barras:
1) Valor aonde se inicia o eixo
2) Fazer a barra tridimensional
Para mostrar como as conclusões rápidas (aliás, como as que tiremos quando lemos manchetes num jornal), sugiro que você refaça o gráfico, sem a barra tridimensional e com o eixo dos valores começando do ZERO.
Um abraço.
Cochran
3 de novembro de 2010 10:48"

Vamos deixar o 3D de lado e comparar o gráfico com a escala original e com a escala correta (começando do zero).



Notem como começar a escala no meio distorce a comparação entre as cidades. No primeiro gráfico, com a escala original, temos a impressão que o subsídio para um oficial que trabalha em São Paulo é cerca de 15 vezes maior que o subsídio de um oficial que trabalha em Luanda, quando na verdade é 1,3 vezes (ou 30%) maior.

Outro comentário foi do Walker, que trouxe um ponto de vista diferente.
"Walker disse...
Quem é do tempo do papel milimetrado há de se lembrar que não se começam as escalas pela metade mas que ficaria chata uma fita cumprida pra burro ficaria. Olhando daqui de baixo, eu não saberia se seria melhor ser oficial do exército americano em SP ou em ROMA.
Agora, como eu sou publicitário e adoro um gráfico tridimensional que só mostre o pedacinho do fim, pra mim as duas gafes são destacar SP em laranja (no xerox vi ficar com o mesmo tom de cinza) e não fazer uma pilha de dólares para representar essa diferença no bônus.
3 de novembro de 2010 18:22".

Mesmo que fique "chata" ou "sem graça" a barra comprida e sem o efeito 3D, num gráfico de barras não há necessidade da terceira dimensão e nunca devemos começar escalas pela metade, sem exceções.

Quanto ao destaque em laranja para São Paulo, não é de fato uma gafe (talvez o laranja não seja o mais adequado, mas confesso que não fiz o teste do xerox). Neste caso a cor diferente se justifica pelo fato da reportagem falar sobre o alto custo de vida no Brasil (para mais detalhes sobre cores, vejam o post Cores que ajudam).

Gostei da sugestão da pilha de dólares, mas essa vou deixar para os publicitários, pois confesso que estes efeitos especiais não são a minha praia.

Agradeço a participação e contribuição do Cochran, do Walker e do André, que nos deu sua opinião no terceiro comentário:
"Anônimo disse...
Concordo com os outros comentários: tridimensional e começando deslocado do "zero".
Abs
André
5 de novembro de 2010 00:34"



Obrigada!
:Dani

quarta-feira, 3 de novembro de 2010

QUIZ - Gráfico de Barras

Observem o gráfico abaixo, que ilustra a reportagem "O Brasil a preço de ouro", publicado na VEJA do último dia 27, páginas 94 e 95.



Há duas gafes que comumente estão presentes nos gráficos de barra.

Quais são elas?

Volto na sexta para comentar as respostas.
:Dani

Incluído sexta, 05/11/2010

Vejam novo post com a Resposta para o QUIZ - Gráfico de Barras

quinta-feira, 28 de outubro de 2010

Boa notícia

Um gráfico é uma tentativa de se expressar dados visualmente para facilitar a compreensão dos padrões formados por eles.

Vejam um que traz uma notícia muito animadora:


A manchete da matéria, publicada ontem na página C1 da Folha de São Paulo, é “Número de assassinatos cai 13% em SP”. Observem que a queda de 13% comparada ao trimestre anterior pode ser apenas variação, já discutida pelo Roberto no post Tiririca, o filósofo. A boa notícia mesmo é o padrão da queda revelada pelo gráfico (compare o período de 2005-2006 com 2007-2010).

Daí me fiz a seguinte pergunta: Como seria o histórico anterior a 2005? Será que já vinha em queda? Ou será que houve um pico de homicídios em 2005? Fui pesquisar...

Não encontrei a base de dados, mas achei o gráfico abaixo no site do Bepa (Boletim Epidemiológico Paulista) que mostra o número de homicídios no período de 1980 a 2007 no Brasil, no Estado de São Paulo (ESP) e no Brasil excluindo o Estado de São Paulo (Brasil menos o ESP).


Vejam que a queda no número de homicídios no Estado de São Paulo começou a partir de 2001, portanto, aquele comportamento que vimos no primeiro gráfico seria até mais impressionante se tivéssemos os dados anteriores a 2005. Notícia mais animadora ainda!

Voltando a reportagem, ao lado do gráfico há uma tira que informa “Estado ainda vive epidemia de homicídios” e explica que a OMS (Organização Mundial de Saúde) considera epidemia um índice superior a dez homicídios por grupo de 100mil habitantes por ano. Mas como é que concluo isto a partir do gráfico? Veja que este apresenta apenas números absolutos.



No site do Bepa encontrei o gráfico abaixo e tomei a liberdade de incluir uma linha de referência no 10.


Sei que o número de mortes por homicídio ainda é grande, mas mesmo sem os dados exatos de 2009 e 2010 (a FSP informa taxa de 10,36 nos últimos 12 meses e o governo informa taxa 8,86 homicídios a cada 100 mil habitantes no 3º tri de 2010) fica evidente a melhoria da taxa no estado de São Paulo.

O que acham da notícia, animadora não?

Abraços,
Satomi

Uma notícia curta: Esta semana, em Salt Lake City, Utah–EUA, acontece a VisWeek 2010 que inclui a 16a Conferência de Visualização da Informação (16th IEEE InfoVis Conference).

terça-feira, 26 de outubro de 2010

Gráfico espaguete

O que fazer quando precisamos representar várias curvas num gráfico de tendência?

A Donna Wong em seu livro "The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures" diz, em primeiro lugar, para não fazermos um espaguete.
Veja um exemplo: a Folha do último sábado trouxe um bom infográfico explicando a tal guerra cambial, mas junto veio uma bela macarronada como gráfico principal. Há quem veja nele algo de "Miojo"...



O gráfico traz a queda do valor do dólar em relação a várias moedas. A proposta é ótima, vemos que o dólar caiu em relação a todas as moedas rapidamente. O que dá trabalho é acompanhar o trajeto de queda em relação a uma moeda específica. Explico: todas as curvas estão da mesma grossura, com cores diferentes e com suas legendas afastadas, no alto. Isso dificulta localizá-las e segui-las ao longo do gráfico. No livro citado há três dicas: usar grossuras diferentes, tons diferentes de cinza e posicionar a legenda de cada curva proximo a ela, ou no final da curva do lado direito. Fiz um teste observado-se essas dicas e veja o que se deu:



Parece o mesmo gráfico, mas agora eu consigo identificar e percorrer cada curva muito mais facilmente. Para um daltônico, não misturar cores é fundamental (é o meu caso). Você sabia que cerca de 8% da população masculina de origem caucasiana tem daltonismo? Pense nisso antes de usar cores belas e formosas...
Outra coisa, vocês notaram que coloquei o Yuan também no gráfico? Pois bem, quem leu o infográfico da Folha viu que a todo momento se fala que o dólar não se desvalorizou frente ao Yuan, mas não o puseram no gráfico! Deslize de contexto.
Mais uma dica: nunca deixe sua curva ser suavizada pelo Excel. Num gráfico de tendência, ligue os pontos com segmentos de reta indicando que entre um ponto e outro não há informação.
É isso aí, o gráfico de tendência é um dos mais poderosos. Use-o com destreza.

Até
Roberto

quinta-feira, 21 de outubro de 2010

Pegadinha

Veja o gráfico abaixo e responda a seguinte pergunta:
O QUE MELHOR REPRESENTA A CULTURA BRASILEIRA?




A Folha de São Paulo, na página 7 do caderno Ilustrada, respondeu ontem:



Ahhh?! Como assim?


Com o "Outros" em primeiro lugar, com 40%, e o "Não sabe" em segundo, com 22%, a resposta é Esporte????

No post Manchete 0 x 0 Gráfico o Roberto já discutiu a situação de quando gráfico e manchete dizem coisas diferentes.

A manchete completa era




Mesmo que dentro de "Outros" tenham sido citados diversos esportes, que somados aos 10% do Futebol totalizaram os 15%, não é possível afirmar que "Esporte é o que mais bem representa a cultura brasileira".

Vamos imaginar que dentro de "Outros" tenham sido citadas as festas juninas, os bois Caprichoso e Garantido, e tantas outras festas populares. Somadas ao Carnaval, poderiam atingir mais de 15%. Mas quem é que sabe a resposta quando o "Outros" é a maioria?

Eu não sei.

:Dani


terça-feira, 19 de outubro de 2010

E o bêbado continua seu passeio

O portal G1 noticiou no último domingo um fato interessante e que com certeza deixou muita gente intrigada:



Fico imaginando se isso tivesse ocorrido aqui no Brasil. A discussão daria "pano pra manga" e quem sabe até uma CPI, mas como diz o Leonard Mlodinow no seu livro O Andar do Bêbado "o acaso interfere em nossas vidas muito mais do que imaginamos". Não foi a primeira vez e certamente não será a última.

Caso parecido ocorreu na Alemanha em 21 de junho de 1995. Na Lotto 6/49 (6 números entre 1 e 49) foram sorteados os números 15-25-27-30-42-48, exatamente os mesmos sorteados em 20 de dezembro de 1986. Foi a primeira vez em 3016 sorteios que uma sequência se repetiu. Qual a probabilidade que isso ocorra? Será baixa? Não tão baixa como muitos imaginam. Nesse caso da Alemanha, no início da loteria, a probabilidade de haver repetição, nos 3016 sorteios, era de cerca de 28% (isso mesmo, vinte e oito por cento).

No caso mais recente, da loteria de Israel, onde são sorteados 6 números entre 1 e 37, a obra do acaso ocorreu no sorteio 2194. Os 6 números se repetiram com intervalo de praticamente 1 mês (8 sorteios). Isso chamou atenção, pois a probabilidade de repetição dos números sorteados em 8 sorteios é da ordem de 1 em 83 mil. Baixa, concordo, mas se calcularmos a probabilidade de repetição em 2194 sorteios isso sobe para nada mais nada menos que 64% (2 em cada 3).

A Mega-Sena vai sortear amanhã as 6 dezenas do concurso 1224. Dado que já conhecemos os números sorteados nos 1223 concursos realizados, a probabilidade de que alguma sequência já sorteada se repita amanhã é de aproximadamente 0,002% (1 em 45 mil). Já a probabilidade de termos um resultado repetido nos próximos 1224 sorteios de 1,25% (1 em 80).

Talvez você esteja se perguntando “qual a utilidade dessa informação?”. Leonard Mlodinow responde na página 73 de seu livro O Andar do Bêbado: “Alguns anos atrás, os administradores da loteria canadense aprenderam, da pior maneira possível, a importância de se fazer uma contagem cuidadosa, quando tiveram que devolver um prêmio em dinheiro não reclamado que ficara acumulado. Compraram 500 automóveis como prêmios especiais e programaram um computador para determinar os vencedores, selecionando aleatoriamente 500 números de uma lista de 2,4 milhões de participantes. A loteria publicou a lista de 500 números vencedores, prometendo um automóvel para cada número listado. Para seu embaraço, uma pessoa alegou (corretamente) que havia ganhado dois carros... A chance de repetição, de fato, é de aproximadamente 5%. Não é enorme, mas deveria ter sido levada em consideração, fazendo-se com que o computador eliminasse da lista qualquer número já sorteado anteriormente. A loteria canadense pediu ao felizardo que abrisse mão do segundo carro, mas ele se recusou.”

Boa sorte aos que vão fazer uma fezinha amanhã na mega-sena!

:Dani

quinta-feira, 14 de outubro de 2010

Pau nas pesquisas, sim!

Quem explica é Alfredo Wenzel, colega e parceiríssimo da Limite Consultoria (http://limiteconsultoria.com.br/). Como eles são especialistas em pesquisa, aí vão informações esclarecedoras e preocupantes que merecem muita atenção:

"A audiência aqui é muito boa, portanto vou colocar mais alguns ingredientes e pontos para consideração sobre alguns dos temas já abordados nesse blog e que aparecem em outros fóruns e que muitas vezes não são discutidos como deveriam principalmente nessa época onde as pesquisas estão muito em foco.

O objetivo não é avaliar a qualidade do instituto A ou B, mas levantar questões pertinentes que deveriam ser observadas e que influenciam as estimativas finais, principalmente porque no final das contas o que vale é a diferença entre essas estimativas e valores observados, vou tentar não utilizar muitos jargões estatísticos:

1-Erro Amostral: em delineamentos por Cotas não existe procedimento para calcular a margem de erro porque não é uma amostragem probabilística, aliás sempre que se estiver trabalhando com amostras não probabilísticas não existe meios de calcular margens de erros. O fato de ser probabilística é que permite admitir a distribuição de probabilidade que permite calcular tais probabilidades.

2-Cálculo de Margem de Erro: supondo uma amostragem probabilística a distribuição que deveria ser utilizada na maioria dos casos para cálculo das margens de erro em pesquisas de Opinião Pública seria a Multinomial e não a Binomial no caso de perguntas fechadas. Se a questão for aberta essa possibilidade pode ser difícil de ser modelada.

3- Erro Não Amostral: aqui incluo os entrevistadores, e basicamente eles podem errar em pelo menos duas maneiras: proposital ou preenchimento, é claro que uma equipe bem treinada, coordenadores acompanhando o trabalho e algoritmos de validação orientando o trabalho de checagem são fundamentais e minimizam bem esses problemas.

4-Inferência para os indecisos (ou eles são desconsiderados?): me parece estranho, muito simplificado e não usual fazer inferência na intenção de voto de eleitores indecisos baseado apenas na distribuição dos índices globais de cada candidato, para realização dessas inferências no mínimo deveria ser levado em consideração também o perfil demográfico, econômico, etc da pessoa indecisa bem como indicadores de rejeição aos demais candidatos e mesmo assim não é uma tarefa fácil.

5-Por fim, a questão dos votos não computados é claro que também causam efeitos nas estimativas, quando um eleitor é entrevistado ele diz qual é a intenção de voto, em uma eleição com tantos cargos é natural que muitos dos votos que deveriam ocorrer na prática não ocorram.

Vou parar por aqui, novamente volto a salientar que pesquisa não é algo simples, nem todas as variáveis estão sob controle e que uma discussão sobre o tema deveria ser bastante profunda e não se limitar “a 2% para mais ou para menos” baseado apenas na quantidade de entrevistas feitas.
Abraços e pau nesse comentário!

Alfredo"


segunda-feira, 11 de outubro de 2010

Corinthians: pior que tava, ficou.

Terminei o último post prevendo a queda do treinador do Corinthians caso ele não ganhasse do Atlético (de Goiás) ontem. Longe de mim gorar o Timão, mas gostaria de ver o que aconteceria, pois meu interesse estava nas reações das pessoas diante de resultados ruins, mas prováveis. Concluí que torcedor não tem coração pra aguentar baixas probabilidades.
Vejam os resultados dos dois técnicos ao longo do Brasileirão abaixo:

Antes da sequência fatídica de cinco jogos sem ganhar assinalada no gráfico, ninguém diria que o substituto do Mano levaria o time pra baixo. Fazendo um cálculo simplificado supondo que nada mudou no Corinthians, apareceria essa crise com 3% de probabilidade. Explico o cálculo: por hipótese, o Corinthians tem uma chance idêntica de ganhar jogos no Brasileirão de 50% (14 vitórias em 28 rodadas). Cinco rodadas sem ganhar é da ordem, então, de 1/32 (meio elevado à quinta potência).
Ninguém aguentou esse tranco. Com três rodadas adversas já estavam todos de alerta, veja notícia publicada na Folha em 06/10:

Acho um exagero querer a cabeça do técnico com três rodadas ruins, a chance disso é da ordem de 1/8. Mas é a prática comum dos clubes. Pra mim, demissão de técnico é pura expiação, descarrego, vingança contra a "Santa Variância".
Até Roberto

quinta-feira, 7 de outubro de 2010

Tiririca, o filósofo.

“PIOR QUE TÁ NUM FICA”, é provável.

O bordão do Tiririca tem um conceito profundo sobre a variação: quando um sistema, sujeito às mesmas fontes de variação, produz um resultado em particular de baixo desempenho em relação à sua média, provavelmente ele produzirá um resultado melhor em seguida, ou seja: pior que tá num fica.

Isso vale também para um momento em que o sistema produz um resultado pontual de alto desempenho, e a frase seria: provavelmente, “MELHOR QUE TÁ, NUM FICA”.
Parece um conceito óbvio, mas ele freqüentemente vai de encontro (bate de frente) com a nossa intuição e agimos de maneira equivocada diante dessas variações: ficamos preocupados e esbravejamos com um resultado baixo ou condecoramos alguém por um resultado alto. Em seguida achamos que foi uma boa bronca ou nos arrependemos do elogio dado.
O conceito vale para sistemas estáveis (sujeitos às mesmas fontes de variação). Ocorre que instabilidades provocadas por fontes de variação não presentes o tempo todo aparecem e dão seus sinais. Veja o caso do IPCA que saiu hoje: nos três meses antes das eleições, o indicador se comportou estranhamente longe do padrão normal de variação.

Walter Shewhart, nos anos 1920, desenvolveu uma ferramenta para podemos avaliar quando um sistema dá sinais que está com uma fonte de variação incomum atuando pontualmente, tratam-se dos gráficos de controle. São gráficos de tendência com referências de variação comum. Há um procedimento estatístico que usa os próprios dados do indicador para calcular tais referências. Veja o IPCA com referências de variação comum:

Note, no gráfico, que ele assinala os três meses antes das eleições. Não me parece que foi obra do acaso, o que você acha? E o valor de 0,45% que saiu agora, seria absolutamente normal de acontecer, você não concorda?
Não disse que a gente interpreta mal a variação? Veja as manchetes que alguns portais publicaram hoje a respeito desse último dado do indicador:
- Inflação tem maior alta desde abril, revela IBGE
- A despeito de aceleração do IPCA, juros futuros operam com ...
- Inflação pelo IPCA em setembro acelera para 0,45%
- Seca na Rússia influencia alta da inflação oficial em setembro‎.
Grifei as palavras que contém certo exagero sobre o resultado. O único portal que não exaltou esse número e que considero um bom comentário do ponto de vista de entendimento da variação é o Globo abaixo:

Para saber mais sobre a filosofia do Tiririca, recomendo o livro “O Andar do Bêbado. Como o acaso determina nossas vidas” de Leonard Mlodinow (Ed. Zahar, Rio de Janeiro)
A propósito, o Corinthians não vence há quatro rodadas, e as manchetes destacam a pior fase do Timão: vai cair mais um técnico no Brasileirão ou PIOR QUE TÁ NUM FICA?

Até,
Roberto

segunda-feira, 4 de outubro de 2010

Pau na Pesquisa?

Eu defendo os institutos de pesquisa: existe uma coisa que se chama tendência. Numa eleição aparentemente morna, a coisa esquentou na última semana. Um fenômeno absolutamente plausível e bom para a democracia.
Veja o gráfico dos dados do Datafolha abaixo e me diga se o resultado das urnas (últimos pontos) é, ou não, verossímil em função da evolução histórica das pesquisas de intenção de voto.

Registro aqui minha indignação com relação aos comentaristas chamados para encher lingüiça na TV com suas explicações das urnas culpando o pessoal de pesquisa por ter de mudar seus argumentos após o pleito.
Pau no blá-blá-blá!
Até,
Roberto

terça-feira, 28 de setembro de 2010

Esqueceram de mim! O gráfico - episódio 2

A Folha de São Paulo veiculou ontem, na página 6 do caderno C, a seguinte notícia: “População brasileira está mais velha, aponta Censo 2010”.

A matéria, que se refere aos dados parciais do Censo 2010, divulgados na terça, 27, pelo IBGE, apresenta resumidamente algumas mudanças na estrutura etária da população brasileira e me chamou atenção, pois sou particularmente interessada nos dados do censo, mas principalmente porque não há sequer um gráfico ilustrando as informações.

Por exemplo, o trecho -“Em 2000, o censo revelou que 40,17% da população brasileira tinha entre 0 e 19 anos. Em 2010, esse percentual caiu para 32,95%. Já a proporção de idosos com 60 anos ou mais passou de 8,57% para 11,16% no mesmo período” - poderia ser ilustrado com o seguinte gráfico:



Curiosa, fui pesquisar no site do IBGE como foi a divulgação dos resultados parciais. Encontrei um release, igualmente sem gráficos, e uma apresentação, disponível para download.

UFA, encontrei os gráficos! Mas que gráficos?!?! Eis uma amostra:



Pau-no-gráfico!

As barras em três dimensões não contribuem em nada, pelo contrário, atrapalham. O fundo roxo é totalmente desnecessário. Além disso, não foi uma boa escolha representar esses dados num gráfico de barras. No primeiro post do blog o Roberto já disse
“Para dados regionais, use um MAPA!”.

Ficar comparando as alturas das 27 barras, além de tedioso, não é o grande objetivo. Um mapa ilustra melhor estes dados e facilita comparações entre estados e regiões, ainda mais se usarmos uma escala em degradê, dica dada pelo Satomi no post
"Cores que ajudam".

Vejam como fica o mapa:



O que acharam? Mais fácil de visualizar assim?

:Dani

terça-feira, 14 de setembro de 2010

Quando o "outros" é a maioria

Na capa do caderno B-Mercado da Folha de São Paulo de hoje, 14/setembro, foi publicada uma matéria com a seguinte manchete: “Nova classe B deve consumir R$1 tri”. O quadro abaixo ilustra a matéria, que discute a expansão das compras da classe B em 2010.





O primeiro gráfico, de barras formadas por pilhas de cédulas em cima de uma caixa registradora só causa confusão visual. Está em três dimensões, os rótulos com as classes sociais identificando as barras ficou na diagonal e os rótulos com os valores do potencial de consumo têm casas decimais desnecessárias (pra que duas casas decimais no gráfico, se na manchete da matéria os 973 bi foram arredondados para 1 tri?)

Pau-no-gráfico!

Veja o mesmo gráfico sem a confusão:




Nos dois gráficos intermediários, o ponto positivo vai para o destaque em verde mais escuro para as barras correspondentes às classes B1 e B2, foco da matéria. Note que no gráfico da renda familiar média houve um deslize, e o verde mais escuro ficou indevidamente na barra C1.

Mas o ponto que me chamou atenção, e inspirou o título desse post, está no último gráfico, de consumo por principais categorias.




A categoria “Outras despesas” ficou maior que as demais, o que é estranho, ainda mais quando vemos na observação que esta inclui compras parceladas, dívidas em geral e gastos relacionados à construção civil.

"Compras parceladas" não me parece uma categoria de consumo, e sim de pagamento (compras à vista, a prazo, parceladas etc.). Estas compras parceladas referem-se a compras de bens de consumo? Vestuário? Farmácia? Viagens? Se sim, o resultado das outras barras está distorcido. Seria interessante ver estas outras despesas mais detalhadas e se possível as compras parceladas distribuídas pelas categorias corretas.

:Dani

quinta-feira, 2 de setembro de 2010

Detalhes que ajudam o leitor

  Vi este gráfico na Folha de São Paulo do dia 31/08/10 - caderno informe publicitário p.02, e decidi aproveitá-lo para dar uma dica aqui no blog.

  Não vou comentar que não consigo ver que o Brasil é sexto no ranking ou que o gráfico de tendência é o mais indicado para acompanhar evolução ao longo do tempo. Hoje vou comentar sobre um detalhe que normalmente nos passa despercebido.
  Veja o exemplo abaixo, adaptado do teste de QI de Design Gráfico do site Perceptual Edge, e responda em qual dos gráficos os rótulos são mais fáceis de ler.

  Acredite, a grande maioria ao ler este post escolheu a letra “A”, pois trata-se da varredura natural da leitura. Quanto maior a inclinação maior a complexidade de leitura.
  Veja o exemplo abaixo, adaptado do livro The Wall Street Journal Guide to Information Graphics: The Dos and Don'ts of Presenting Data, Facts, and Figures, da especialista em visualização gráfica Dona Wong

e como ficaria o gráfico do número de navios com rótulos na horizontal:
  Portanto a dica é: procure dispor os rótulos de maneira horizontal, pois colocá-los em ângulo dificulta a leitura.
  Abraços,
        Satomi