Total de visualizações de página

sábado, 20 de janeiro de 2018

Governança/Gestão e a ética em dados-Parte 6


Os números (não ?) mentem

Confúcio, teria dito que há três formas de mentira: a encoberta, a descoberta e a estatística. Exageros, à parte, uma parte da estatística lida com incertezas, é considerada uma ciência probabilística e por isso, a história sugere cautela, quando certas premissas definidas sobre os dados, os algoritmos utilizados na sua análise e a forma de visualização dos resultados não forem devidamente considerados. Acesse o site (tylervigen.com). Ele tem como objetivo anotar com sarcasmo e ironia as impropriedades das correlações espúrias que se pode obter através de análises estatísticas formais, porém sem muitos cuidados. O site, claro, tem um tom de deboche sobre o tema, mostrando correlações exóticas e absurdas, por exemplo, como o número de filmes em que  Nicolas Cage aparece e o número de pessoas que morrem por afogamento nos EUA.  Ou como o consumo per capita de queijo, nos EUA, guarda estreita correlação com o número de pessoas que morrem enroscados nos seus lençóis, mostra outro exemplo. Os gráficos apresentados, à primeira vista, iludem o observador, pois as linhas das duas correlações são absolutamente coerentes, no tempo e nos valores plotados. São gráficos que mostram que a manipulação de variáveis e suas correlações inexistentes podem ser feitas, mesmo para relações não-causais(sem relação de causa e efeito), produzindo resultados ingênuos e extravagantes.  O livro “Os números (não) mentem” de Charles Seife, também aborda o mesmo tema e chama esses resultados enganosos e aceitos ingenuamente como “ramdomiopia”. A citação do sábio chinês, o site de Tyler Vigen e o livro “Os números (não) mentem“, de Charles Seife , são evidências de visões(que podem ser até exageradas, mas não infundadas) que acabam por sugerir cautela no uso dessa ciência, cuja força é inferencial.  Já publiquei aqui mesmo um artigo sobre a máquina de inferência que foi usada pela campanha de Trump e repito novamente, agora nesse contexto de cuidados com as máquinas que aprendem. Exageros afora, ao analisarmos o livro de Charles Seife, em português traduzido para “Os números(não) mentem” cujo título em português foi muito mais condescendente do que o original(The dark arts of Mathematical deception), que em uma tradução livre seria “ a arte sombria das falácias matemáticas”, fica bem claro esse alerta. Neste livro, o autor não cria brincadeiras, como o do site tylervigen.com. No livro, Charles Seife rastreou um conjunto de conclusões estatísticas espúrias, mas que foram publicadas como consistentes, veiculadas em canais poderosos de informação, endossadas e assinadas por gente de respeito, mas que no final representavam um forte exemplo de “ramdomiopia”. Por exemplo, um gráfico oficial mostra a correlação científica entre o consumo crescente de aspartame com a explosão de casos de câncer cerebral. Ou, o aumento no consumo de energia correlacionado com  o aumento da expectativa de vida. Observe que esses dois exemplos, fogem da borda do sarcasmo e ganham ares de verdades estatísticas sérias. Puras manifestações de “ramdomiopia” , conforme contra-argumenta o autor, produzidas por correlações encontradas, mas que não garantem uma relação real e estatisticamente legítima. No fundo essas falácias matemáticas nascem, por percepções incompletas do fenômeno analisado, por falta de observações subjacentes dos dados, por apresentarem força na explicação do passado, porém sem capacidade garantida de prever o futuro. Também fazem uso dos chamados “números de Potemkim”, equivalentes estatísticos dos muros de Potemkin, macete visual(painéis pintados) criado por um príncipe, para driblar a imperatriz Catarina da Rússia, que desconhecia a imensidão do vazio de certa região daquele pais, por onde ela resolveu passar.
Segundo Seife, algumas premissas reforçam a “ramdomiopia”  e exigem cautela:

1-Se você quiser convencer alguém de uma bobagem sem tamanho, basta acrescentar um número;
2-Idéias absolutamente sem nexos podem ganhar respeitabilidade através de aplicação de algoritmos estatísticos;
3-Há uma grande dificuldade do ser humano de tratar a aleatoriedade. Por isso, inconscientemente, há essa compulsão por estabelecer relações de causa e efeito, onde elas não existem. Vê-se imagens de humanos em estrelas no céu ou o rosto de Madre Tereza na superfície de um bolinho de canela, diz Seife. A religiosidade confirma isso, e  entra como um fator fundamental nessa equação, explicando o inexplicável por meio de credos e crenças. 

Referências:
1-Vigen, T.  “Spurious correlations-Correlation does not equal causation”. Hachette Books. 2017.

2-Seife, C. “Os números(não) mentem”. Editora Zahar.2012.

Um comentário:

  1. Olá Barbiere! Aqui é o Luiz Claudio. Gostei muito do texto, pois esse assunto (O quanto as suposições e inferências a partir de números nos pregam peças...) me interessa e, com frequência, procuro por fontes que tratam a questão. Aí mora um grande perigo, não é mesmo? Não raro, as pessoas têm se valido de bases de dados consistentes para apresentar resultados questionáveis, em decorrência dessa armadilha que é a análise superficial e inferências sem parcimônia.
    Forte abraço!
    Luiz Claudio Martins
    TTY2000 Tecnologia e Sistemas.

    ResponderExcluir