Análise de artigo da Nature sobre Ciência e Estatística

ANÁLISE DE ARTIGO DA NATURE SOBRE CIÊNCIA E ESTATÍSTICA

Por Hindemburg Melão Jr

No dia 20/3/2019, a revista Nature publicou uma matéria com o título: “Cientistas se levantam contra a significância estatística” e com o subtítulo “Valentin Amrhein, Sander Greenland, Blake McShane e mais de 800 signatários pedem o fim das alegações sensacionalistas e a rejeição de possíveis efeitos cruciais”.

https://www.nature.com/articles/d41586-019-00857-9?fbclid=IwAR2_I9KJ1DiUV9VjMMIb24SMWHFSh5acFfQ7B1Ay2uxMHEoFmLZM9AJLDWo

Comecei a ler a matéria e fiquei chocado com a quantidade de cientistas que aparentemente não estão interpretando corretamente os resultados de testes estatísticos.

Também achei surpreendente que os referees e editores de uma das revistas científicas mais bem reputadas, tenham aprovado essa publicação, no qual os autores deixam implícita a sugestão de que avaliações subjetivas e pseudocientíficas são superiores a métodos objetivos e rigorosos, quando, na verdade, o que acontece é um mau uso de ferramentas estatísticas, com interpretações inadequadas dos resultados obtidos. Trocar métodos científicos por opiniões subjetivas seria um retrocesso à Idade Média.

Acredito que os autores do artigo, bem como os signatários, sejam pessoas bem-intencionadas e sinceramente preocupadas com a inconsistência que estão observando entre os resultados que estão obtendo em seus testes estatísticos e o que a intuição lhes sugere, porém não estão percebendo que o problema não está nas ferramentas estatísticas que utilizam, mas sim na maneira como as estão utilizando e principalmente na maneira como estão interpretando os resultados.

De forma muito resumida, estes “cientistas” não estão considerando a assimetria entre as probabilidades no resultado do teste e/ou as incertezas nos valores.

Suponhamos um estudo comparando a eficiência de um placebo com a de um princípio ativo, no qual os resultados mostram que não há diferença a um grau de significância 0,05. Isso significa que há menos de 95% de probabilidade de que o princípio ativo seja mais eficiente que o placebo. Este resultado pode ser ou não inconclusivo, dependendo de outros fatores.

Se a probabilidade é menor que 95%, é possível que o teste tenha mostrado que o princípio ativo tem 94% de probabilidade de ser mais eficiente que o placebo, mas como o critério é 95%, então o resultado não chegou a cumprir o critério que havia sido previamente estabelecido, mas isso obviamente não significa que o placebo e o princípio ativo sejam igualmente eficientes. Ao contrário, os resultados podem ter indicado que a probabilidade de que o princípio ativo seja mais eficiente é 94% contra 6% do placebo.

Para lidar com estas situações, os pesquisadores precisam decidir se é melhor aumentar a amostra, para que o teste se torne mais sensível, ou relaxar no critério, usando um grau de significância mais alto, como 0,1, por exemplo.

Se a finalidade do estudo for escolher, entre dois procedimentos, qual o mais indicado, devem usar como cut-off o grau de significância 0,5. Mas há um problema nisso, que é a confiabilidade em que os resultados obtidos sejam estatisticamente válidos. Quanto mais alto for o grau de significância, maior se torna a sensibilidade do teste para detectar pequenas diferenças em amostras muito pequenas, por outro lado, maior será a incerteza no resultado.
Vejamos dois exemplos:

Caso 1:

Um experimento duplo-cego utiliza os dados coletados sobre 12 pacientes, 6 dos quais receberam placebo e outros 6 receberam um tratamento que se deseja investigar se produz resultados melhores que os do placebo. Ao final do estudo, constata-se que 5 pacientes que receberam medicamento se recuperaram em 30 dias, enquanto 3 que receberam o placebo se recuperaram no mesmo intervalo de 30 dias.

Deixando de lado aspectos subjetivos sobre o que significa “ter se recuperado” e sobre as particularidades dos pacientes, como idade, nível geral de saúde, hábitos alimentares, estilo de vida etc., e supondo que os 6 pacientes de um grupo sejam aproximadamente equivalentes aos 6 pacientes do outro grupo, ainda assim fatores aleatórios têm peso muito grande em grupos tão pequenos, e a predominância de 5x3 não poderia ser encarada como evidência suficiente de que o tratamento é melhor que o placebo. Se o mesmo estudo fosse repetido com outros grupos de 6 pessoas cada, sendo essas 12 pessoas equivalentes às 12 do primeiro estudo, haveria um risco muito alto de que o resultado fosse completamente diferente, algo como 1x5 em vez de 5x3.

Nesse contexto, um grau de significância 0,05 mostraria corretamente que o resultado 5x3 é inconclusivo. Se utilizasse um grau de significância 0,5, a interpretação do resultado seria de que o tratamento foi melhor que o placebo, mas é evidente que esse resultado não poderia ser encarado como uma evidência satisfatória, porque as amostras são muito pequenas e os resultados podem estar fortemente distorcidos por flutuações aleatórias. Por isso, seria necessário aumentar a amostra para pelo menos algumas dezenas de pessoas e verificar se ainda assim o tratamento se mostra superior ao placebo.

Caso 2:

Agora vejamos um exemplo diferente: um estudo compara as notas em Matemática de alunos do período vespertino com as dos alunos do matutino. O estudo inclui 700 alunos do vespertino e 750 do matutino e, como resultado, as médias das notas foram 6,43 no matutino e 6,22 no vespertino. A um grau de significância 0,05 também não houve diferença estatisticamente significativa, ou seja, a probabilidade de que as notas dos alunos do matutino sejam maiores que as dos alunos do vespertino é menor que 95%. Porém, intuitivamente, percebe-se que, diferentemente do Caso 1, os resultados do matutino parecem ser consistentemente melhores e essas amostras com centenas de alunos parecem suficientes para que a diferença observada seja significativa.
Digamos que nos casos 1 e 2 o nível de significância foi o mesmo e igual a 0,12, ou seja, a probabilidade de que o tratamento seja melhor que o placebo é de 88% e a probabilidade de que os alunos do matutino sejam mais habilidosos em Matemática também é de 88%. Então qual a diferença entre os casos 1 e 2?

A resposta é bem simples: com amostras maiores, a incerteza no nível de significância é menor. No primeiro caso, digamos que o nível de significância seja 0,12 ± 0,45, enquanto no segundo caso seja 0,120 ± 0,038. Nos dois casos é 0,12, mas como as amostras são cerca de 120 vezes maiores no segundo caso, a incerteza deve ser cerca de 11 vezes menor (raiz de 120). No primeiro caso, a incerteza é maior inclusive que a variável medida, o que torna quase inútil o resultado do estudo.

Antes de prosseguir, é necessário um pequeno adendo: como a significância estatística é uma variável que só pode assumir valores entre 0 e 1, seria necessário colocar essa variável numa escala adequada, antes de calcular a incerteza, para evitar resultados absurdos como probabilidade maior que 0 de que a significância seja maior que 1 ou negativa. Mas como esse tema é abordado em outros artigos (ver o artigo sobre Hans Rosling, a palestra sobre o índice Sharpe etc.), não nos aprofundaremos nisso e vamos supor que os níveis de significância pudessem ser representados como 0,12 ± 0,45 e 0,120 ± 0,038, já que isso não interfere na argumentação para esse problema específico.

Portanto, quando o estudo é baseado em amostras suficientemente grandes, além de o teste ser mais sensível para detectar diferenças, a incerteza nessa sensibilidade também é menor, o que permite que o pesquisador utilize níveis de significância mais altos sem que isso comprometa a qualidade do estudo.

No segundo caso, em vez de usar grau de significância 0,05, poderíamos usar 0,15 ou 0,20, e poderíamos afirmar que os resultados sugerem que há 98% de probabilidade de que haja mais de 84% de probabilidade de que os estudantes do período matutino tiram melhores notas que os do vespertino.
No primeiro caso, há 98% de probabilidade de que haja mais de 43% de probabilidade de que o tratamento seja melhor que o placebo.

Isso acontece porque a incerteza no primeiro caso é 0,45, e (1-0,12)-0,45=0,43. Se a incerteza representa um intervalo de confiança de 2 desvios-padrão, então há 98% de probabilidade de que o valor correto do nível de significância seja menor que 0,57. No segundo caso a incerteza é 0,038, portanto (1-0,12)-0,038=0,842, então há 98% de probabilidade de que o valor correto do nível de significância seja menor que 0,158.

Assim, fica bastante clara a diferença entre as duas situações e entre as interpretações nos dois resultados, sendo que num dos casos é necessário aumentar as amostras, enquanto o outro caso permite escolher entre aumentar as amostras ou aumentar o grau de significância.
Se as amostras forem muito pequenas, não há como fazer inferências razoavelmente seguras e não há alternativa a não ser aumentar as amostras. Se as amostras forem suficientemente numerosas para que a incerteza no nível de significância seja aceitável, então pode-se relaxar no rigor do critério de corte, sem que isso comprometa a qualidade do resultado.
O problema não é inerente à ferramenta estatística utilizada. Se ela for utilizada corretamente, e os resultados forem interpretados como deveriam, se forem descritos e apresentados como deveriam, então desaparece o problema citado pelos cientistas no artigo da Nature.

Também é interessante discutir brevemente a diferença entre “grau de significância” e “nível de significância”. Alguns autores tratam ambos os termos como se tivessem mesmo significado. Outros tratam o termo “nível de significância” como sendo a probabilidade de que uma medida esteja dentro de determinado intervalo. Também pode servir para determinar se está acima de determinado valor, ou abaixo de determinado valor, ou fora de determinado intervalo.

O “grau de significância” se distingue do “nível de significância” por ser definido a priori e usado como critério para decidir sobre determinada hipótese. Por exemplo: Deseja-se saber se existe diferença entre gêneros nas notas de redação nas universidades de uma cidade. Adota-se como critério um grau de significância 0,05. Ao verificar as notas de universitários e universitárias, constata-se que as universitárias têm nota maior a um nível de significância 0,036, portanto, como 0,036 é menor que 0,05 (grau de significação), conclui-se que existe uma diferença estatisticamente significativa ao grau 0,05.
Se o grau de significância escolhido a priori fosse 0,01, a conclusão seria de que não existe diferença estatisticamente significativa ao grau 0,01.
É importante notar essa flexibilidade na escolha do grau de significância, antes de realizar o experimento. Em geral, utiliza-se 0,05, mas isso é completamente flexível.

Por isso, é muito mais apropriado utilizar o nível de significância, que é o valor obtido a posteriori 0,036, e interpretar o resultado considerando as incertezas nos valores encontrados. Além de esse procedimento ser mais informativo, é mais realista. Pois não coloca o resultado do estudo como “sim ou não”. Nenhum estudo pode ser encarado como fornecendo um resultado “sim” ou “não”. O que os estudos mostram como resultado são as probabilidades de que seja sim e de que seja não.

Nunca se pode ter certeza de que determinado tratamento produz resultados melhores que um placebo, ou de que um eclipse ocorrerá exatamente em determinada data e horário, ou de que a altura média de um grupo de homens será maior que a altura média de um grupo de mulheres. O melhor que se pode conhecer são as probabilidades de que ocorra cada resultado ou probabilidade de que a variação nos resultados fique dentro de determinada faixa de valores. Há 99,73% de probabilidade de que o eclipse solar ocorrerá entre 12h:02m:28s,09212 e 12h:02m:28s,09226. Ou há 78% de probabilidade de que um grupo com 10 homens tenha altura média maior que a altura média de um grupo com 10 mulheres da mesma faixa etária e provenientes da mesma população. Se os grupos tivessem 100 homens e 100 mulheres, a probabilidade mudaria completamente. Essa a maneira adequada de representar os resultados dos estudos, em vez de afirmar que um medicamento se mostrou superior a um placebo, o correto é dizer que os resultados do estudo sugeriram que há determinada probabilidade de que o medicamento seja superior ao placebo. Além disso, é importante informar a probabilidade de que essa probabilidade seja correta. Por exemplo:

Um estudo mostra que há 80%±40% de probabilidade de que pessoas que bebem mais de 6 copos de água por dia tem maiores probabilidades de desenvolver câncer. É muito diferente de um estudo mostra que há 80%±2% de probabilidade de que pessoas que fumam mais de 6 cigarros por dia tem maiores probabilidades de desenvolver câncer. Nos dois casos a probabilidade é de 80%, mas no primeiro caso a incerteza nessa probabilidade é de 40%, enquanto no segundo caso a probabilidade é de apenas 2%, portanto é muito provável que no segundo caso a probabilidade “correta” esteja bem perto de 80%, ao passo que no primeiro caso existe um risco bem grande de que a probabilidade correta seja muito menor que 80%, inclusive menor que 50%, o que indicaria que o contrário é mais provável, ou seja, pessoas que bebem mais de 6 copos de água por dia não tem maiores probabilidades de desenvolver câncer. Note que isso é diferente de dizer que pessoas que bebem mais de 6 copos de água por dia tem maiores probabilidades de não desenvolver câncer.

Outro ponto muito importante a ser considerado é que o nível de significância estatístico não diz nada sobre a magnitude da diferença entre as variáveis que se deseja comparar. A significância estatística nos diz apenas as probabilidades de que uma variável seja maior ou menor que a outra.
Por exemplo: as moedas de 1 Real produzidas em 1995 tinham massa de 4,2744 g enquanto as moedas de 1 Real produzidas em 1996 tinham 4,2706g. Ao comparar as massas de 30.000 de moedas de 1995 com as massas de 20.000 moedas de 1996, constata-se que a diferença entre elas é estatisticamente significativa ao nível 0,05. A diferença é muito pequena, menor que 0,004g, mas é estatisticamente significativa porque a amostra é muito grande e a dispersão nas massas é pequena, o que confere alta sensibilidade ao teste.

Outro exemplo: João e Pedro são vendedores na mesma loja e no mesmo departamento. Ao final do primeiro ano, João vendeu, em média, R$ 10.000 por dia, enquanto Pedro vendeu R$ 8.000 por dia. Ao fazer um levantamento sobre todas as vendas de cada um ao longo do ano, constata-se que a diferença observada entre eles não é estatisticamente significativa a um grau 0,05.

Por que a pequenina diferença de massa entre as moedas, menor que 0,004g, que representa menos de 0,1% da massa total de cada moeda, foi uma diferença estatisticamente significativa ao nível 0,05, enquanto a diferença de R$ 2.000 entre os vendedores, que representa 20% a 25% da média diária de cada um, não foi uma diferença estatisticamente significativa ao nível 0,05?

Isso ocorre porque a dispersão nas performances diárias dos vendedores (ou de pelo menos um dos vendedores) foi grande em comparação à diferença entre eles, e o tamanho da amostra de dados não foi suficientemente grande para que o desvio-padrão na média ficasse pequeno em comparação à diferença observada. Isso não significa que se deve concluir que ambos foram igualmente competentes. Significa apenas que há menos de 95% de probabilidade de que João tenha de fato sido mais competente.

Nos casos das moedas, as variações nas massas das que foram produzidas em 1995, comparadas entre si, são muito pequenas, e o mesmo ocorreu entre aquelas produzidas em 1996, além disso, o número de moedas consideradas foi muito grande, o que tornou a incerteza nas massas medidas para cada ano muito pequena, assim minúsculas diferenças são detectáveis e relevantes, indicando que provavelmente (mais de 95% de probabilidade) houve alguma mudança no processo de produção, na composição, no clima, ou algo que fez com que as moedas de 1996 ficassem realmente mais leves.
Enfim, o nível de significância é uma informação muito útil, quando interpretada corretamente. E quando a interpretação dos resultados é feita de forma correta, não existe o problema alegado pelos autores do artigo publicado na Nature. Inclusive há outros parâmetros que podem ser derivados diretamente do nível de significância, que podem atender melhor a determinadas finalidades. Por exemplo:

Em lugar do nível de significância, que determina a probabilidade de que a diferença observada seja maior que 0, poderiam ser realizados testes para calcular a probabilidade de que a diferença observada seja maior que determinado valor. Isso poderia ser mais útil em muitas situações, além de ser mais fácil de interpretar, gerando menos confusão entre pesquisadores.

Em qualquer dos casos, seria importante que os pesquisadores com dúvidas sobre o uso de determinadas ferramentas estatísticas, antes de condenar o uso destas ferramentas, procurassem conhecer melhor como elas devem ser utilizadas, como interpretar os resultados e como fazer inferências válidas e úteis.