Indícios de fraude nas eleições

INDÍCIOS DE FRAUDE NAS ELEIÇÕES

Por Hindemburg Melão Jr

Há poucos dias, o amigo Joabe postou em nosso grupo do Saturno V uma mensagem perguntando sobre meu antigo artigo de 2014 sobre indícios de fraudes nas eleições.

O antigo site não está mais on-line, mas felizmente os amigos Joao Antonio e Luciano Monteiro haviam guardado quase todos os artigos. João guardou todos da área pública e Luciano guardou todos da área pública e da privada até julho de 2016. Embora eu tenha os artigos em DOC, estão esparramados em várias pastas em diferentes HDs.

Postei o artigo no grupo, que pode ser acessado aqui.

https://docs.wixstatic.com/ugd/38961e_b539b3a720eb412294b5747317f1ea9f.pdf

Em seguida, Joabe postou um vídeo e dois artigos:

https://youtu.be/d58tZIxDfFI

https://pt.scribd.com/document/282755598/Evidencias-de-inconformidades-formais-nos-dados-da-apuracao-da-eleicao-eletronica-brasileira-de-2014#scribd

http://observatoriodaimprensa.com.br/jornal-de-debates/da-aplicacao-da-lei-de-newcomb-benford-em-processos-eleitorais-eletronicos/

Conforme comentei no artigo de 2014, a evidência de fraude, conforme apresentada pelos autores que sustentam essa tese, é demasiado frágil para que se possa dar demasiada importância ao caso.

Além dos motivos que já citei no artigo anterior, ao ler o novo artigo pude deparar com mais alguns erros e alguns descuidos do Post Doctoral Hugo Hoeschl. Os primeiros 4 itens citados a seguir são detalhes pequenos, que podem ser considerados descuidos, mas os demais itens indicam problemas metodológicos e inferenciais mais sérios:

1. O uso da palavra “assertividade” pretendendo significar nível de acertos, porém assertividade deriva de “asserção” que é quase sinônimo de “afirmação”.

2. Num momento o autor cita 71,149% e logo depois 73,149%.

3. A representação desses números com 5 algarismos sugere que a incerteza esteja no último algarismo e que os 4 primeiros estejam corretos (com mais de 99,87% de probabilidade), mas na verdade a incerteza está no primeiro algarismo, portanto seria mais apropriado usar 70% em vez de 73,149%.

4. Unir pontos experimentais num gráfico não me parece um procedimento adequado, embora eu não tenha consultado normas da ABNT ou ISO sobre isso. Em vez disso, seria recomendável colocar barras de incerteza em cada ponto.

5. Um dos erros mais graves e que compromete a conclusão é que as linhas de 10% acima e 10% abaixo da linha teórica foram escolhidas arbitrariamente. O procedimento correto teria sido colocar barras de incerteza em cada ponto e verificar quantas barras de incerteza são cortadas pela linha teórica. Isso permitiria calcular, numa primeira aproximação, a probabilidade de que os resultados observados indicassem alguma adulteração. Numa segunda aproximação, com uma abordagem bayesiana, seria possível refinar esse cálculo considerando as incertezas em cada barra de incerteza e calcular novamente a probabilidade de adulteração com essa segunda abordagem mais refinada. Se os dois resultados se mostrassem semelhantes entre si, poderia interromper por aí e concluir que a probabilidade de adulteração é próxima aos dois valores encontrados. Se os dois resultados se mostrassem muito diferentes, seria recomendável fazer uma terceira aproximação, considerando também as incertezas nas incertezas das incertezas. Esse procedimento poderia ser repetido até que se chegasse a probabilidades semelhantes nos dois últimos cálculos.

6. A metodologia adotada no artigo tem alguns pontos positivos, outros negativos. Por exemplo: além de comparar os resultados experimentais da eleição de 2014 com a curva teórica, foram feitas comparações de outros resultados experimentais com a curva teórica, conforme eu havia sugerido que deveria ser feito em meu artigo de 2014. Isso é bom. Porém não foi tomado o cuidado de considerar os tamanhos das amostras em cada caso. Com grandes quantidades de amostras, e cada amostra suficientemente grande, os dados experimentais tendem a ficar muito mais próximos à curva teórica, por isso nos exemplos iniciais em que ele mostra a eficiência do método, os dados experimentais se apresentam muito próximos à curva teórica, porém quando se tem uma quantidade relativamente pequena de amostras, ou cada amostra é muito pequena, é esperado que os dados experimentais fiquem mais distantes da curva teórica. Por isso seria fundamental usar barras de incerteza em cada ponto, para que se pudesse determinar corretamente se a probabilidade de que as barras de incerteza fossem cortadas coincide aproximadamente com a quantidade de barras efetivamente cortadas.

7. Outro ponto importante a se considerar é quando ele comenta sobre emparceiramentos numéricos atípicos, e cita dois exemplos, em vez de apresentar um levantamento estatístico para investigar com que frequência tais eventos ocorrem e se realmente representam uma anomalia preocupante. Por exemplo: qual é a probabilidade de se encontrar uma sequência de seis dígitos “9” seguidos nos primeiros 1000 algarismos do desenvolvimento de pi? É cerca de 0,1%, portanto se tal sequência for encontrada, podemos concluir que o valor de Pi foi adulterado com 99,9% de certeza? Ao analisar os dados concretos em http://www.eveandersson.com/pi/digits/1000000 podemos verificar que de fato surge uma sequência de 999999 nos primeiros 1000 dígitos de pi. O que isso mostra é que o procedimento correto numa situação como esta deveria ser uma análise dos primeiros 100.000.000 de dígitos de pi e verificar quantas vezes se observa uma sequência de 999999. Não encontrei site que disponibilize os primeiros 100.000.000 de dígitos, mas quando se verifica entre primeiros 1.000.000 de dígitos, constata-se que isso só ocorre uma vez, e coincidentemente está entre os primeiros 1000, portanto não é uma anomalia relevante.

Portanto, embora me pareça que o Dr. Hugo Hoeschl seja sério e bem intencionado, e tenha dedicado tempo e esforço à investigação criteriosa dessa questão, o fato concreto é que os resultados apresentados em seu artigo são inconclusivos e não possibilitam fazer inferências seguras em relação à probabilidade de que haja indícios de fraude nas eleições de 2014.

Além disso, mesmo que esses estudos apontassem alguns indícios de fraude, seria recomendável dar uma abordagem mais completa ao problema (uma abordagem bayesiana), considerando outras variáveis como a probabilidade de que as urnas tenham sido tecnologicamente hackeadas, ou socialmente hackeadas.

Além dos indícios de fraude que poderiam ser observados com a aplicação da Lei de Benford, seria necessário considerar outros fatores, inclusive a probabilidade de que numa grande quantidade de eleições sem fraude, algumas acabam apresentando falsos-positivos de fraude.

Um exemplo básico e citado em várias fontes: uma determinada doença está presente em 1% das pessoas de uma determinada cidade com 1 milhão de habitantes. E um exame tem taxa de acertos de 99% na determinação se uma pessoa está contaminada com essa doença. Sorteia-se uma pessoa nessa cidade que é examinada e o resultado é positivo, isto é, o exame diz que ela tem a doença. Qual é a probabilidade de e a pessoa realmente tenha essa doença? Se a única informação disponível fosse sobre a eficiência do exame, seria necessário estimar a fração da população que tem a doença antes de resolver. Como esta informação já está disponível, ela deve ser considerada, e chega-se à conclusão de que há 50% de probabilidade de a pessoa estar contaminada, muito diferente do que o resultado isolado do exame indicaria.

No presente caso a situação é similar. Em outras eleições, em conversas com amigos com bons conhecimentos sobre criptografia (Rogério Penchel, Marcelo Cortes, João Antonio), todos foram unânimes em afirmar que a probabilidade de alguém desencriptar os dados para conseguir adulterar as urnas é baixíssima, e mesmo que houvesse milhares ou milhões de pessoas tentando, ainda assim o risco de alguma delas conseguir seria menor que 1 em vários bilhões. Portanto, se estas fossem as duas únicas variáveis relevantes (a probabilidade de fraude calculada com base na Lei de Benford e a probabilidade de um hacker quebrar a segurança das urnas), o peso da segunda variável seria muitíssimo maior e oposta à primeira, e o resultado líquido do cálculo seria uma probabilidade baixíssima de fraude. Mas há ainda outros fatores a se considerar:

Por exemplo, a caso de um hacker social conseguir obter acesso por engenharia social, e nesse caso suponho que o risco seria bem mais preocupante, mas também precisaria considerar a probabilidade de ele ser descoberto e denunciado. Então precisaria levar em conta qual a probabilidade de um hacker social ter conseguido acesso, adulterado os dados e não ter sido denunciado. Também é importante considerar que quanto mais alto é o nível de competência de um hacker, maior é a probabilidade de que ele conheça a lei de Benford, de modo que ele faria uma adulteração bem calculada, mantendo conformidade com a previsão teórica e impossibilitando a descoberta da fraude. Precisaria considerar a probabilidade de um hacker ter a competência necessária para conseguir acesso aos dados e os adulterar, e ao mesmo tempo esse hacker não ter a competência necessária para fazer a adulteração de forma inteligente e deixar pistas de sua ação. Claro que também é preciso considerar a probabilidade de o hacker ter intencionalmente deixado as pistas, e as diferentes probabilidades de que ele deixasse pistas com diferentes níveis de obviedade.

Portanto, mesmo que o uso da Lei de Benford apontasse algum indício de fraude, seria necessário analisar também outros fatores que interferem no cálculo final, para que se pudesse fazer uma estimativa razoavelmente segura.

Infelizmente não estão disponíveis os valores para as probabilidades destas variáveis (probabilidade de um hacker social conseguir adulterar os dados, probabilidade de esse hacker não conhecer a Lei de Benford, probabilidade de ele conhecer a Lei, mas preferir deixar pistas etc.) o que inviabiliza um cálculo mais completo.

Mas mesmo não dispondo dessas informações mais completas e detalhadas, com base exclusivamente nos dados disponíveis, já se pode perceber que os indícios não são preocupantes (pelo menos não com base nas argumentações e nos dados apresentados até o momento).

Independentemente disso, não sei se é apropriado o uso de urnas eletrônicas. Não sei se há estudos sobre a ocorrência de fraudes documentadas serem mais frequentes em urnas eletrônicas do que nas tradicionais, ou o contrário. Também não sei se os métodos de segurança adotados para evitar fraudes são mais eficientes com urnas eletrônicas ou com as tradicionais.

O argumento de que nos países mais desenvolvidos não se usa urnas eletrônicas não seria válido, porque talvez eles usem o método menos seguro justamente porque necessitam de menos segurança, devido à menor probabilidade de fraude.

Em vários países europeus as pessoas podem comprar jornal abrindo um reservatório onde ficam os jornais, depositando o dinheiro e levando apenas 1 jornal, mesmo tendo a possibilidade de levar vários jornais. A pessoa poderia agir de forma desonesta, porque não está sendo monitorada, mas ela deliberadamente escolhe agir de forma honesta, por questão de princípios, de educação etc. No brasil o McDonalds teve que deixar de disponibilizar canudos e guardanapos à vontade porque as pessoas desperdiçavam escandalosamente, retiravam muito mais canudos e guardanapos do que precisavam. Brasil e países europeus têm culturas muito diferentes, por isso o fato de um país europeu usar urnas tradicionais pode não indicar que estas sejam mais seguras, mas sim que naquela cultura não haja tanta necessidade de se preocupar com fraudes.

Não me posiciono contra nem a favor de se usar urnas eletrônicas, porque não conheço estudos rigorosos que mostrem a vantagem de uma delas. Em relação a fraudes, não descarto a possibilidade de que tenham ocorrido e voltem a ocorrer, mas até o momento não vi estudos que disparassem algum alerta vermelho ou amarelo sobre isso. E espero que o Dr. Hugo Hoeschl continue fazendo esses estudos e publicando os resultados, porque se eventualmente surgirem indícios mais graves, ele poderá contribuir para a detecção do problema. Porém é fundamental que ele aprimore os métodos utilizados, a fim de evitar falsos positivos (ou minimizar a ocorrência de falsos positivos) e estimar as probabilidades de maneira mais fidedigna. Acho o trabalho que ele desenvolve importante, mas ao mesmo tempo é necessário que as mídias não usem esses resultados com propósitos políticos, promovendo alarmismo e sensacionalismo.

Segue trecho do artigo do Dr. Hugo Hoeschl:

INDÍCIOS DE FRAUDE NAS ELEIÇÕES

Trabalhe Conosco

Imprensa

CONTATO