top of page

Jul 12, 2022

TELESCÓPIO ESPACIAL JAMES WEBB e suposta presença de água na atmosfera do exoplaneta Wasp-96 b

Recentemente foi noticiado que um estudo realizado com o telescópio espacial James Webb teria revelado a presença de água na atmosfera de um exoplaneta situado a 1161±15 anos-luz. De fato, há algumas evidências favoráveis, mas qual é o nível de credibilidade dessa afirmação? Nesse artigo, analisaremos quanto há de fantasia e quanto há de realidade nessa história.


Entre as várias notícias recentes sobre o telescópio espacial James Webb, essa https://esawebb.org/news/weic2206/, em especial, me chamou a atenção pela regressão sub-otimizada (para não dizer malfeita) e pela interpretação que foi feita desse gráfico:



Há muitos detalhes que poderiam ser comentados, mas há dois, em particular, que eu gostaria de analisar: 1. Entre os vários pontos indicados como assinaturas da presença de água, apenas 1 é bastante claro (1,4 μm), e mesmo nesse caso há um grande outlier próximo, que reduz a confiabilidade nessa assinatura. Os pontos 1,9 μm e 1,1 μm ainda estão razoáveis, mas os pontos 0,96 μm e 2,7 μm não indicam nada. Aliás, o ponto 2,7 μm pode indicar uma contra-evidência. 2. O modelo de regressão aparentemente não é paramétrico, talvez tenha sido usada alguma rede neural para isso e, nesse caso, seria esperado um ajuste muito mais aderente. O uso de redes neurais para esse tipo de modelo deve ser usado com muita cautela, porque devido ao grande número de camadas, fica difícil “enxergar” e compreender o que está acontecendo por trás do processo de ajuste.


Quando se utiliza um modelo com 2 ou 3 parâmetros, sabe-se precisamente o que vai mudar na forma da curva quando se altera cada um dos parâmetros, para mais ou para menos. Mas quando se utiliza uma rede neural, praticamente se está trabalhando com uma “caixa preta”, renunciando a compreender os processos subjacentes. Em troca, o uso dessa “caixa preta” confere o poder “mágico” de conseguir algumas vantagens operacionais, entre as quais a de conseguir um ajuste tão bom quanto se queira, para corroborar qualquer resultado desejado (dentro de certos limites mais ou menos “plausíveis”). Como consequência, pode-se encontrar aquilo que se deseja, em vez de encontrar a Verdade. Por isso geralmente sou contra o uso de redes neurais, exceto em situações específicas, nas quais se possa comparar com os resultados obtidos por outros métodos, ou como uma etapa de ajuste fino para aprimorar um resultado que já havia sido determinado por um modelo mais “cognoscível”, por assim dizer, conforme já comentei em meus artigos e meus livros.

Pesquisei pelo dataset bruto sobre a curva de luz do Wasp-96 b, mas não encontrei. No site do James Webb há apenas dados sobre os trânsitos e as quedas no brilho associadas, mas não sobre as raias de absorção nos diferentes comprimentos de onda. Eu gostaria de fazer minha própria modelagem dos dados, sem os vises que aparentemente nortearam as intenções dos autores desse artigo, e calcular a probabilidade de que tais resultados possam ser interpretados como uma real assinatura da presença de água. Seja como for, mesmo sem acesso aos dados, ainda é possível fazer uma análise panorâmica do que está no gráfico, e os fatos não são bem como os autores estão sugerindo.

Seria relativamente simples e fácil fazer um modelo de ajuste melhor que o utilizado nessa imagem extraída do site do Webb. Aliás, seria desejável que fossem feitas pelo menos duas regressões, uma sem qualquer modelo a priori, para tentar capturar as propriedades cruas do que os dados nos revelam, e outra usando um modelo sobre onde deveriam estar as raias de absorção e qual a intensidade da absorção em cada região, para fazer uma comparação mais completa da morfologia inteira das curvas, em vez de comparar apenas as posições das cristas. Isso proporcionaria uma visão muito mais abrangente da situação e ajudaria a fazer uma interpretação mais fidedigna.


Ambas as regressões precisariam ser robustas, porque há muitos outliers que poderiam desviar a curva de regressão da região onde deveria estar. Talvez modelos semi-robustos, como os de Huber, sejam mais apropriados, porque algumas vezes não está claro se determinado ponto deve ser interpretado ou não como sendo um outlier, então seria melhor cada ponto receber um "peso de credibilidade", ou algo assim, em vez de cortar inteiramente alguns pontos e deixar inteiramente os demais. Além disso, como há poucos dados na amostra, a incerteza na determinação de quais pontos são outliers é maior.


Os ajustes próximos às cristas de 1,4 e 1,1 estão nitidamente ruins, e visualmente já se pode perceber com facilidade que a curva de um bom modelo deveria passar mais próxima à tendência central local da nuvem de pontos daquela parte dos dados, mas está passando muito abaixo.

Um dos problemas mais “graves” é a distribuição dos pontos experimentais nas proximidades onde deveria ser observada a linha de absorção em 2,7 μm. Essa inconsistência em 2,7 μm pode explicar porque o ajuste é (intencionalmente?) ruim, pois se tentassem fazer um ajuste melhor, a inconsistência saltaria mais nitidamente à vista, então essa degradação na qualidade de ajuste pode ter sido com o propósito de mascarar tal inconsistência, para fingir que o problema na hipótese sobre a presença de água não é tão grave.


Um modelo simples com ajustes locais de polinômios de ordem 3 a cada 7 pontos (ou pouco mais), corrigidos nas extremidades para se conectarem suavemente, ou algo desse tipo, já proporcionaria uma curva muito mais aderente aos pontos nas proximidades das cristas, além de preservar o bom ajuste nas demais regiões, tornando mais evidente o problema que tentaram “disfarçar”. Uma série de Fourier também seria uma alternativa a ser considerada, com o detalhe que o ajuste LPR precisa de menos parâmetros em casos nos quais haja longas retas horizontais, ou quase retas, porque nesses casos ou a série de Fourier precisa de grande número de parâmetros ou ela força ondulações que podem não ser representativas da realidade onde haja longos segmentos de reta.

Em 2012, Liyun Su apresentou trabalhos interessantes com o uso de “Local Polynomial Regression” (LPR), com vantagens claras em muitas situações, quando se tem uma ideia razoável sobre o modelo a priori, mas bastante “perigoso” quando não se tem uma ideia do que se deve esperar da morfologia da curva. Por isso me parece que a alternativa que descrevi acima seja capaz de atender bem ao critério de ser mais aderente aos dados, sem elevar substancialmente o risco de overfitting (como acontece em alguns casos nos quais se aplica os métodos de Liyun Su). Portanto, o método que sugiro no parágrafo anterior seria preferível tanto ao método usado por Su quanto às tradicionais séries de Fourier.


Os estudos de Wonsang You, de 2016, me parecem um avanço interessante no uso dessa ferramenta e o artigo de Anna Derkacheva et. al. de 2020 é decisivamente um bom modelo para essa finalidade, com bons ajustes locais, baixo risco de overfitting e quando há extensas e frequentes càdlàgs na série temporal, ou reduções substanciais na densidade de dados em certas regiões, esse tipo de método inibe o surgimento de grandes anomalias, como costuma ocorrer com outros métodos. Embora esse não seja um caso de série temporal, sob o ponto de vista estatístico pode receber essencialmente a mesma abordagem, já que cada valor no eixo x possui apenas 1 valor no eixo y, e cada n-ésimo valor é dependente do (n-1)-ésimo, que são algumas características fundamentais de séries temporais.


Alguns desses estudos são analisados, aprimorados e aplicados em meus livros IMCH e Dois novos sistemas de rating. Aqui farei apenas uma breve análise introdutória, para esclarecer alguns dos problemas mais gritantes.


O gráfico abaixo mostra um exemplo extraído do artigo de Anna Derkacheva, no qual são analisadas algumas das vantagens ao ajustar uma curva a um conjunto de pontos com vários sintomas indesejáveis, e mesmo assim o ajuste fica muito bom e consegue evitar vários erros típicos que costumam ser produzidos por outras técnicas:


Claro que esse tipo de modelo é inútil para extrapolações, mas é extremamente eficiente para interpolações, respeitando profundamente as localidades dos pontos ao longo de todo o espectro considerado.

Entretanto, nada disso seria necessário para enxergar o “erro” nesse caso, que é bastante óbvio. “Batendo o olho” no gráfico do site do James Webb já se pode perceber que o ponto 2,7 μm provavelmente contradiz a hipótese da presença de água, já que nas proximidades de 2,7 μm há indicativos empíricos de um vale, mas a hipótese exigiria que houvesse uma crista. O uso de modelos mais sofisticados serviria apenas para formalizar a detecção do problema e demonstrar objetivamente sua presença.

Ainda que as incertezas nessa região (~2,7 μm) sejam grandes, devido à maior dispersão, esse fato não poderia ser negligenciado e a probabilidade combinada (numa análise Bayesiana) de que o conjunto de dados seja uma assinatura da presença de água na atmosfera de Wasp-96 b se torna muito mais frágil quando se examina a situação com essa abordagem. Portanto, me parece uma notícia com sintomas de sensacionalismo, adotando um modelo com baixa aderência aos dados, para forçar uma interpretação “espetacular” aos olhos do público leigo, cuja real probabilidade de ser a interpretação correta não é tão alta, estando longe de ser conclusiva.

Seria necessário ter acesso aos dados brutos para calcular a probabilidade de que a hipótese nula (de que o sinal indica a presença de água) deveria ser descartada. Na ausência dos valores numéricos, olhando para o gráfico, o máximo que se pode fazer é uma estimativa aproximada. Dentro dessas limitações, a forma da curva nas proximidades do ponto 1,4 μm é muito semelhante à esperada e a dispersão nessa região é estreita. Isso é bom para o autor que defende ter encontrado indícios de água na atmosfera do exoplaneta. Também é necessário verificar que nas proximidades do ponto 1,1 μm o ajuste não é tão bom, mas ainda indica uma probabilidade elevada. Isso também é um ponto a favor do autor do artigo. Mas nos outros pontos do gráfico, a evidência é quase nula, e o grande problema é que no caso específico do ponto 2,7 μm, dependendo dos parâmetros do modelo escolhido para calcular a qualidade de ajuste, pode-se ter inclusive uma contra-evidência.


Um cálculo que levasse em consideração esse conjunto de fatos talvez indicasse que há mais de 90% de probabilidade de que os dados indiquem a presença de água, o que realmente constitui um indício forte, mas, ao mesmo tempo, a probabilidade de 10% de que não seja um indício da presença de água é algo que não poderia ser desprezado.

Em Física de Partículas e em Mecânica Quântica, geralmente, quando se supõe ter descoberto uma nova partícula elementar, uma evidência é considerada “conclusiva” quando o acumulo de dados experimentais ultrapassa pelo menos 99,73% de probabilidade de que as assinaturas observadas sejam da partícula procurada. Em alguns casos, só depois que a probabilidade ultrapassa 99,99997% ou 99,9999999% é que se interpreta que a descoberta foi de fato consumada. Por isso uma probabilidade de “apenas” 90% ainda está muito longe do que fundamentaria uma declaração tão forte, devendo ser encarada, no mínimo, como excesso de otimismo.


De qualquer modo, mesmo que pesquisas futuras corroborem a presença de água na atmosfera desse planeta, ficam algumas dúvidas, entre as quais por que adotaram um modelo de ajuste tão pouco aderente. A própria (provável) rede neural utilizada para gerar a curva plotada no gráfico publicado no site do J. Webb certamente é versátil o suficiente para permitir um ajuste melhor, desde que o autor do estudo desejasse um ajuste melhor. Isso lembra aquelas imagens de discos voadores, intencionalmente embaçadas, para dificultar que se perceba detalhes que não se quer que sejam percebidos, para não mostrar algo que se deseja encobrir. Em minha opinião, há falta de transparência, e os autores deveriam pelo menos tentar justificar porque preferiram um ajuste menos aderente do que poderiam ter obtido. Há muitas situações nas quais um ajuste “pior” é não apenas aceitável como também é recomendável, para evitar overfitting, mas esse nitidamente não é o caso. Uma breve discussão sobre isso é feita em meu livro sobre dois novos sistemas de rating, na parte sobre um estudo de Rob Edwards, para tentar medir a inflação no rating. Também abordo esse tema em artigos sobre investimentos e em alguns de meus vídeos.


A NASA, muitos outros centros de pesquisa e muitas universidades já estão fazendo esse tipo de sensacionalismo há muitos anos. As notícias sobre vida nas nuvens de Vênus, vida em Marte, vida fossilizada no meteorito marciano, vida no subsolo de Europa, indício de esfera de Dyson em outra estrela, aceleração anormal em Oumuamua, risco eminente de explosão de Betelgeuse são apenas alguns exemplos de exageros e distorções, possivelmente intencionais, porque fica mais fácil conseguir verbas para pesquisa dessa maneira. A triste realidade é que a Ciência é apenas mais um empreendimento a serviço da Economia, da Publicidade, da Política etc.

Por um lado, acho compreensível que a pressão do governo e do povo para justificar os investimentos nesses projetos force os pesquisadores a maquiar os resultados, bem como precisem costurar quase todas as pesquisas astronômicas para forçá-las a se conectar de algum modo a temas de interesse popular, como a busca por vida alienígena ou salvar o planeta de uma colisão apocalíptica. Acho isso compreensível, mas não concordo. Certamente existem meios mais honrosos de mostrar a real importância dos resultados científicos, sem precisar maquiá-los para que fiquem “bonitos” aos olhos do grande público. O ideal seria instruir o grande público para capacitar as pessoas a apreciarem e valorizarem a Ciência de Verdade, tal como ela é, em vez de banalizá-la para deixá-la ao gosto do público leigo.


Um dos problemas de permitir que a ciência seja excessivamente contaminada pela publicidade é que alguns pesquisadores podem não distinguir entre um estudo sério e confiável de outro meramente publicitário, levando-os a tomar como válidos esses resultados, cujos erros acabam se propagando e contaminando outros estudos, numa reação em cadeia cujos limites chegam a se perder de vista. Esse problema é muito mais frequente e mais grave do que se imagina. Em meu livro IMCH, aponto um número alarmante de erros em registros de dados de fontes oficiais, além de vários indicativos de fraudes. Algumas autoridades foram notificadas, mas nenhuma providência foi tomada, indicando anuência com tais fraudes, ou simples prevaricação, em alguns casos.

Nessa conjuntura, apesar dos vários problemas, o Mercado Financeiro mostra-se comparativamente mais transparente e mais imune. Não estou defendendo o Mercado Financeiro; ao contrário, acho que há muitos problemas de falta de ética e um número muito preocupante de fraudes não investigadas, não supervisionadas e não penalizadas nesse setor. A impunidade para grandes players que protagonizaram a crise do subprime de 2008 são um exemplo triste e vergonhoso. Não obstante, há uma virtude que precisa ser reconhecida: enquanto na “ciência” pode-se brincar com modelos teóricos à vontade, sem que os erros sejam devidamente confrontados com a realidade, no Mercado Financeiro os modelos são confrontados com a realidade o tempo todo. Por isso, o uso de ferramentas estatísticas acuradas para modelar o Mercado Financeiro é de crucial importância, para que se possa maximizar os lucros e minimizar os riscos, sendo que os resultados se materializam rapidamente, de maneira impessoal e impiedosa. Os erros e as imprecisões são punidos, enquanto os acertos são premiados na mesma medida.

Não obstante, em outras áreas, como Psicometria, Astrometria, Antropometria, Sociologia, Cosmologia etc., os erros praticamente não sofrem nenhuma punição e alguns erros chegam inclusive a serem premiados, com um reconhecimento injustificado, apoiado na falta de visão crítica dos “pares” que analisam os casos sob o mesmo prisma ingênuo e incompleto dos autores dos trabalhos premiados, levando à exaltação de trabalhos incorretos, simplesmente porque se encaixam melhor nos paradigmas e dogmas vigentes, ajustando-se melhor às crenças coletivas da maioria da comunidade acadêmica – em especial às crenças dos membros dos comitês que determinam quem deve receber os prêmios.


Sob essa perspectiva, embora o Mercado Financeiro possa ser cruel e sanguinário, é também muito mais justo, mais imparcial, e produz resultados em conformidade com a qualidade do trabalho desenvolvido. Nem sempre os melhores trabalhos são os mais bem recompensados em termos absolutos, porque os ganhos absolutos dependem das performances percentuais multiplicadas pelos volumes sob gestão, e como a grande maioria dos investidores não tem os conhecimentos básicos para tomar boas decisões sobre onde aplicar, é natural que a grande maioria dos investidores faça péssimas escolhas, adotando critérios rasos e irracionais. Por isso os melhores investimentos não produzem necessariamente os maiores lucros absolutos, mas produzem os maiores lucros percentuais, já que estes não dependem da capacidade de escolha dos investidores, mas apenas da eficiência das estratégias de investimento propriamente ditas.



Comentários relevantes:


Esse texto foi postado em alguns grupos e gerou como resultados alguns comentários interessantes, inclusive do Ph.D. em Astrofísica Ivo Busko, que trabalha na NASA desde 1995, mais especificamente na equipe do telescópio espacial Hubble e, mais recentemente, na equipe do telescópio espacial James Webb, e de Paulo Cacella, descobridor de mais de 290 supernovas e numerosos outros transientes, participa de vários grupos internacionais de investigação astronômica e é especialista em Estatística e Gerenciamento de Risco do Banco Central do Brasil.


Infelizmente o algoritmo de (des)inteligência artificial do Facebook apagou a postagem com os comentários que Ivo Busko havia feito, de forma tragicômica. A baixa qualidade dos algoritmos que fazem recomendações de vídeos no youtube e publicidade no facebook já são bem conhecidas, mas nesse caso a ineficiência ultrapassou os limites da insensatez artificial.

Resumidamente, Busko concordou com minha análise e fez algumas observações sobre os motivos pelos quais a NASA precisa fazer esse tipo de publicidade, para justificar os gastos, especialmente no caso do James Webb, em que o orçamento inicial foi ultrapassado mais de uma vez e quase chegou a ser interrompido. Em síntese, Busko deixou claro que as motivações por trás de muitos artigos podem não ser científicas, mesmo porque, em última instância, a Ciência depende de investimento, de publicidade, aprovação pública etc. Infelizmente eu não me recordo exatamente de alguns fatos sobre os bastidores que ele chegou a mencionar, de modo que não teria como reproduzir ipsis litteris, mas de maneira os comentários foram esses.


Após a remoção do artigo pelo facebook, recebi uma notificação me advertindo de que eu estava enviando spam(!!) e violando as normas do facebook. Obviamente postei o print da mensagem de advertência no grupo de Astronomia. Os moderadores do grupo também já haviam sido notificados pelo fb e alguns deles já haviam contestado a “decisão” do algoritmo, o que gerou uma reação unânime de repúdio à péssima qualidade desse algoritmo, alguns comentários sarcásticos e outros de indignação. No final, são apresentados os prints que resumem essa novela.

A seguir, os comentários de Paulo Cacella (em azul, itálico, com recuo) em meu Facebook e minha resposta em preto:


Paulo Cacella:


“Li com calma a sua análise, mas não concordo com as conclusões. Vou tentar colocar alguns pontos aqui. O primeiro ponto importante é que toda a regressão é um processo reducionista de filtragem, seja ela por um polinômio, funçào mais complexa ou DNNs. O segundo é que a natureza do processo em análise é fundamental na interpretação. Por exemplo, uma série temporal é bem distinta de um espectro. Nesse caso específico não se trata apenas de uma regressão e sim da probabilidade conjunta de que os picos sejam exatamente nos pontos onde o espectro possui transições rotacionais, intermoleculares e vibracionais, bem como a espessura e intensidade das linhas espectrais sejam compatíveis com o fenômeno físico. De uma olhada em uma série de Balmer, Paschen ou Lyman A mim me parece claro que a probabilidade condicional é muito alta nesses dados. Nesse caso não basta se observar o erro associado a cada medida, mas tambem a posição, a intensidade e a espessura das linhas espectrais. Não vi o paper ou estudo sobre o tema, mas me surpreenderia se os astrofísicos tivessem apenas usado algo tão simples quanto uma análise estatística dos dados, sem a associação a outros dados físicos relevantes para a análise do problema. Creio que o resultado original está correto. No meu ponto de vista um dos problemas da ciência de dados é que é muito fácil cair na armadilha de tentar explicar um fenômeno que depende de um conjunto grande de conhecimentos adicionais que transcendem a simples análise estatística.”



Olá, Paulo.


Essa parte:


"O primeiro ponto importante é que toda a regressão é um processo reducionista de filtragem, seja ela por um polinômio, funçào mais complexa ou DNNs"


Considerada isoladamente, não cria uma oposição ao que é dito no meu artigo. Já o item 2 me parece uma crítica legítima, mas não me parece aplicável. Vou comentar a seguir:


"O segundo é que a natureza do processo em análise é fundamental na interpretação. Por exemplo, uma série temporal é bem distinta de um espectro."


Sob o ponto de vista conceitual, sim, mas sob o ponto de vista estatístico, é conforme comentei no texto do artigo. As propriedades são basicamente as mesmas nos quesitos relevantes. E como o problema é uma inconsistência estatística, as condições necessárias e suficientes para evidenciar o problema são atendidas.


O item 3, a meu ver, seria uma contestação aplicável se apoiada em dados. Considerando q o ônus da "prova" caberia ao autor do artigo do JW, que deveria mostrar que o modelo é aderente aos dados, não caberia a mim mostrar que não é aderente. Por minha parte seria suficiente apontar indícios de que parece não ser aderente e ele precisaria mostrar que os dados suportam a tese dele. Comento um pouco mais detalhadamente em seguida:


"Nesse caso específico não se trata apenas de uma regressão e sim da probabilidade conjunta de que os picos sejam exatamente nos pontos onde o espectro possui transições rotacionais, intermoleculares e vibracionais, bem como a espessura e intensidade das linhas espectrais sejam compatíveis com o fenômeno físico."

Justamente por isso eu sugeri que a medida de aderência fosse realizada ao longo de todo o intervalo no qual se dispõe de dados empíricos, em vez de considerar apenas os picos. E nesse caso, parece-me, a inconsistência seria ainda mais notável, porque conforme se pode observar, há várias regiões extensas nas quais as posições dos dados (bem como uma regressão suave que acompanhe de perto os dados) fica muito longe de onde "deveria" estar. Haveria alguma subjetividade nisso, dependendo de como a qualidade do ajuste seria medido. Em minha opinião, uma análise preliminar poderia considerar simplesmente a soma dos quadrados das diferenças, talvez usando os logs dos valores, para evitar que os valores menores fossem subvalorizados. Mas um procedimento mais robusto provavelmente exigiria o uso de distâncias de Fréchet ou talvez alguma variante de Dynamic Time Warping, porque embora não seja uma série temporal, as propriedades são homólogas e os pontos estão ordenados numa escala intervalar, o que provavelmente é justificativa suficiente para preferir o uso de DTW em vez de Chi^2. Nos casos de Kolmogorov-Smirnov ou Anderson-Darling ou métodos similares de qualidade de ajuste, acho inadequados nesse caso porque a curva não é tão suave, não é periódica, apresenta muitos máximos locais e mínimos locais, entre outras objeções. Então ficaria com basicamente as 3 primeiras opções para medida de aderência, e não creio que qualquer delas poderia salvar a tese de que haja uma evidência robusta de presença de água.


Note que em minha conclusão (se você leu o artigo completo no site, deve ter visto) eu não afirmo que não há evidência da presença de água. Ao contrário. Eu concordo que há evidência, mas é uma evidência frágil. Estimo que a probabilidade de terem de fato detectado assinaturas de água pode ser algo perto de 90%, ou seja, é muito mais provável que tenham detectado do que o contrário, porém a incerteza de 10% é alta, e os resultados estão muito longe de serem conclusivos.


Em comparação ao nível de sensibilidade do HST, o JW está promovendo um avanço importante, talvez meia ordem de grandeza de melhora na resolução, entretanto ainda não se alcançou uma confiabilidade suficiente para uma declaração como essa. No caso da "descoberta" experimental do bóson de Higgs, só depois que a incerteza ficou abaixo de 0,3% é que se passou a aceitar que a partícula identificada concordava suficientemente bem com as expectativas para o bóson de Higgs.

Nos casos de exoplanetas, é muito comum anunciarem planetas com seus raios, massas etc. e depois de alguns dias revisarem a informação dizendo que na verdade tal planeta não existia. No caso da presença de fosfina na atmosfera de Vênus, numa proporção supostamente muito maior do que seria esperada pelos processos conhecidos, gerou um alarde injustificado, conforme comentei na época https://www.saturnov.org/artigosv/outros/vidaemvenus e foram gradualmente revisando os exageros nos meses e anos seguintes. Os mesmos problemas nos casos do risco da explosão de Betelgeuse, que também escrevi um artigo na época mostrando o exagero https://www.saturnov.org/betelgeuse, entre outros.

O ponto central é que ao considerar a curva inteira, em vez de considerar só as cristas, a probabilidade fica ainda menor, em vez de ficar maior. Precisaria dos dados brutos para confirmar isso numericamente, mas olhando para o gráfico, o ajuste considerado exclusivamente nas proximidades das cristas parece menos destoante do modelo do que se considerar a curva inteira.


"De uma olhada em uma série de Balmer, Paschen ou Lyman"

Em relação às séries de Balmer, Paschen, Lyman são para o hidrogênio. O problema aqui é principalmente no ponto 2,7 da água. Em alguns artigos apresentam evidências muito fortes da detecção de sódio, por exemplo, os traços de sódio são muito nítidos. Mas os da água, pelo menos até o momento, não me parecem muito convincentes.


"A mim me parece claro que a probabilidade condicional é muito alta nesses dados. Nesse caso não basta se observar o erro associado a cada medida, mas tambem a posição, a intensidade e a espessura das linhas espectrais. Não vi o paper ou estudo sobre o tema, mas me surpreenderia se os astrofísicos tivessem apenas usado algo tão simples quanto uma análise estatística dos dados, sem a associação a outros dados físicos relevantes para a análise do problema."


Tb não encontrei o paper do estudo, por isso tentei me basear nesse gráfico. Em relação à confiança nos autores do artigo, soa como uma falácia de autoridade (e quase uma falácia de autoridade às avessas, eu diria). Em 2008, apontei um problema num estudo sobre o CoRoT-Exo 3b, em que os autores do artigo chegaram a um resultado cuja densidade média do planeta seria 26 g/cm^3. Talvez no centro a densidade seja até maior, mas como densidade, achei implausível, já q a densidade do ósmio, do irídio e da platina ficam perto de 21 a 22 g/cm^3, e fiz uma análise mais detalhada, chegando a cerca de 14 g/cm^3. Cerca de 9 anos depois revisaram os cálculos para cerca de 17 g/cm^3, mas não pq aprimoraram os cálculos, e sim porque utilizaram melhores instrumentos (dados do GAIA) para as distâncias. Esses erros são, na verdade, muito comuns.

"No meu ponto de vista um dos problemas da ciência de dados é que é muito fácil cair na armadilha de tentar explicar um fenômeno que depende de um conjunto grande de conhecimentos adicionais que transcendem a simples análise estatística."


O estudo em si eu também creio que esteja "correto" (ou pelo menos "bem conduzido", eu diria). Até mesmo a interpretação e a conclusão do estudo me parecem consistentes com os dados. O problema está em não enfatizar que se trata de um resultado inconclusivo, aliás muito inconclusivo. Afirmar que foi detectada a presença de água me parece claramente exagerado, e até mesmo errado, pq não foi detectada a presença de água.

P.S.: excelentes suas fotos. Eu achava que você estava com um C14, mas nas postagens você menciona um 50 cm, suponho ser o segundo maior telescópio amador do Brasil, depois do Atlas.


Apenas ampliando um pouco mais a análise dessa parte de seu comentário:


"Creio que o resultado original está correto. No meu ponto de vista um dos problemas da ciência de dados é que é muito fácil cair na armadilha de tentar explicar um fenômeno que depende de um conjunto grande de conhecimentos adicionais que transcendem a simples análise estatística."


Concordo totalmente que não se pode examinar exclusivamente os dados numéricos sem considerar aspectos conceituais inerentes ao fenômeno investigado e/ou às entidades investigadas. Mas nesse caso simplesmente o estudo inteiro é baseado nas amostras de dados e modelos que direta ou indiretamente foram concebidos a partir de análises estatísticas. Tanto as ferramentas utilizadas pelos autores para a modelagem quanto para estimar a confiabilidade nos resultados são tomadas emprestadas da Estatística. Mesmo q houvesse alguma argumentação mais elaborada, para tentar sustentar a presença de água -- digamos, a presença de alguma outra substância com assinatura mais clara e que fosse exclusivamente (ou geralmente) um subproduto da água --, a presença dessa outra substância ainda estaria apoiada em dados é métodos estatísticos, sem os quais haveria o risco de que as análises fossem desencaminhadas para o terreno da metafísica e da subjetividade. Embora também se possa ter resultados muito interessantes na Metafísica, inclusive situações que tangenciam a Física, como as hipóteses de Penrose sobre como seria possível detectar a existência de universos "externos" ao nosso, isso já ultrapassa certos limites de especulação que os coloca perto da borda da Ciência. Creio que desde Galileu, e principalmente desde Newton, os métodos quantitativos, ainda que a Estatística estivesse engatinhando naquela época, assumiram um papel central na Ciência para possibilitar que se faça inferências que não sejam apenas dicotomicamente "válidas" ou "inválidas", mas que tenham determinada probabilidade de serem boas representações para a realidade senciente. Em muitas situações, a probabilidade é tão próxima de 0 que se pode considerar que não vai ocorrer, ou tão próxima de 1 que se pode tratar como "fato", embora, a rigor, sejam raras as situações nas quais se possa ter realmente 100% ou 0% de certeza sobre algo no mundo físico.

No caso da presença de água, considerando as presenças em Marte, na Lua, em Encélado, em Vênus, em cometas e até mesmo em Mercúrio e talvez no subsolo de Europa, bem como em nebulosas e quasares, parece ser uma substância comum, até o momento o número de objetos rochosos/metálicos nos quais a presença de água não foi detectada é muito maior do que o nos quais chegou a ser detectada. Embora a ausência de evidência seja diferente de evidência de ausência, se houvesse quantidades substanciais de água numa grande fração dos corpos conhecidos, numa proporção suficiente para que apoiasse a tese nesse caso, provavelmente já seria conhecido, portanto nesse contexto a ausência de evidência é um forte indicativo de ausência, e soma um argumento contrário à tese de que nesse caso, em particular, os resultados devessem ser encarados como assinaturas da presença de água na atmosfera antes de acumular mais dados sobre isso. Particularmente, conforme comentei no artigo, creio que as evidências apresentadas sugerem uma probabilidade de presença de água bem maior do que a probabilidade de ausência, mas não numa proporção que pudesse (ou devesse) ser interpretada como conclusiva ou que fundamentasse a apresentação da notícia da maneira como fizeram.


Portanto, são vários pontos a considerar, e nesse adendum queria apenas enfatizar que embora a Estatística não possa ser tratada como determinante absoluta da verdade, ela desempenha um papel central nesse processo, e grande parte dos avanços científicos (talvez a grande maioria) desde o século XVII, forem em grande medida impulsionados por métodos estatísticos de análise, de processamento de imagem, de "enxergar" o que seria invisível sem o uso dessas técnicas.





 

Leia mais artigos || Solicite nosso questionário || Veja notícias recentes || Melhores investimentos

Obrigado! Mensagem enviada. Para saber mais como adquirir o direito de uso de nossas licenças, leia mais em "FAQ", "ADQUIRIR" e em "APRESENTAÇÃO".

© 2010-2022 Saturno V - Todos os direitos reservados. Não comercializamos nem distribuímos cotas de fundos de investimento nem qualquer outro instrumento financeiro. Comercializamos licenças de uso do software "Saturno V", sistema automático de investimentos.

  • LinkedIn ícone social
  • YouTube ícone social
  • Facebook
  • Instagram
  • quora
bottom of page