31 de outubro de 2021

PROJETO T E OUTRAS NOVIDADES

por Hindemburg Melão Jr. 


Nos últimos 50-100 anos estamos vivendo um dos períodos mais extraordinários da História da Humanidade. A expectativa de vida dobrou, diversos órgãos podem ser transplantados, o homem pisou na Lua, sequenciou o DNA, desenvolveu máquinas que vencem os campeões humanos de Xadrez, qualquer pessoa, em qualquer lugar, pode acessar um volume gigantesco de informações usando um simples celular. A Ciência tem revolucionado nossas vidas nos últimos 100 anos mais do que fez o conhecimento pré-científico nos 6.000 anos anteriores.

Um dos avanços mais importantes das últimas décadas ocorreu em 2015, quando a empresa Deep Mind lançou o programa “AlphaGo”. No ano seguinte, este foi o primeiro programa a vencer um campeão mundial de Go, Lee Sedol, que decidiu se aposentar depois da derrota. Mas o aspecto mais revolucionário desse acontecimento não foi a vitória em si.

O diferencial notável de AlphaGo é que, diferentemente de todos os programas anteriores – desde os primeiros desenvolvidos por Shannon e Turing em 1949 e 1950 – AlphaGo não tem acesso a um gigantesco banco de dados nem recebe grandes volumes de ensinamentos estratégicos. Ele aprende tudo sozinho, jogando contra si mesmo milhares ou milhões de partidas, e vai deduzindo os conceitos estratégicos mais eficientes com base em suas vitórias e derrotas.

13-Figure7-1.png


AlphaGo recebeu apenas as informações sobre as regras do jogo e, a partir daí, deduziu o resto sozinho. Em poucos dias de treinamento, aprendeu mais e melhor do que todo o conhecimento humano acumulado durante 2500 anos.

Em seguida, a Deep Mind lançou AlphaZero, que usa uma mesma heurística para aprender qualquer jogo de tabuleiro, inclusive Go, Xadrez e Shogui. Depois de menos de 10 horas de aprendizado, AlphaZero ficou melhor não apenas que os campeões mundiais humanos, mas também superou os melhores programas de Xadrez desenvolvidos por humanos. Em menos de 10 horas superou programas que vinham sendo desenvolvidos com base no conhecimento acumulado de pelo menos 56 anos.

O avanço mais recente foi o lançamento de MuZero, que aprende também qualquer jogo de Atari, e com mais um notável diferencial: MuZero não precisa receber informações sobre as regras do jogo. Ele deduz as regras por tentativa e erro, jogando e descobrindo as regras, tal como os humanos aprendem a jogar videogames.

Em Pac-Man, por exemplo, MuZero chegou a 243.000 pontos. Em Time Pilot fez 405.000. Em jogos mais complexos, como H.E.R.O., fez 49.000. Não se saiu tão bem em todos os jogos, mas em geral os resultados ficaram acima de 99,9% dos jogadores humanos. Os gráficos abaixo mostram a curva de evolução de MuZero em diferentes jogos:

2T.png


O próximo passo pode ser um sistema de IA geral, que faça diagnósticos médicos, julgue questões jurídicas, administre empresas, opere no Mercado Financeiro, crie projetos publicitários e escreva tratados de Filosofia. Já existem sistemas como AIVA, capaz de compor músicas tão agradáveis quanto as dos melhores compositores humanos, e é questão de tempo até os sistemas de IA superem os humanos em praticamente tudo.

Quando foi lançado AlphaZero, eu comecei a me interessar pelo caso e a acompanhar o desenvolvimento. Analisei algumas partidas disputadas entre AlphaZero e Stockfish, que na época era o melhor programa convencional do mundo, capaz de vencer o campeão mundial humano numa proporção maior que 50:1 (mais de 98% dos pontos para o programa contra menos de 2% para o campeão mundial humano). O resultado foi uma convincente vitória de AlphaZero, com 72 empates e 28 vitórias, num total de 100 partidas. Nenhuma derrota sequer. Além do resultado numérico, a qualidade dos lances também é surpreendente. AlphaZero toma algumas decisões incompreensíveis para humanos e consideradas “ruins” pelo Stockfish, mas que se revelam corretas vários lances depois, e então o próprio Stockfish revisa suas análises e começa a concordar que a posição de AlphaZero ficou superior, mas nesse ponto é tarde demais e Stockfish já está perdido.

Há controvérsias se AlphaZero ainda poderia vencer a versão mais recente de Stockfish, mas mesmo que não consiga vencer, o aspecto mais notável é que enquanto Stockfish recebe um volume gigantesco de conhecimento estratégico que lhe é “ensinado” por humanos, AlphaZero não recebe conhecimento nenhum e aprende tudo a partir do zero.

Quando foi lançado MuZero, que não precisa sequer receber informações sobre as regras, e é capaz de deduzir as regras e aprender uma variedade imensa de jogos diferentes, ficou claro que este será o futuro não apenas do Mercado Financeiro, mas de todas as atividades intelectuais complexas. Não existe nada parecido, que seja capaz de deduzir as regras sobre qualquer jogo, e alcançar um nível de excelência comparável ao dos melhores humanos do mundo na modalidade.

Diante deste cenário, conversei com um de meus sócios, que patrocina e coordena o desenvolvimento de nossa plataforma Cantor, e decidimos iniciar um projeto paralelo ao Saturno V, baseado no sistema de inteligência artificial MuZero. Inicialmente pensamos no nome “Saturno Zero” ou S0. O nome é porque em vez de receber em seu código uma estratégia pré-determinada, ele terá uma heurística que lhe permitirá aprender por si como o Mercado funciona e ele próprio desenvolverá várias estratégias diferentes, otimizará os parâmetros destas estratégias, e fará aprimoramentos sucessivos na estrutura de cada estratégia que se mostrar promissora.

Uma versão genérica (pseudocódigo) com todos os aspectos fundamentais de AlphaZero está disponível em código aberto no site da Deep Mind. Este pseudocódigo já foi utilizado para criar Lc0 (Leela Chess Zero), um programa open source que em cerca de 3 anos de treinamento chegou a ser um dos melhores programas de Xadrez do mundo, inclusive sagrando-se campeão algumas vezes no TCEC, que é praticamente um campeonato mundial de programas de Xadrez.

AlphaZero nunca chegou a participar do TCEC porque precisa de equipamentos especiais (TPUs), desenvolvidos pelo Google, mas o TCEC exige que todos os programas usem um hardware padrão. No caso de Lc0, há versões para rodar em CPUs e GPUs, portanto atende aos critérios para participar do TCEC. Os programas que rodam em CPU usam 172 coprocessadores, enquanto os programas para GPU usam apenas 2 GPUs. Mesmo assim Lc0 sagrou-se campeão mundial mais de uma vez.

Embora o código de MuZero não seja aberto, existe um pseudocódigo em Python, acompanhado de detalhadas explicações, bem como há um artigo em Arxiv.org e outro mais recente publicado na revista Nature. Há também muita informação sobre o desenvolvimento do open source Lc0. Com isso, pode-se fazer vários testes e analisar vários detalhes sobre o que está sendo desenvolvido nessa área.

Sob o ponto de vista de usuário de Lc0, tenho analisado diversas características desta engine nos últimos meses e já foi identificado um detalhe em Lc0 (com análogo em MuZero) que pode ser substancialmente melhorado. De forma muito resumida, Lc0 não avalia as posições com uma métrica similar à de outras engines. Esse é um “problema” inerente ao seu processo de aprendizagem. Como resultado, quase todas as melhores engines tradicionais avaliam as posições com escores semelhantes entre si, mas os escores de Lc0 são muito diferentes.

Por exemplo: numa posição em que um dos lados tenha 2 peões de vantagem numa posição com equilíbrio dinâmico e estrutural, a posição está aproximadamente 2,00 melhor. Várias das melhores engines colocadas para avaliar a posição (em julho) com estas características (Stockfish 13, Zeuss 11, Eman 6.94, Shashchess 15.1, Dragon, Komodo 14.1, Fire 8, Rofchade 2.3, Ethereal 12.75, versões MCTS destas engines etc.) concordam entre si com avaliação aproximada em torno de 2,00. Mas Lc0 costuma fazer avaliações muito diferentes, algo como 17,41, por exemplo.

Lc0 geralmente concorda com as engines tradicionais quando a vantagem fica perto de 1, mas a diferença entre a avaliação de Lc0 e de outras engines vai crescendo conforme o escore se afasta de 1. Quando o módulo da avaliação é menor que 1, a diferença fica mais sutil, mas ainda dá para notar que enquanto outras engines estimam a vantagem em 0,45, por exemplo, variando entre elas com desvio-padrão em torno de 0,07, Lc0 atribui a esta mesma posição o escore 0,11, ou seja, muitos desvios-padrão diferente das avaliações das outras engines, e sempre abaixo do valor das avaliações das outras engines. Quando o escore avaliado é maior que 1, a avaliação de Lc0 geralmente é maior que os das outras, como no exemplo acima (2,00 e 17,41).

Isso acontece porque em Lc0 se utiliza uma estimativa de probabilidade de sucesso (ou algo assim) e tentam converter essa probabilidade num escore similar ao usado pelas engines tradicionais, que usam frações de Peão. Aparentemente, em Lc0 padronizaram o valor 1 para ficar igual ao das engines tradicionais, por isso quando a avaliação é perto de 1, os escores de Lc0 geralmente coincidem com os de outras engines, embora a escala seja muito diferente. Minha impressão é de que fizeram o seguinte: verificaram qual era a probabilidade de sucesso de Lc0 em posições nas quais outras engines davam vantagem de 1,00, e usaram este valor para converter os escores de Lc0 em frações de Peão. Assim, sempre que Lc0 estima que sua probabilidade de sucesso é aquela, o escore exibido será 1,00. Mas como as escalas são muito diferentes, não há como fazer uma conversão linear (nem qualquer curva simples) dos demais escores, por isso a distorção vai crescendo conforme a avaliação se afasta de 1.

No caso específico do Xadrez é indiferente usar uma escala baseada em fração de Peão ou em probabilidade de sucesso, ou qualquer outra, isso não afeta a performance da engine. Mas se a finalidade fosse avaliar corretamente o valor de uma variável com significado relevante para o resultado, por exemplo, estimar a cotação de um instrumento financeiro para definir um ponto de entrada ou saída, seria importante que a escala utilizada fosse apropriada, bem como os valores estivessem bem calibrados.

A escolha do ponto de referência em 1,00 parece ter sido arbitrária, bem como a ausência de ajuste para outros valores diferentes de 1,00 trazem diversas consequências. Os parâmetros na distribuição de Dirichlet citados na descrição de MuZero, para determinar a dispersão que deve ter a variabilidade da mutação, também é visivelmente “chutado”. Tanto no caso de Lc0 quanto nos casos de AlphaZero e MuZero, parece que muitos destes valores são “chutados”, e isso pode ser substancialmente melhorado, assim como as medidas de recompensa, para que a evolução seja mais rápida nas primeiras gerações e atinja um pico máximo mais elevado nas últimas gerações.

No caso específico de Lc0, eu já havia solucionado esse problema de converter probabilidade de sucesso em fração de Peão alguns anos antes de que existissem A0 e Lc0, conforme descrevi num artigo de 2013. Há também estudos muito anteriores aos meus sobre isso, com destaque para os de Howard Staunton e Rob Edwards, mas todos que cheguei a conhecer apresentam algumas falhas fundamentais. No caso de Staunton, há muitas falhas, o que é compreensível, por serem de uma época pré-computador. Os estudos de Rob Edwards incluem alguns dos resultados de Staunton aprimorados, mas ainda deixam de fora muitos detalhes importantes, tais como o tempo de reflexão e o rating médio dos jogadores. Esses temas são abordados com mais detalhes no livro que pretendo publicar nas próximas semanas.

Estas falhas em AlphaZero/LeelaZero não afetam diretamente MuZero, porque tratam especificamente de como estas variáveis devem ser modeladas no Xadrez. Mas a metodologia utilizada, assim como várias das ideias envolvidas, pode ser adaptada para o caso do MuZero e S0, com excelentes possibilidades de alcançar resultados melhores que os divulgados pela DeepMind. Também é provável que, à medida que começarmos a trabalhar de forma mais direta neste projeto, com maior envolvimento com os problemas práticos e melhor compreensão dos detalhes, surjam outras ideias promissoras para aprimoramento.

Outro ponto muito importante é que MuZero consegue aprender Xadrez sozinho e rapidamente chegar a um nível superior ao do campeão mundial humano, mas em alguns jogos de Atari ele não chega perto disso e alguns jogos ele nem sequer consegue aprender. Portanto há grandes lacunas ainda que precisam ser preenchidas, e um terreno muito fértil a ser explorado. A Deep Mind deu passos importantíssimo e saiu na liderança nessa área, mas atualmente estão esbarrando em alguns problemas para os quais já tínhamos soluções prontas em 2013, antes mesmo de que MuZero existisse, por isso temos chances concretas de ultrapassar Deep Mind nessa “corrida”. Mas mesmo que não a ultrapassemos, não seria ruim chegar em segundo lugar em algo tão importante e revolucionário, sem contar que as contribuições na área de Saúde devem ser prioritariamente cooperativas, não competitivas.

A Deep Mind não dá sinal de que pretenda utilizar os sucessores de MuZero no Mercado Financeiro, embora esse seja provavelmente um dos desdobramentos naturais. Nesse campo, talvez tenhamos uma disputa interessante e estimulante, mas no campo da Saúde creio que seja mais correto e proveitoso que tenhamos uma participação colaborativa.

Como a Deep Mind já atua nessa área há alguns anos, e nós entraremos agora, teremos algumas vantagens e algumas desvantagens. Uma das vantagens é que não precisaremos inventar a roda, pois eles já fizeram isso. Isso poupa alguns anos. Outra vantagem é que já temos soluções para alguns problemas que eles estão lutando para solucionar. Porém temos também algumas desvantagens. Uma delas é que eles estão alguns anos à nossa frente com resultados prontos, equipe formada e atuante, e um financiamento multibilionário do Google.

Após os dois livros que devo finalizar nas próximas semanas, será escrito um exclusivamente sobre esse assunto, com o nome “Projeto T”. Por isso não prolongarei mais esse assunto, que será analisado com todos os pormenores nesse livro.


EVOLUÇÃO DA VACINAÇÃO

A maioria dos países já está perto de ter vacinado 90% da população e alguns já ultrapassaram essa marca. Ainda há variações do vírus como o delta e o épsilon, que representam algum perigo, mas em linhas gerais a situação está cada vez mais bem controlada. Alguns amigos perderam parentes próximos, outros ficaram com sequelas no paladar ou no olfato. Foi um período realmente difícil, com traumas graves e algumas perdas irreparáveis. Contudo, a humanidade superou mais essa calamidade e seguimos em frente.

WhatsApp Image 2021-10-31 at 18.02.00.jpeg


Na quinta-feira, 28/10, estava pensando nos detalhes para a promoção Black Friday quando tivemos mais uma ótima surpresa: o Saturno V executou uma excelente operação, similar à que havia executado em 15/6, perfazendo com ambas mais de 22% de lucro. Porém a operação do dia 15/6 não foi executada em algumas contas e a operação de 28/10 não foi executada em todas as contas. Isso, por um lado, é péssimo, porque depois de um longo período de perdas durante a pandemia, as duas melhores operações do ano tiveram problemas com execução. Por outro lado, é muito bom, pois sinaliza que o Mercado está se renormalizando e corrobora as expectativas de que o desempenho ruim estava relacionado à pandemia. Agora, com o crescimento no número de pessoas vacinadas, o comportamento do Mercado está voltando ao normal e resultados do Saturno também.

E não se trata apenas destas duas operações. Houve mais dois movimentos mais longos nos dias 25 e 29, que não chegaram a disparar sinais de entrada nos backtests nem nas contas, mas são padrões similares aos que o Saturno costuma obter lucros, portanto também são um ótimo sinal de que os movimentos promissores para a estratégia utilizada estão voltando a se repetir com frequência.

O que podemos inferir disso é que, embora as performances nas contas ainda estejam ruins nos últimos 2 anos, os backtests já mostram claros sinais de recuperação.

s124d.png


Se considerar o histórico completo das contas durante a pandemia, desde 1/1/2020, a situação continua desconfortável, mas quando se considera os resultados da versão T-124d, que está operando nas contas desde abril de 2021, tanto nos dados recentes quanto no histórico de longo prazo, as performances já estão muito tranquilizadoras. O gráfico abaixo mostra o desempenho em backtest desde 5/4/2021 até 29/10/2021:

1986.png


E o próximo gráfico mostra de 1/1/2008 até 29/10/2021:

1986.png


Se considerar desde 1/12/1986, os resultados também são muito consistentes:

1986.png


Nos dois últimos gráficos pode-se observar uma mudança de comportamento na curva de crescimento a partir de setembro de 2016, em que a inclinação da reta de regressão se torna menos íngreme, a volatilidade local aumenta e algumas outras propriedades também mudam, mas o comportamento geral de crescimento é mantido, bem como a isotropia nos últimos 35 anos e a isotropia nos últimos 5 anos. Se considerar nos últimos 10 anos, o nível de anisotropia aumenta devido às mudanças em setembro de 2016, mas logo depois dessa mudança se configura um novo comportamento isotrópico nos 5 anos seguintes, portanto embora haja um breve período de transição no qual a isotropia é prejudicada, logo depois é restabelecida e permanece assim nos últimos 5 anos.

O conjunto geral dos dados mostra que:

1. A versão T 124d é mais robusta aos efeitos da pandemia sobre o Mercado.
2. Nos últimos meses ocorreram movimentos longos, do tipo que o Saturno V obtém lucros, sendo que em 2 desses movimentos o Saturno efetivamente entrou, gerando mais de 22% de lucro.
3. Algumas operações não estão sendo executadas nas contas. O motivo pelo qual a operação de 15/6 não foi executada já foi investigado, detectado e solucionado. O motivo de a operação de 28/10 não ter sido executada ainda não foi identificado.
4. Há outras operações menores que também foram executadas nos backtests, mas não nas contas reais. Entre estas, algumas são positivas e algumas negativas, mas a maioria é de positivas. A amostra é pequena para que se possa assegurar que haja uma assimetria estatisticamente significativa entre positivas e negativas, mas os sintomas preliminares sugerem que sim.

Ponderando os prós e contras, a situação é extremamente animadora e parece assinalar o fim da má fase pela qual estivemos passando nos últimos 2 anos. Agora esperamos que o ritmo normal de lucros seja retomado.



PROJETO T

Conforme comentado acima, em 2020 havíamos cogitado a possibilidade de desenvolver um projeto que eliminaria de forma definitiva a necessidade de atualizar, corrigir, revisar e aprimorar o Saturno. Seria desenvolvido um sistema de Inteligência Artificial inspirado em MuZero, da Deep Mind, voltado para o Mercado Financeiro, mas foi interrompido após o encerramento das atividades do fundo no qual o Saturno V operava, em junho de 2021. Não foi um fechamento por insolvência. Foi para prevenir uma situação de insolvência. Todos os clientes resgataram suas aplicações normalmente.

Depois disso, o projeto S0 não teve continuidade, porque um trabalho desse porte levaria décadas se fosse realizado por uma pessoa sozinha. Para que seja concluído num prazo de 2 a 5 anos, precisa de uma equipe altamente capacitada, mas nossa equipe que trabalhava no desenvolvimento de Cantor foi dissolvida com o encerramento fundo.

Diante a essa nova conjuntura, precisei reorganizar o projeto em conformidade com os recursos disponíveis. Isso foi excelente, porque a ideia original de desenvolver apenas um sistema de IA para operar no Mercado foi ampliada numa escala literalmente astronômica. Agora o sistema de IA para o Mercado Financeiro será uma pequena parte de um projeto muito maior, com aplicação em muitas áreas, inclusive Saúde, Educação, Publicidade e muitos outros campos científicos e tecnológicos.

O nome do projeto também foi alterado. Será “Projeto T”. O nome não é “T”. O nome correto será divulgado quando houver mais novidades relevantes a respeito.

Alguns passos importantes já foram dados e em breve teremos mais notícias sobre isso.

LIVROS

No dia 18/8/2021 lancei o livro “IMCH – Análise matemática dos erros da fórmula de IMC”. Estava na dúvida entre lançar uma segunda edição de “IMC na balança” ou um novo título sobre o mesmo tema, e achei que seria mais interessante um novo título, pois está muito mais abrangente, completamente reformulado e ampliado. O anterior tinha 100 páginas, enquanto este tem 300. Foi adicionado um capítulo com um estudo empírico que corrobora a teoria apresentada no artigo de 2003, sendo este estudo um dos principais diferenciais. Além do estudo sobre o IMC e apresentação de nova fórmula, o livro traz um conteúdo relativamente amplo e diversificado sobre Estatística, História da Ciência, Astronomia, Geometria Fractal e outros tópicos. Embora o tema esteja mais ligado à Saúde, Antropometria, Endocrinologia, Biomedicina e Medicina Esportiva, é provável que o público mais interessado seja das áreas de Estatística, Física, Engenharia, Matemática, Epistemologia e Filosofia da Ciência.

https://www.saturnov.org/livro/imch

______________________________________

Algumas opiniões sobre o livro:

“Um excelente trabalho. Parabéns.” (Renato P. dos Santos, Ph.D. com dois pós-doutorados em Física). Veja também prefácio do Renato.

“Um dos melhores livros que já li!” (Luca Fujii, Menção Honrosa na Olimpíada Brasileira da Matemática)

“Ficou muito interessante o livro. Parabéns!” (Felipe Rodrigues, mestrando em Educação Física e enxadrista)

“Parabenizo-o por seu trabalho.” (Marcelo Viana, diretor do IMPA)

“Parabéns Melão! Você é um ser humano incrível!” (Newton Leão, Consultor de Marketing Digital)

“Muito interessante, pois é muito comum no meio médico a tradição se enraizar por evidências questionáveis, e poucos tem a curiosidade (e mesmo a capacidade) para revisitar conceitos. Diria que este é um erro de proporções escaláveis. Parabéns.” (Luis Claudio Lemos Correia, Ph.D. e pós-doutorado em Medicina, editor da revista “Journal of Evidence-based Healthcare”)

Capa3.jpg


Estou compilando conteúdos de artigos e fragmentos de textos sobre temas relacionados ao projeto T, que havia escrito entre 2000 e 2014, e adicionando alguns conteúdos novos. Pretendo publicar mais 3 livros nas próximas semanas, um dos quais está quase pronto.

O último livro dessa série é o motivo dos outros dois (ou três), pois o último será uma apresentação do “Projeto T”. Como se trata de um projeto muito incomum e complexo, não seria viável apresentá-lo por meio de um texto curto. Por isso decidi escrever um tratado detalhado a respeito, e usar artigos relacionados para introduzir o tema. Assim, haverá três (ou quatro) volumes interligados, por meio dos quais será descrito esse projeto. O último terá também um resumo dos três primeiros, e quem quiser se aprofundar nesses tópicos poderá encontrar nos livros que abordam exclusivamente esses assuntos.

Um desses livros, embora ainda não esteja pronto, o amigo Gerson Peres Batista já me convidou para uma entrevista assim que for lançado.

OUTRAS NOVIDADES

O amigo Edson Jequecene muito gentilmente me indicou para um representante da Secretaria da Educação de Moçambique para usar minhas fotos astronômicas na ilustração de um livro didático de Geografia. Ainda não sei quando será publicado.

Está em discussão a possibilidade de fazermos parceria com uma corretora que nos oferecerá condições diferenciadas de taxas, spreads, execuções e atendimento. Até o momento já nos foram oferecidas para todas as contas, inclusive as de varejo, as mesmas condições que tínhamos para contas premium na CFH clearing: com commissions US$ 0,60 por lote (US$ 0,60 na abertura e US$ 0,60 no fechamento). Isso representa cerca de 91% de desconto em comparação às taxas típicas na maioria das corretoras.