top of page

31 de outubro de 2021

PROJETO T E OUTRAS NOVIDADES

por Hindemburg Melão Jr.

Nos últimos 50-100 anos estamos vivendo um dos períodos mais extraordinários da História da Humanidade. A expectativa de vida dobrou, diversos órgãos podem ser transplantados, o homem pisou na Lua, sequenciou o DNA, desenvolveu máquinas que vencem os campeões humanos de Xadrez, qualquer pessoa, em qualquer lugar, pode acessar um volume gigantesco de informações usando um simples celular. A Ciência tem revolucionado nossas vidas nos últimos 100 anos mais do que fez o conhecimento pré-científico nos 6.000 anos anteriores. Um dos avanços mais importantes das últimas décadas ocorreu em 2015, quando a empresa Deep Mind lançou o programa “AlphaGo”. No ano seguinte, este foi o primeiro programa a vencer um campeão mundial de Go, Lee Sedol, que decidiu se aposentar depois da derrota. Mas o aspecto mais revolucionário desse acontecimento não foi a vitória em si. O aspecto mais notável em AlphaGo é que, diferentemente de todos os programas anteriores – desde os primeiros desenvolvidos por Shannon e Turing em 1949 e 1950 – AlphaGo não tem acesso a um gigantesco banco de dados nem recebe dos humanos um grande volume de ensinamentos estratégicos. Ele aprende tudo sozinho, jogando contra si mesmo milhares ou milhões de partidas, a partir das quais vai “deduzindo” os conceitos estratégicos mais eficientes com base em suas vitórias e derrotas.



AlphaGo recebeu apenas as informações sobre as regras do jogo e, a partir daí, deduziu o resto sozinho. Em poucos dias de treinamento, aprendeu mais e melhor do que todo o conhecimento humano acumulado durante 2500 anos sobre Xadrez, Chaturanga e Chantranj. Em seguida, a Deep Mind lançou AlphaZero, que usa uma heurística capaz de aprender qualquer jogo de tabuleiro, inclusive Go, Xadrez e Shogui. Após menos de menos de 10 horas de aprendizado, AlphaZero ficou melhor não apenas que os campeões mundiais humanos, mas também superou os melhores programas de Xadrez desenvolvidos por humanos, programas que vinham sendo desenvolvidos com base no conhecimento acumulado de pelo menos 65 anos. Seguindo essa mesma linha, o avanço mais recente foi o lançamento de MuZero, que aprende também qualquer jogo de Atari, e com mais um notável diferencial: MuZero não precisa receber informações sobre as regras do jogo. Ele “deduz” as regras por tentativa e erro, tentando executar movimentos e descobrindo o que é permitido, ao mesmo tempo em que vai testando e aprendendo o que funciona melhor, tal como os humanos aprendem a jogar videogames. Em Pac-Man, por exemplo, MuZero chegou a 243.000 pontos. Em Time Pilot fez 405.000. Em jogos mais complexos, como H.E.R.O., fez 49.000. Não se saiu tão bem em todos os jogos, mas em geral os resultados ficaram acima de 99,9% dos jogadores humanos. Os gráficos abaixo mostram a curva de evolução de MuZero em diferentes jogos:



O próximo passo pode ser um sistema de IA geral, que faça diagnósticos médicos, julgue questões jurídicas, administre empresas, opere no Mercado Financeiro, crie projetos publicitários e escreva tratados de Filosofia. Já existem sistemas como AIVA, capaz de compor músicas tão agradáveis quanto as dos melhores compositores humanos, e é questão de tempo até os sistemas de IA superem os humanos em praticamente tudo. Quando foi lançado AlphaZero, eu comecei a me interessar pelo caso e a acompanhar o desenvolvimento. Analisei algumas partidas disputadas entre AlphaZero e Stockfish, que na época era o melhor programa convencional do mundo, capaz de vencer o campeão mundial humano numa proporção maior que 50:1 (mais de 98% dos pontos para o programa contra menos de 2% para o campeão mundial humano). O resultado foi uma convincente vitória de AlphaZero, com 72 empates e 28 vitórias, num total de 100 partidas. Nenhuma derrota sequer. Além do resultado numérico, a qualidade e a originalidade dos lances também é surpreendente. AlphaZero toma algumas decisões incompreensíveis para humanos e consideradas “ruins” pelo Stockfish, mas que se revelam corretas vários lances depois, e então o próprio Stockfish revisa suas avaliações e começa a concordar que a posição de AlphaZero ficou superior, mas nesse ponto é tarde demais e Stockfish já está perdido. Stockfish, embora seja muito melhor que os jogadores humanos, joga de uma maneira que conseguimos compreender, e sua supremacia decorre da velocidade de cálculo, ele analisa 200 milhões de lances por segundo, enquanto um excelente jogador humano analisa 2 lances por segundo. Cada lance executado por Stockfish nós entendemos o motivo, ainda que não sejamos capazes de calcular todas as consequências, compreendemos os princípios que nortearam aquela escolha. Mas AlphaZero joga de maneira muito diferente, num nível que cerca de 30% dos lances que ele faz, simplesmente não conseguimos compreender os critérios que ele pode ter utilizado para justificar tais escolhas, porque são baseados em conceitos que ainda desconhecemos. É como se uma civilização alienígena milhares de anos mais desenvolvida que a nossa viesse nos mostrar como se deve jogar Xadrez da maneira “correta”, e revelasse que boa parte do que acreditávamos que fossem os conceitos mais eficientes estão na verdade errados. Outro aspecto curioso é que AlphaZero é relativamente lento, se comparado a Stockfish (30.000 lances por segundo contra 200.000.000 por segundo). Há controvérsias se AlphaZero ainda poderia vencer a versão mais recente de Stockfish, mas mesmo que não consiga vencer, a característica mais impressionante é que AlphaZero não recebe conhecimento nenhum e aprende tudo a partir do zero. É justamente aí que reside o grande salto evolutivo em comparação a todos os programas de Xadrez anteriores, aliás, em comparação a todos os programas de qualquer tipo. Quando foi lançado MuZero, que não precisa sequer receber informações sobre as regras, e é capaz de deduzir as regras e aprender uma variedade imensa de jogos diferentes, ficou claro que este será o futuro não apenas do Mercado Financeiro, mas de todas as atividades intelectuais complexas. Não existe nada parecido, que seja capaz de deduzir as regras sobre qualquer jogo e alcançar um nível de excelência comparável ao dos melhores humanos do mundo na modalidade. Diante deste cenário, decidimos que as próximas versões do Saturno V devem seguir por um caminho similar, com alguns diferenciais importantes. Uma versão genérica (pseudocódigo) com todos os aspectos fundamentais de AlphaZero está disponível em código aberto no site da Deep Mind. Este pseudocódigo já foi utilizado para criar Lc0 (Leela Chess Zero), um programa open source que em cerca de 3 anos de treinamento chegou a ser um dos melhores programas de Xadrez do mundo, inclusive sagrando-se campeão algumas vezes no TCEC, que é praticamente um campeonato mundial de programas de Xadrez. AlphaZero nunca chegou a participar do TCEC porque os organizadores da competição exigem que os participantes rodem em hardware padrão, mas AlphaZero precisa de equipamentos especiais (TPUs), desenvolvidos pelo Google. No caso de Lc0, há versões para rodar em CPUs e GPUs, portanto atende aos critérios para participar do TCEC. Os programas participantes do TCEC que rodam em CPU usam 172 coprocessadores, enquanto os programas para GPU usam apenas 2 GPUs. Mesmo assim Lc0 sagrou-se campeão mundial mais de uma vez. Embora o código de MuZero não seja aberto, existe um pseudocódigo em Python, acompanhado de detalhadas explicações, bem como há um artigo em Arxiv.org e outro mais recente publicado na revista Nature. Há também muita informação sobre o desenvolvimento do open source Lc0. Com isso, pode-se fazer vários testes e analisar vários detalhes sobre o que está sendo desenvolvido nessa área. Sob o ponto de vista de usuário de Lc0, tenho analisado diversas características desta engine nos últimos meses e já foi identificado um detalhe em Lc0 (com análogo em MuZero) que pode ser substancialmente melhorado. De forma muito resumida, Lc0 não avalia as posições com uma métrica similar à de outras engines. Esse é um “problema” inerente ao seu processo de aprendizagem. Como resultado, quase todas as melhores engines tradicionais avaliam as posições com escores semelhantes entre si, mas os escores de Lc0 são muito diferentes. Por exemplo: numa posição em que um dos lados tenha 2 peões de vantagem numa posição com equilíbrio dinâmico e estrutural, a posição está aproximadamente 2,00 melhor. Várias das melhores engines colocadas para avaliar a posição (em julho de 2021) com estas características (Stockfish 13, Zeuss 11, Eman 6.94, Shashchess 15.1, Dragon, Komodo 14.1, Fire 8, Rofchade 2.3, Ethereal 12.75, versões MCTS destas engines etc.) concordam entre si com avaliação aproximada em torno de 2,00. Mas Lc0 costuma fazer avaliações muito diferentes, algo como 17,41. Lc0 geralmente concorda com as engines tradicionais quando a vantagem fica perto de 1, mas a diferença entre a avaliação de Lc0 e de outras engines vai crescendo conforme o escore se afasta de 1. Quando o módulo da avaliação é menor que 1, a diferença fica mais sutil, mas ainda dá para notar que enquanto outras engines estimam a vantagem em 0,45, por exemplo, variando entre elas com desvio-padrão em torno de 0,07, Lc0 atribui a esta mesma posição o escore 0,11, ou seja, muitos desvios-padrão diferente das avaliações das outras engines, e sempre abaixo do valor das avaliações das outras engines. Quando o escore avaliado é maior que 1, a avaliação de Lc0 geralmente é maior que os das outras. Isso acontece porque em Lc0 se utiliza uma estimativa de probabilidade de sucesso (ou algo assim) e tenta converter essa probabilidade num escore similar ao usado pelas engines tradicionais, que usam frações de Peão. Aparentemente, em Lc0 padronizaram o valor 1 para ficar igual ao das engines tradicionais, por isso quando a avaliação é perto de 1, os escores de Lc0 geralmente coincidem com os de outras engines, embora a escala seja muito diferente. Minha impressão é de que fizeram o seguinte: verificaram qual era a probabilidade de sucesso de Lc0 em posições nas quais outras engines davam vantagem de 1,00, e usaram este valor para converter os escores de Lc0 em frações de Peão. Assim, sempre que Lc0 estima que sua probabilidade de sucesso é aquela, o escore exibido será 1,00. Mas como as escalas são muito diferentes, não há como fazer uma conversão linear (nem qualquer curva simples) dos demais escores, por isso a distorção vai crescendo conforme a avaliação se afasta de 1. No caso específico do Xadrez é indiferente usar uma escala baseada em fração de Peão ou em probabilidade de sucesso, ou qualquer outra, isso não afeta a performance da engine. Mas se a finalidade fosse avaliar corretamente o valor de uma variável com significado relevante para o resultado, por exemplo, estimar a cotação de um instrumento financeiro para definir um ponto de entrada ou saída, seria importante que a escala utilizada fosse apropriada, bem como os valores estivessem bem calibrados. A escolha do ponto de referência em 1,00 parece ter sido arbitrária, bem como a ausência de ajuste para outros valores diferentes de 1,00 trazem diversas consequências. Os parâmetros na distribuição de Dirichlet citados na descrição de MuZero, para determinar a dispersão que deve ter a variabilidade da mutação, também é visivelmente “chutado”. Tanto no caso de Lc0 quanto nos casos de AlphaZero e MuZero, parece que muitos destes valores são “chutados”, e isso pode ser substancialmente melhorado, assim como as medidas de recompensa, para que a evolução seja mais rápida nas primeiras gerações e atinja um pico máximo mais elevado nas últimas gerações. No caso específico de Lc0, eu já havia solucionado esse problema de converter probabilidade de sucesso em fração de Peão alguns anos antes de que existissem A0 e Lc0, conforme descrevi num artigo de 2013. Há também estudos anteriores aos meus sobre isso, com destaque para os de Howard Staunton e Rob Edwards, mas estes apresentam algumas falhas fundamentais. No caso de Staunton, há muitas falhas, o que é compreensível, por serem de uma época pré-computador. Os estudos de Rob Edwards incluem alguns dos resultados de Staunton aprimorados, mas ainda pecam em pontos importantes, tais como o tempo de reflexão e o rating médio dos jogadores. Esses temas são abordados com mais detalhes no livro que pretendo publicar nas próximas semanas sobre os 2022 melhores jogadores de Xadrez de todos os tempos com dois novos sistemas de rating. Estas falhas em AlphaZero/LeelaZero não afetam diretamente MuZero, porque tratam especificamente de como estas variáveis devem ser modeladas no Xadrez. Mas a metodologia utilizada, assim como várias das ideias envolvidas, pode ser adaptada para o caso do MuZero e S0, com excelentes possibilidades de alcançar resultados melhores que os divulgados pela DeepMind. Outro ponto muito importante é que MuZero consegue aprender Xadrez sozinho e rapidamente chegar a um nível superior ao do campeão mundial humano, mas em alguns jogos de Atari ele não chega perto disso e alguns jogos ele nem sequer consegue aprender. Portanto há grandes lacunas ainda que precisam ser preenchidas, e um terreno muito fértil a ser explorado. A Deep Mind deu passos importantíssimo e saiu na liderança nessa área, mas atualmente estão esbarrando em alguns problemas para os quais eu já havia encontrado soluções prontas em 2013, antes mesmo de que MuZero existisse, por isso temos chances concretas de ultrapassar Deep Mind nessa “corrida”. Mas mesmo que não a ultrapassemos, não seria ruim chegar em segundo lugar em algo tão importante e revolucionário, sem contar que as contribuições na área de Saúde devem ser prioritariamente cooperativas, não competitivas. Tanto faz se a cura para uma doença for descoberta pela Deep Mind ou por nosso sistema, o importante é que muitas pessoas sejam beneficiadas com isso. A Deep Mind não dá sinal de que pretenda utilizar os sucessores de MuZero no Mercado Financeiro, embora esse seja provavelmente um dos desdobramentos naturais. Nesse campo, talvez tenhamos uma disputa interessante e estimulante, mas no campo da Saúde creio que seja mais correto e proveitoso que tenhamos uma participação colaborativa. Como a Deep Mind já atua nessa área há alguns anos, e nós entraremos agora, teremos algumas vantagens e algumas desvantagens. Uma das vantagens é que não precisaremos inventar a roda, pois eles já fizeram isso, o que nos poupa alguns anos. Outra vantagem é que já temos soluções para alguns problemas que eles estão lutando para solucionar. Porém temos também algumas desvantagens. Uma delas é que eles estão alguns anos à nossa frente com resultados prontos, equipe formada e atuante, e um financiamento multibilionário do Google. Após os dois livros que devo finalizar nas próximas semanas, será escrito um exclusivamente sobre esse assunto, com o nome “Projeto T”. Por isso não prolongarei mais esse assunto, que será analisado com todos os pormenores nesse livro. Posso antecipar apenas que esse projeto é muito mais abrangente do que atuar no Mercado Financeiro.   EVOLUÇÃO DA VACINAÇÃO A maioria dos países já está perto de ter vacinado 90% da população e alguns já ultrapassaram essa marca. Ainda há variações do vírus como o delta e o épsilon, que representam algum perigo, mas em linhas gerais a situação está cada vez mais bem controlada. Alguns amigos perderam parentes próximos, outros ficaram com sequelas no paladar ou no olfato. Foi um período realmente difícil, com traumas graves e algumas perdas irreparáveis. Contudo, a humanidade superou mais essa calamidade e seguimos em frente.



Nos últimos meses, voltaram a ocorrer movimentos típicos nos quais o Saturno opera com suas performances habituais, sinalizando que o Mercado está se renormalizando. Isso corrobora as expectativas de que o desempenho ruim estava relacionado à pandemia. Agora, com o crescimento no número de pessoas vacinadas e retorno das pessoas às suas atividades normais, o comportamento do Mercado também está voltando ao normal, bem como os resultados do Saturno. Houve dois movimentos mais longos nos dias 25 e 29, que não chegaram a disparar sinais de entrada nos backtests nem nas contas, mas são padrões similares aos que o Saturno costuma obter lucros, portanto também são um ótimo sinal de que os movimentos promissores para a estratégia utilizada estão voltando a se repetir com frequência. O que podemos inferir disso é que, embora as performances nas contas ainda estejam ruins nos últimos 2 anos, os backtests já mostram claros sinais de recuperação.



Se considerar o histórico completo das contas durante a pandemia, desde 1/1/2020, a situação continua desconfortável, mas quando se considera os resultados da versão T-124d, que está operando nas contas desde abril de 2021, tanto nos dados recentes quanto no histórico de longo prazo, as performances já estão muito tranquilizadoras. O gráfico abaixo mostra o desempenho em backtest desde 5/4/2021 até 29/10/2021:



E o próximo gráfico mostra de 1/1/2008 até 29/10/2021:

Se considerar desde 1/12/1986, os resultados também são muito consistentes:


Nos dois últimos gráficos pode-se observar uma mudança de comportamento na curva de crescimento a partir de setembro de 2016, em que a inclinação da reta de regressão se torna menos íngreme, a volatilidade local aumenta e algumas outras propriedades também mudam, mas o comportamento geral de crescimento é mantido, bem como a isotropia nos últimos 35 anos e a isotropia nos últimos 5 anos. Se considerar nos últimos 10 anos, o nível de anisotropia aumenta devido às mudanças em setembro de 2016, mas logo depois dessa mudança se configura um novo comportamento isotrópico nos 5 anos seguintes, portanto embora haja um breve período de transição no qual a isotropia é prejudicada, logo depois é restabelecida e permanece assim nos últimos 5 anos. O conjunto geral dos dados mostra que: 1. A versão T 124d é mais robusta aos efeitos da pandemia sobre o Mercado. 2. Nos últimos meses ocorreram movimentos longos, do tipo que o Saturno V obtém lucros, sendo que em 2 desses movimentos o Saturno efetivamente entrou e obteve lucro. 3. Em comparação com outros estudos anteriores, pudemos observar que os piores momentos do Saturno ocorreram em março de 2020 e no final de 2020, justamente nos picos das ondas da pandemia. Ponderando os prós e contras, a situação é extremamente animadora e parece assinalar o fim da má fase pela qual estivemos passando nos últimos 2 anos. Agora esperamos que com a vacinação o ritmo normal de lucros seja retomado.   PROJETO T Conforme comentado acima, em 2020 havíamos cogitado a possibilidade de desenvolver um projeto que eliminaria de forma definitiva a necessidade de atualizar, corrigir, revisar e aprimorar o Saturno. Seria desenvolvido um sistema de Inteligência Artificial inspirado em MuZero, da Deep Mind, voltado para o Mercado Financeiro, mas foi interrompido após o encerramento das atividades do fundo no qual o Saturno V operava, em junho de 2021. Não foi um fechamento por insolvência. Foi para prevenir uma situação de insolvência. Todos os clientes resgataram suas aplicações normalmente. Depois disso, o projeto S0 não teve continuidade, porque um trabalho desse porte levaria décadas se fosse realizado por uma pessoa sozinha. Para que seja concluído num prazo de 2 a 5 anos, precisa de uma equipe altamente capacitada, mas nossa equipe que trabalhava no desenvolvimento de Cantor foi dissolvida com o encerramento fundo. Diante a essa nova conjuntura, precisei reorganizar o projeto em conformidade com os recursos disponíveis. Isso foi excelente, porque a ideia original de desenvolver apenas um sistema de IA para operar no Mercado foi ampliada numa escala literalmente astronômica. Agora o sistema de IA para o Mercado Financeiro será uma pequena parte de um projeto muito maior, com aplicação em muitas áreas, inclusive Saúde, Educação, Publicidade e muitos outros campos científicos e tecnológicos. O nome do projeto também foi alterado. Será “Projeto T”. O nome não é “T”. O nome correto será divulgado quando houver mais novidades relevantes a respeito. Alguns passos importantes já foram dados e em breve teremos mais notícias sobre isso.


SOBRE O AUTOR:

Hindemburg Melão Jr. foi protagonista em reportagem no Fantástico, da rede Globo, por ter o maior QI do Brasil (2005), é recordista mundial em Xadrez às cegas registrado no Guinness Book 98, foi representante da América Latina no Intercontinental High-IQ Forum 2022, autor de mais de 1700 artigos, inclusive dezenas de inovações em diferentes campos do conhecimento, inclusive aprimoramentos nos trabalhos de 6 ganhadores de prêmios Nobel e soluções para problemas científicos e matemáticos que estavam em aberto há décadas e a há séculos.

Sobre o autor (biografia, entrevistas, livros, vídeos, artigos): https://www.sigmasociety.net/hm

Livros: https://www.amazon.com.br/gp/product/B0CFWGCHN5

Sigma Society: https://www.sigmasociety.net

Immortal Society: https://www.sigmasociety.net/homeimmortal

Eleve sua empresa ao topo: https://www.sigmasociety.net/transcenda

Canal: https://www.youtube.com/@hindemburgmelao


bottom of page