Sakana Fugu: a IA multi-agente que orquestra GPT, Claude e Gemini num so endpoint

baitasite

Início » Inteligência Artificial » Sakana Fugu: a IA multi-agente que orquestra GPT, Claude e Gemini num so endpoint

Compartilhe em:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

A Sakana AI acaba de lancar o Sakana Fugu: um sistema multi-agente que coordena, em tempo real, os melhores modelos de IA do mercado (Claude, GPT, Gemini) atraves de uma unica API compativel com OpenAI. Em 11 benchmarks publicos, os dois modelos da familia (Fugu e Fugu Ultra) superam Opus 4.8, Gemini 3.1 Pro e GPT 5.5 em areas criticas como codigo, raciocinio longo, ciencia e tarefas agenticas.

O detalhe que muda tudo: voce nao escolhe qual modelo usar. O Fugu escolhe por voce, dinamicamente, a cada etapa da tarefa. E o mecanismo de escolha nao foi escrito por humanos: foi aprendido por dois papers academicos publicados na ICLR 2026 (TRINITY e Conductor).

O que e a Sakana Fugu

Índice

O nome vem de fugu, o peixe-ornitorrinco japones cujo veneno exige um chef especializado. A metafora e precisa: cada modelo do pool e poderoso, mas a combinacao entre eles exige um orquestrador que saiba o que esta fazendo. E exatamente isso que o Fugu entrega.

Em vez de voce construir um workflow manual (LLM 1 faz isso, LLM 2 refina, LLM 3 valida), o Fugu aprende sozinho a melhor forma de combinar os agentes disponiveis. Voce passa a tarefa via API; o sistema decide quem faz o que, em que ordem, e como os resultados sao cruzados.

A Sakana descreve tres propriedades principais:

Uma API, varios modelos: voce fala com um endpoint unico. O Fugu decide qual (ou quais) modelos usar para cada parte da tarefa, otimizando custo e performance.
Performance superior em tarefas complexas: construido para coding, raciocinio e workflows de alta qualidade, onde um modelo so raramente e suficiente.
Controle de privacidade e compliance: voce pode excluir modelos especificos do pool (por fornecedor, por jurisdicao, por politica interna).

Detalhe importante para o mercado brasileiro: a Sakana destaca que a Fugu entrega performance de fronteira sem o risco de controle de exportacao (leia-se: bloqueios geopoliticos que ja afetaram chips e modelos de paises especificos).

Como funciona: TRINITY + Conductor

O Sakana Fugu nao e um hack de prompt chaining. E o resultado de pesquisa academica seria, com dois papers aceitos na ICLR 2026. Os dois sistemas se complementam.

TRINITY usa um coordenador leve, evoluido por algoritmos geneticos, para orquestrar multiplos LLMs em varias rodadas. A cada turno, o coordenador atribui papeis: Thinker (pensador), Worker (executante) ou Verifier (validador). O sistema aprende a distribuir o trabalho de forma adaptativa em tarefas de codigo, matematica, raciocinio e conhecimento.

Conductor vai um passo alem: usa reinforcement learning para descobrir estrategias de coordenacao em linguagem natural. Em vez de programar o fluxo, o sistema aprende a projetar prompts e padroes de comunicacao que fazem o pool de modelos superar qualquer modelo individual em benchmarks dificeis.

O relatorio tecnico completo esta em github.com/SakanaAI/fugu.

Fugu vs Fugu Ultra: dois sabores, mesma API

A Sakana oferece dois modelos no mesmo endpoint, sem mudar integracao:

Fugu: equilibrio entre performance e latencia. Ideal para uso diario, code review, chatbots responsivos. Permite excluir agentes especificos do pool por restricao de compliance.
Fugu Ultra: pool maior de agentes especialistas, foco em qualidade maxima. Pensado para problemas de alto risco: Kaggle, reproducao de papers, analise de ciberseguranca, investigacao de literatura e patentes.

Ambos respondem na mesma API compativel com OpenAI. Voce pode alternar entre eles com uma troca de parametro.

Benchmarks: 11 testes, 5 modelos, uma vitoria consistente

Os resultados sao o ponto mais forte do anuncio. Em 11 benchmarks publicos, cobrindo codigo, raciocinio, ciencia, matematica e tarefas agenticas, a familia Fugu lidera em quase todas as categorias.

Tabela completa de resultados (maior score em negrito):

Benchmark	Fugu	Fugu Ultra	Opus 4.8	Gemini 3.1 Pro	GPT 5.5
SWE Bench Pro	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity’s Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
t3 Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

Onde o Fugu Ultra brilha especialmente: SWE Bench Pro (resolucao de bugs reais em codigo de producao), TerminalBench 2.1 (uso de terminal), LiveCodeBench (codigo ao vivo) e Humanity’s Last Exam (teste geral de raciocinio dificil). O unico teste onde a Fugu Ultra nao vence e MRCRv2, onde o GPT 5.5 leva por pouco (94.8 vs 93.6).

Casos de uso reais: alem dos benchmarks

A Sakana documenta casos qualitativos que vao alem dos numeros. Em todos, o Fugu Ultra se destaca de forma visivel:

ML research autonomo: um agente rodou 123 experimentos ao longo de 14 horas em uma unica H100, melhorando a receita de treino de um pequeno GPT. Terminou com BPB 0.9774 (menor = melhor), contra 0.9781 do melhor baseline.
Leitura de documentos historicos japoneses: cartas classicas em kana com layout chirashigaki (escrita espalhada). Fugu Ultra atingiu NED 0.80, contra 0.24 dos modelos fronteira. Um dos baselines nem gerou codigo que rodasse.
Resolvedor de Cubo Magico em Python puro: 300 cubos embaralhados. Fugu Ultra e um dos baselines conseguiram resolver todos; os outros dois geraram codigo que crashou. Fugu Ultra usou em media 19.72 movimentos, contra 19.76 do melhor baseline.
CAD mecanico: tarefa de criar uma iris mecanica tipo camera. Fugu Ultra gerou CAD funcional, com as pas girando corretamente; os outros modelos produziram pecas com gaps, links fracos ou que nao fechavam.
Xadrez de olhos vendados: 4 partidas consecutivas, todas de memoria. Fugu venceu 3 modelos fronteira e um Stockfish 2100-Elo, terminando cada partida em xeque-mate.

Os primeiros usuarios do Fugu Ultra reportam uso em competicoes Kaggle, reproducao de papers, analise de ciberseguranca e investigacao de literatura e patentes. Basicamente: tudo onde a tarefa e complexa demais para um unico modelo e onde a margem de erro precisa ser minima.

Limitacoes honestas

Apesar dos resultados, a Sakana deixa claro alguns pontos:

Sem EU/EEA por enquanto: o servico nao esta disponivel na Uniao Europeia enquanto a empresa trabalha para conformidade com GDPR e regulacoes locais.
Performance, nao autoridade: o Fugu e uma ferramenta de otimizacao de raciocinio, nao uma fonte de verdade. Para informacoes criticas, validacao humana segue obrigatoria.
Custo desconhecido: a Sakana ainda nao publicou pricing detalhado para Fugu vs Fugu Ultra. Como multi-modelo, espera-se que Fugu Ultra tenha custo proporcional ao numero de agentes acionados por tarefa.
Comparacoes parciais: alguns modelos comparados (Fable 5, Mythos Preview) nao estao publicamente acessiveis e por isso nao entram no pool do Fugu.

O que isso muda para quem trabalha com IA

A Sakana Fugu representa uma mudanca de paradigma: o gargalo de performance de IA nao e mais o modelo, e a coordenacao entre modelos. Em vez de escolher um modelo e torcer para que ele resolva a tarefa, voce passa a tarefa para um sistema que decide internamente.

Para quem desenvolve produtos com IA, isso significa algumas coisas praticas:

Menos tempo escolhendo modelo: a camada de “qual LLM usar para esta tarefa” deixa de ser responsabilidade do dev.
Mais margem de performance: para tarefas criticas, orquestracao multi-agente ja supera o melhor modelo individual.
Vendor lock-in amenizado: com a opcao de excluir modelos especificos do pool, voce consegue usar multi-LLM sem expor dados sensiveis ao fornecedor que nao quer.

Para o mercado de desenvolvimento web e automacao (nosso foco na Baita Site), a implicacao e direta: workflows de criacao de conteudo, geracao de codigo, atendimento ao cliente e analise de dados ja podem ser montados em cima de uma API unica, com performance superior a qualquer modelo isolado, sem precisar manter integracoes separadas com cada fornecedor.

Conclusao

A Sakana Fugu nao e mais um modelo. E uma camada de orquestracao que aprende a usar modelos como um chef aprende a usar ingredientes: escolhendo, combinando, verificando. Com 11 benchmarks publicos a favor e dois papers academicos por tras, a proposta tem base seria.

Vale ficar de olho. Vale testar quando o acesso for liberado na sua regiao. E, principalmente, vale repensar a forma como seu stack de IA esta montado: se voce ainda esta preso a um unico modelo por tarefa, a Fugu mostra que existe um caminho melhor.

Fonte oficial: sakana.ai/fugu. Papers relacionados: TRINITY e Conductor, ICLR 2026.

Compartilhe em:

ChatGPT Perplexity WhatsApp LinkedIn X Grok Google AI

Tags: api, benchmark, ia, llm, multi-agente, sakana ai

Gostaria de receber mais novidades?

Nossas publicações serão sempre voltadas ao mundo do marketing digital, design e criação de sites. Você não será importunado com assuntos que não são do seu interesse!

®

Sakana Fugu: a IA multi-agente que orquestra GPT, Claude e Gemini num so endpoint

O que e a Sakana Fugu

Como funciona: TRINITY + Conductor

Fugu vs Fugu Ultra: dois sabores, mesma API

Benchmarks: 11 testes, 5 modelos, uma vitoria consistente

Casos de uso reais: alem dos benchmarks

Limitacoes honestas

O que isso muda para quem trabalha com IA

Conclusao

Gostaria de receber mais novidades?

Compartilhe com seus familiáres e amigos!

Baita Site

Porque nos escolher?

Nossos Serviços

Onde Estamos