LiveCodeBench と SWE-Bench Pro は何が違う？ Sakana Fugu の「Fable超え」をベンチマークの意味から検算する

この記事について
Claude（Anthropic）との共同編集により作成されました。

要約

Sakana AI が 2026-06-22 に出した Fugu は「単一の巨大モデル」ではなく、複数のフロンティアモデルを束ねて1つのAPIに見せるオーケストレーションシステム

「Fable超え・勝った」報道は盛りすぎ。スコアはどれもベンダー（Sakana）公称値で、第三者の独立再現もまだ無い

ベンチマークを1個ずつ意味から読むと、勝っているのは LiveCodeBench（競プロ的コード生成）。実務寄りの SWE-Bench Pro ではむしろ届いていない

オーケストレーションで精度を上げる発想自体は好きだが、束ねる相手が GPT-5.5 / Opus / Gemini という汎用商用APIだと「ローカルの可能性」とは逆方向で、正直うーんとなる

50週で +19.43% の株取引リターンは面白いが、マルチエージェントのトークン消費を引いた後の手取りで語らないとフェアじゃない。それでも日本拠点の会社が世界の AI 議論に乗るのは普通に良いこと

Sakana AI が 2026-06-22 に出した「Sakana Fugu」をめぐって、SNS に「Fable を超えた」「勝った」みたいなツイートが流れてきた¹。調べる前の自分の感想は、確かにベンチマーク表を見ると競ってはいる、でも「勝った」「Fable超え」と言い切るのはたぶん盛っている、というものだった。

実際に公式リリースと検証記事を突き合わせると、上回っているのは主に LiveCodeBench で、実務に近い SWE-Bench Pro では届いていない領域がある²⁴。つまり「どのベンチマークで勝ったのか」を見ないと、この話は評価を間違える。

この記事では、各ベンチマークが何を測っているのかを解説しながら、その物差しで Fugu の勝ち・負け・同等を1個ずつ仕分け直してみる。あわせて、オーケストレーションという発想への自分の期待と引っかかり、株取引リターンのコストの話、そして日本企業の LLM が話題になることについても書く。

そもそも Fugu は「1つのモデル」ではない#

最初に押さえておきたいのが、Fugu は単一の大規模言語モデルではない、という点。実体は、複数のフロンティアモデルを束ねるマルチエージェント・オーケストレーションシステムを、1つの基盤モデル（＝1つの OpenAI 互換 API）として提供する製品だ¹³。キャッチコピーは “One Model to Command Them All”¹。

仕組みをざっくり言うと、こうなっている¹³：

中核は強化学習で訓練された 7B の「コーディネータ」LLM。これ自身が言語モデルでありながら、エージェントプール内の他の LLM を呼び出すよう学習されている（自分自身を再帰的に呼ぶこともある）
内部では Thinker / Worker / Verifier の役割を、各タスクに応じて動的にモデルへ割り当てる
プール内のモデルは差し替え可能（swappable）。これにより単一ベンダー依存を避け、特定プロバイダーが使えなくなったときの迂回もできる

基盤になっているのは ICLR 2026 に投稿された2本の論文、Trinity（軽量な進化型コーディネータ）と Conductor（強化学習でエージェント間の協調戦略を学習する手法）とされる¹³。外部ルーターと違って、オーケストレーション機能がモデルの内側に組み込まれているのが売りだ。

ひとつ注意。プールの構成モデルとして「GPT-5.5 / Claude Opus 4.8 / Gemini 3.1 Pro」を挙げる記事があるが³、これは検証記事側の記載で、公式リリースが具体的なモデル名を明言しているわけではない。二次情報として割り引いて読むのが安全だ。

ここを押さえると、後のベンチマークの読み方が変わる。Fugu のスコアは「ある1つのモデルの実力」ではなく、「裏で複数のフロンティアモデルを束ねて出した合議の結果」だということ。

ベンチマークを1個ずつ、意味から読む#

ここが本題。Sakana の公称では「11項目中10項目でトップスコア」²とされるが、そのトップが何を意味するかは、ベンチマークごとにまったく違う。代表的な5つを「何を測るのか」から見ていく。Fugu Ultra のスコアはすべて Sakana 公称値である点を先に断っておく²⁴。

SWE-Bench Pro — 実務に一番近いコード修正力#

実在の GitHub リポジトリの issue を渡し、実際にコードを直して、テストが通るかで採点するベンチマーク。つまり「現場のバグ修正・機能追加をどれだけ自走で片付けられるか」に一番近い。AI コーディングエージェントの実用性を測るうえで、いま最も注目されている指標のひとつだ。

Fugu Ultra のスコアは 73.7%²。ただし、一部の領域で Fable 5 に届いていないと明記されている⁴。つまり、いちばん実務に近いこのベンチマークでは、Fugu は勝っていない。ここが今回の「Fable超え報道」の最大のほころびだと思う。

LiveCodeBench — 競プロ的なコード生成力#

新しめの競技プログラミング問題（LeetCode、AtCoder、Codeforces など）を解かせて、コードの正しさを測るベンチマーク。特徴は、学習データ汚染を避けるために問題を時期で区切って、モデルの学習後に出た問題だけで評価できるようにしている点。「過去問の丸暗記」ではなく「初見の問題を解く力」に寄せた設計だ。

Fugu Ultra は 93.2%、対する Fable 5 は 89.8²⁴。ここははっきり上回っている。報道で言われる「Fable超え」の主な実体は、このベンチマークだと考えていい。

Terminal-Bench 2.1 — ターミナル上でのエージェント遂行力#

シェルやターミナルの上で、コマンドを打ちながらタスクを最後までやり切れるかを測る。環境構築、ファイル操作、複数ステップの作業を自律でこなすエージェント能力に近い。

Fugu Ultra は 82.1、Fable 5 は 80.4⁴。わずかに上、という差。誤差の範囲とまでは言わないが、「圧勝」とは違う温度感だ。

Humanity’s Last Exam — 超難問の専門知識・推論#

各分野の専門家が作った、現行モデルには相当きつい難問群。一般的な知識テストの天井を超えた「最後の試験」を狙ったベンチマークで、スコアが低めに出るのが普通。

Fugu Ultra は 50.0%²。資料には明確な比較対象が載っていないので、ここは「勝ち負け」を断定しない。半分取れているのは強いが、相手のスコアが分からない以上、横並びでの主張には使えない。

CharXiv Reasoning — 科学論文の図表を読む力#

arXiv の論文に出てくるグラフや図表を読み取って推論させるベンチマーク。マルチモーダルで、しかも「図の細部を正しく読む」という地味に難しい能力を測る。

Fugu Ultra は 86.6%、Mythos Preview は 86.1²⁴。これは事実上の同等。勝ったとは言いにくい。

仕分け表#

ここまでを物差しごとに並べ直すと、こうなる。

ベンチマーク	何を測るか	Fugu Ultra	比較相手	判定
SWE-Bench Pro	実リポジトリの issue 解決（実務に最も近い）	73.7%	Fable 5 に届かない領域あり	負け寄り
LiveCodeBench	初見の競プロ問題のコード生成	93.2%	Fable 5: 89.8	勝ち
Terminal-Bench 2.1	ターミナル上のエージェント遂行	82.1	Fable 5: 80.4	やや上
Humanity’s Last Exam	超難問の専門知識・推論	50.0%	比較対象が不明	判定保留
CharXiv Reasoning	科学図表の読解・推論	86.6%	Mythos Preview: 86.1	同等

こうして並べると、「Fable超え」と素直に言えるのは LiveCodeBench くらいで、いちばん実務に効く SWE-Bench Pro ではむしろ届いていない、という構図が見えてくる。

「Fable超え」「勝った」はやっぱり盛りすぎ#

ここまでの数字には、もう一段の注意書きが要る。

1つめ。これらは全部ベンダー（Sakana 自身）の公称値で、第三者による独立再現はまだ出ていない⁵。自社測定の数字は、良く出る条件を選べてしまう余地が原理的にある。

2つめ。SWE-Bench Pro で届いていないのに「実務でも勝った」かのように切り取るのは、単純に正確じゃない。「11項目中10項目トップ」という見出しも、はっきり勝っている項目と僅差で競っているだけの項目を一緒くたにした印象で、ベンチマークごとの中身を見れば温度感はだいぶ変わる。

なので、フェアに言うなら結論はこうなる。Fugu は「全領域で最強」なのではなく、「複数のフロンティアモデルを束ねて、Fable / Mythos 級に肩を並べるところまで持ってきた」⁴。これは十分すごい達成だけど、「超えた」とは別の話だ。勝ったみたいなツイートは、ベンチマークの中身を見ずに見出しだけ拾った結果だと思う。

オーケストレーションという発想は好き、でも引っかかる#

ここから個人的な感想。自分はオーケストレーション、つまり複数のモデルを束ねて精度を上げるという発想そのものは、かなり好きだ。というのも、これはオープンモデルを組み合わせて1個ずつの弱さを補い合えば、ローカル LLM でもフロンティアに近づけるんじゃないか、という可能性に直結する話だから。ローカル LLM の電気代と損益分岐の話は前に書いたけど、あの「自由と勉強のために回すローカル」の延長線上に、束ねて賢くする未来があるなら普通にワクワクする。

ただ、Fugu の中身が「GPT-5.5 / Opus / Gemini を束ねている」のだとすると（二次情報だが）、それは汎用の商用 API を3つ束ねているだけ、とも言える。ローカルの自由とは逆方向だ。実際、海外では “basically three LLMs trying to pass as a frontier model”（フロンティアモデルのふりをした3つの LLM）と皮肉られている⁶。ここはちょっと、うーん、となる。束ねる相手が結局よそのAPIなら、自分が期待していた「ローカルの底上げ」とは違う絵になる。

救いはプールが差し替え可能（swappable）に設計されている点³。仕組みとして外部 API を束ねられるなら、原理的にはオープンモデルやローカルモデルを差すこともできるはず。そこに将来の可能性は残っている。Fugu というより「学習型オーケストレーション」という枠組みの方に、自分はまだ期待している。

ちなみにこの「モデル単体か、オーケストレーションか」という線引きについては、肯定派から「フロンティアモデルも内部は MoE（Mixture of Experts）で複数の部分モデルの集合なんだから、区別はもう無意味」という反論も出ている⁶。これはこれで一理あって、議論としては「両者とも技術的には正しい」あたりに落ち着くんだろうと思う。

50週で +19.43% の株取引、手取りはプラスなのか#

もうひとつ気になったのが、実世界テストの結果。Fugu は50週の株式取引パイプラインで +19.43% のリターンを出した、とされている⁴。ルービックキューブを19ステップで解いた話⁵と並んで、デモとしては確かに面白い。

ただ、株のリターンは「粗利」であって「手取り」ではない。 Fugu Ultra はマルチエージェント構造ゆえにトークン消費が大きい。検証記事では、タスクの複雑さによって応答に 11〜269秒かかり、あるコード生成では 26,404 トークンを消費したと報告されている³。50週ぶんの売買判断を回し続けたら、API 料金（あるいは自前で動かすなら電気代）はそれなりに積み上がるはずだ。

知りたいのはそこから先で、

元本はいくらで、+19.43% が金額にしていくらなのか
その期間に費やしたトークン料金・手数料・スリッページを引いた後、まだプラスなのか
同じ期間の指数（市場平均）に対して超過リターンが出ているのか

このあたりが分からないと、「コストを上回るリターンが出た」とは言えない。リターン率だけ大きく出ているデモは、ランニングコストを引いた手取りで語り直さないとフェアじゃない、というのが自分のいつものスタンスだ。マルチエージェントは「単価の安さ」より「タスク完了までに何トークン使うか」で効いてくる⁴ので、ここは実測しないと判断できない。

それでも、日本の会社の LLM が話題になるのはいいこと#

批判的に書いてきたけど、最後はポジティブに着地したい。

ベンチマークの読み方には注意が要るし、「Fable超え」報道は盛られている。それでも、東京拠点の Sakana AI が出したモデルが、海外メディアも巻き込んで世界の AI アーキテクチャ論争の俎上に乗っている⁶、という事実そのものは普通に良いことだと思う。Fable や Mythos と同じ土俵で名前が比較されること自体、ちょっと前なら考えにくかった。

「学習型オーケストレーションでベンダーロックインや地政学的な輸出規制リスクを避ける」という AI 主権（AI sovereignty）の発想¹も、日本の会社が打ち出す方向性として筋が通っている。Fable 5 が使えなくなった現状⁴で「束ねて代替する」という現実解を出してきたのも、地に足がついている。

数字は冷静に割り引いて読む。でも挑戦自体は応援する。両方やっていいと思う。

おわりに#

一文でまとめると、こうなる。

Fugu の「Fable超え」は、勝っているのが主に LiveCodeBench で、実務寄りの SWE-Bench Pro では届いておらず、しかもどれもベンダー公称値なので、「勝った」は盛りすぎ。ただしオーケストレーションという発想と、日本の会社がその土俵に乗ったこと自体は前向きに見ている。

ベンチマークは名前と数字だけ見ると全部同じ「スコア」に見えるけど、SWE-Bench Pro と LiveCodeBench では測っているものがまるで違う。勝った負けたを言う前に、どの物差しで測ったのかを確かめる。Fugu に限らず、これから出てくるモデルのニュースを読むときも、ここだけは押さえておきたい。

参考文献#

Sakana Fugu: One Model to Command Them All（公式リリース） https://sakana.ai/fugu-release/
Sakana AI Launches Sakana Fugu: An Orchestration Model That Routes Tasks Across a Swappable Pool of Frontier LLMs（MarkTechPost） https://www.marktechpost.com/2026/06/22/sakana-ai-launches-sakana-fugu-an-orchestration-model-that-routes-tasks-across-a-swappable-pool-of-frontier-llms/
Sakana Fugu (GA) をサブスクリプションプランで試してみた（クラスメソッド） https://dev.classmethod.jp/en/articles/sakana-fugu-ga-first-touch/
Sakana Fuguとは？Fugu Ultraの性能・料金・Fable 5代替としての立ち位置を解説（AI総合研究所） https://www.ai-souken.com/article/what-is-sakana-fugu
Sakana AI announces ‘Sakana Fugu,’ a multi-agent system that boasts of surpassing Claude Fable（GIGAZINE） https://gigazine.net/gsc_news/en/20260622-sakana-fugu-multi-agent-system-ai/
Japanese AI Startup’s Fugu Matches Anthropic’s Fable & Mythos But Sparks Debate On AI Architecture（ETV Bharat） https://www.etvbharat.com/en/technology/japanese-ai-startup-sakana-fugu-matches-anthropic-fable-and-mythos-but-sparks-debate-on-ai-architecture-enn26062301825