LLMエージェントに株を売買させたら勝てるのか？ TradingAgentsを相場とコストの両面で読む

この記事について
Claude（Anthropic）との共同編集により作成されました。

要約

TradingAgentsは、証券会社の運用チームを7役割・5工程のマルチエージェントLLMとして再現した株式取引フレームワーク

技術的な肝は「構造化レポートで受け渡し、討論のときだけ自然言語」というハイブリッド通信と、quick/deepの2系統LLMでGPU不要にした設計

バックテスト期間（2024年Q1）は近年屈指の強気相場だった。ただし論文の目玉テーブルは下落したAppleを含んでおり、地合い便乗だけでは説明できない結果もある

コストは封筒裏の概算で1銘柄1営業日あたり数ドル規模。o1-preview前提だった当時は重かったが、2026年の激安な推論モデルで「机上」から「現実解」寄りに動いた

はじめに#

LLMエージェントに株を売買させたら勝てるのか。素朴だが、多くの人が一度は気になる問いだと思う。

今回読んだのは、その問いに真正面から答えようとした論文だ。TradingAgents（arXiv:2412.20138）は、証券会社の運用チームの組織構造をそのまま模して、役割分担した複数のLLMエージェントに議論・協調させながら株式売買を判断させるフレームワークである^1。UCLA / MIT / Tauric Research の研究で、実装も公開されている^4。

論文はバックテストで「最良のベースライン戦略を6%以上上回った」と報告している。数字だけ見ると魅力的だ。ただ、この手の結果はそのまま鵜呑みにできない。私が気になったのは次の2点だ。

相場はそもそも良かったのか？ バックテスト期間の地合いが強気だったなら、勝てて当然かもしれない。逆に弱い相場で勝っていたなら、フレームワークが本当に優れている可能性が上がる。
いくらかかるのか？ LLMを大量に呼ぶ設計なら、料金次第で「実運用できる道具」か「論文の中だけの話」かが分かれる。

そこで本記事では、論文の技術要点を要約したうえで、バックテスト期間の相場とLLM呼び出しコストを追加で調べ、この2軸から「使えるのか、机上の話か」を考察する。先に私の結論を書いておくと：

研究としては明確に面白い。ただ性能数値は強気相場という地合いを割り引いて読むべきで、実運用可否はコストが握る。そしてそのコストは、2026年のいま急速に下がっている。

なお本記事は投資助言ではない。数値はいずれも限定条件下のもので、そのまま将来の成績を約束するものではない。

TradingAgentsとは — 証券会社を丸ごとエージェント化する#

著者らはまず、金融分野の既存LLMエージェント応用には2つの限界があると整理する^1。

現実的な組織モデリングの欠如 — 多くのフレームワークは単一タスクの性能に閉じていて、実際の運用チームにある役割間の相互作用や、確立された業務手順を再現できていない。
非効率な通信 — 自然言語のメッセージ履歴を主な通信手段にすると、会話が長くなるほど情報が欠落・劣化する「伝言ゲーム（telephone effect）」が起きる。

TradingAgentsは、この2点を (a) トレーディングファームを模した役割特化エージェント群と、(b) 構造化出力と自然言語対話を組み合わせたハイブリッド通信で解決しようとする。要は、うまく回っている人間の組織の形を借りてくる、というアプローチだ。

アーキテクチャ：7役割・5工程#

シミュレートされた運用チームの中に、7つの役割を定義する。各エージェントには固有の名前・役割・目標・制約に加え、専用のツールが割り当てられる。たとえばSentiment AnalystにはWeb検索・Reddit検索・X検索・センチメントスコア算出が、Technical Analystにはコード実行・技術指標計算が与えられる^1。

全体は5つの工程で連携する^1。

工程	担当	役割
I. アナリストチーム	Fundamentals / Sentiment / News / Technical	4種のアナリストが市場情報を並行収集・分析
II. リサーチチーム	Bull（強気）/ Bear（弱気）	複数ラウンドの討論でリスクとリターンを弁証法的に評価
III. トレーダー	Trader	分析を統合し、売買のタイミングと数量を決めて発注
IV. リスク管理チーム	積極 / 中立 / 保守の3視点	エクスポージャを監視し、ストップロスや分散でリスクを制御
V. ファンドマネージャー	Fund Manager	リスク管理チームの議論をレビューし、最終承認・実行

アナリストは4種に分かれる。Fundamental Analystは財務諸表や決算から本質的価値を評価して割安/割高を判定し、Sentiment AnalystはSNS投稿から短期の投資家行動を予測、News Analystはニュースやマクロ指標で地合いを捕捉、Technical AnalystはMACD・RSIなどの技術指標で価格パターンと出来高を分析する^1。

面白いのはII（リサーチ）とIV（リスク管理）で、ここだけは複数の視点を意図的にぶつけ合わせている。強気と弱気の2エージェントに討論させ、リスク管理では積極・中立・保守の3視点で監視する。人間の運用会議で「反対意見を必ず出す係」を置くのに近い発想だ。全エージェントはReActプロンプティング（推論と行動を交互に促す手法）に従って動く^1 ^2。

技術的な肝：ハイブリッド通信プロトコル#

このフレームワークで一番うまいと感じたのは通信設計だ。MetaGPTなどに着想を得て、エージェント間のやり取りを次のように使い分ける^1 ^3。

通常のやり取りは構造化レポート — アナリストとトレーダーは、構造化された報告書で知見を受け渡す。各エージェントは必要な情報だけをグローバルステートから直接クエリでき、長い会話履歴による情報の希釈・消失を避けられる。
自然言語は討論のときだけ — リサーチチームの強気/弱気の討論や、リスク管理チームの3視点の討論にのみ自然言語を使う。討論の結論はファシリテーターが要約して構造化エントリとして記録する。

「制御・明確さ・推論には構造化出力、討論・協調には自然言語」という切り分けだ。冒頭の「伝言ゲーム」問題を、通信路の設計そのもので抑えにいっている。

もう一つの実装上のポイントが、タスクの重さに応じてLLMを2系統使い分けることだ^1。

Quick-thinkingモデル（gpt-4o-mini, gpt-4o）— 要約、データ取得、表からテキストへの変換など、深く考えなくていい高速処理。
Deep-thinkingモデル（o1-preview）— 意思決定、根拠に基づく報告書作成、データ分析など推論集約的なタスク。

アナリスト・リサーチャー・トレーダーの推論はdeep、API/ツールからのデータ取得はquickが担う。実装はGPU不要でAPIクレジットだけで動く設計で、バックボーンモデルは差し替え可能とされている^1。この「GPU不要」は後のコスト考察でも効いてくる。

実験と結果#

バックテストの設定はこうだ^1。

期間：2024年1月1日〜3月29日。対象はApple, Nvidia, Microsoft, Meta, Googleなどの主要テック株。
ルックアヘッドバイアスの排除：各取引日で、その日までに入手可能なデータだけで判断する。
データ：ヒストリカル株価、各種ニュース、SNS投稿とセンチメント、インサイダー取引、財務諸表・決算、そして1銘柄あたり60種の技術指標。
ベースライン：Buy and Hold、MACD、KDJ+RSI、ZMR、SMAの5戦略。
評価指標：累積リターン（CR）、年率リターン（AR）、シャープレシオ（SR）、最大ドローダウン（MDD）。

結果（原論文Table 1の抜粋）は次の通り^1。

指標	AAPL	GOOGL	AMZN
累積リターン CR%	26.62	24.36	23.21
年率リターン AR%	30.5	27.58	24.90
シャープレシオ SR	8.21	6.39	5.60
最大ドローダウン MDD%	0.91	1.69	2.11
対ベースライン改善（CR%）	+24.57	+16.58	+6.10

TradingAgentsはサンプルした3銘柄で最低でも23.21%の累積リターンを達成し、最良ベースラインを6.1%以上上回った。MDDを2前後に抑えつつ高リターンを取る「バランス型」として位置づけられている^1。

ただし著者自身が脚注で重要な留保を付けている^1。

シャープレシオが異常に高い（SR > 3で「excellent」とされる経験則を大きく超える）点を、著者が自ら注意喚起している。
1予測あたり約11回のLLM呼び出しと20回超のツール呼び出しという計算コストの重さから、バックテストを3ヶ月に限定した。
検証期間中にプルバック（下落局面）がほとんど無かったことが、例外的に高いSRの一因と考えられる。

この最後の「プルバックがほとんど無かった」という一文が、冒頭で私が引っかかった相場の話に直結する。ここを追加で調べた。

考察1：この相場は「良かった」のか？#

結論から言うと、2024年Q1は近年屈指の強気相場だった。追加で調べた数字を並べる。

S&P500はQ1で+10.6%。2019年以来のQ1最高で、2四半期連続の2桁上昇という珍しい局面だった^5。
Nasdaq-100は+8.7%^6。
個別のテック株はさらに派手で、NVIDIAはQ1だけで**+82.5%**、Metaは約+37%、Microsoftは+12〜14%、Amazonは約+18%^7 ^8。

つまり著者の言う「プルバックがほとんど無かった」は控えめな表現で、実際にはテック株が一本調子で駆け上がった局面だ。この地合いでロング（買い）中心の戦略が高いリターンとSRを出すのは、ある程度は自然なことだと考えていい。性能数値は、この強気相場という下駄を履いている前提で読むべきだ。

当たり前ではあるが、注意すべき点も挙げておく。相場が良かったとしても、下手な判断で売買すればマイナスにもなる。地合いが追い風でも、そこで安定して勝ち切れているなら、意思決定の質そのものには一定の価値がある、という見方は成り立つ。

そして、ここからが面白いところだ。論文の目玉テーブルはAAPL / GOOGL / AMZNの3銘柄で、大暴騰したNVIDIAやMetaは主役に置かれていない。しかもそのApple（AAPL）は、Q1 2024にテック株の中で逆行し、中国でのiPhone販売懸念から約−11%下落していた^8。

GOOGL / AMZN … 強気相場が追い風。高リターンの一部は地合いで説明でき、ここは割り引いて読むべき。
AAPL … 逆に下落局面。それでもTradingAgentsは+26.62%のCRを出している。これは単なる地合い便乗では説明がつかない。

この非対称が、私にとってこの実験のいちばん示唆的な部分だった。もし全銘柄がNVIDIAのような爆騰株なら「ロングしていれば誰でも勝てた」で片付く。だが下落したAppleでプラスを取れているなら、少なくともタイミングや売り判断で何かしら効いている可能性がある。地合いの追い風と、それだけでは説明できない部分が、同じ表の中に同居している。

もちろん、たった3ヶ月・1銘柄あたり数十営業日の結果である以上、偶然の可能性は消せない。SRが8を超えるような数字は、期間の短さが生んだ「たまたま」を多分に含むと見るのが健全だ。それでも、下落局面でプラスという事実は、追試の価値がある結果だと思う。

考察2：いくらかかる？実運用できるのか#

もう一つの軸、コストを見積もる。論文が明示しているのは「1予測あたり約11回のLLM呼び出しと20回超のツール呼び出し」という回数だけで、トークン数は書かれていない^1。なので以下はあくまで封筒裏の概算だ。前提を明示しておく。

概算の前提（封筒裏計算）

「1予測」= 1銘柄・1営業日あたりの判断。11回のLLM呼び出しの内訳を、仮にdeep（o1-preview）5回／quick（gpt-4o-mini中心）6回とする
o1-preview 1呼び出し … 入力4,000トークン、出力3,000トークン（隠れ推論トークン込み）と仮定
単価はo1-preview = 入力$15 / 出力$60、gpt-4o-mini = 入力$0.15 / 出力$0.60（いずれも100万トークンあたり）^9

この前提で計算すると：

o1-preview 1呼び出し … 入力 4,000 × $15/1M ＝ $0.06、出力 3,000 × $60/1M ＝ $0.18 → 約$0.24/回
deep 5回で約$1.2。quick側（gpt-4o-mini）は1回あたり$0.001前後で、6回でも誤差レベル
→ 1予測（1銘柄1営業日）あたり、ざっくり$1〜2

o1-previewの隠れ推論トークンはもっと膨らむこともあるので、実際は1予測あたり数ドルに達する可能性もある。オーダーとして「1営業日あたり数ドル」と押さえておく。ここから規模感を出すと：

1銘柄を60営業日バックテスト … 約$90／銘柄
主要5銘柄まとめて … 数百ドル（＝数万円）規模のバックテスト
ライブ運用なら … 1銘柄あたり月$30〜45、10銘柄のポートフォリオで月$300〜450程度

ここで冒頭の「GPU不要」が効いてくる。GPUクラスタを抱える必要がなく、かかるのはAPIクレジットだけなので、資本規模が大きい人にとっては、この程度のコストは取引額に対して誤差だ。数百万〜数千万円を動かす人からすれば、月数万円のLLM代は十分ペイしうる。

逆に、数万円〜十数万円の少額を回す個人にとっては重い。月数百ドルのモデル代は、期待リターンをまるごと食い潰しかねない。同じフレームワークでも、元手の規模で「使える／使えない」がはっきり分かれる。

そして2026年のいま、この計算の前提そのものが変わりつつある。論文が使っていたo1-previewはすでに廃止され、後継の推論モデルは出力単価が当時の数分の1から1桁下まで下がっている。同じワークフローを回しても、deep側のコストが一気に軽くなる。当時「重すぎてバックテストを3ヶ月に絞った」というボトルネックは、モデル側の進化でかなり緩和された。長期・多資産での追試を阻んでいた最大の壁が下がった、という意味で、この研究は当時よりいま再現しやすくなっている。

まとめ#

最後にQ&A形式で整理する。

Q. これは本当に株で勝てるフレームワークなのか？ 現時点では「そう言い切れる根拠はない」が正直なところだ。バックテストは2024年Q1という強気相場・3ヶ月・大型テック株という限定条件で、著者自身がSRの高さと期間の短さに注意を促している。数字はかなり割り引いて読むべきだ。

Q. では価値のない研究なのか？ いや、明確に面白い。特に、下落したApple（−11%）でプラスのリターンを出している点は、地合いだけでは説明できず追試に値する。加えて、証券会社の組織構造をエージェントに写し取る発想と、「構造化レポート＋討論時だけ自然言語」という通信設計は、金融に限らずマルチエージェント全般に効く実装知だと感じた。

Q. 実際に使えるのか、机上の話なのか？ コストが握る。GPU不要でAPI代だけ、1銘柄1営業日あたり数ドル規模。大きな資本を動かす人には誤差、少額の個人には重い。ただしo1-preview廃止後の激安な推論モデルで前提が変わり、「机上」から「現実解」の側へ動いた、というのが2026年時点の私の見立てだ。

面白い研究であることは間違いない。次に見たいのは、下落局面を含む長期・他資産でのバックテストと、現行モデルで再計算したコストだ。

参考文献#

TradingAgents: Multi-Agents LLM Financial Trading Framework（arXiv:2412.20138, v7） https://arxiv.org/abs/2412.20138
ReAct: Synergizing Reasoning and Acting in Language Models（Yao et al., 2023） https://arxiv.org/abs/2210.03629
MetaGPT: Meta Programming for a Multi-Agent Collaborative Framework（Hong et al., 2024） https://arxiv.org/abs/2308.00352
TradingAgents 実装（GitHub, Tauric Research） https://github.com/TauricResearch/TradingAgents
13 Charts On the Q1 Stock Rally That Just Wouldn’t Quit（Morningstar） https://www.morningstar.com/markets/13-charts-q1-stock-rally-that-just-wouldnt-quit
When Performance Matters: Nasdaq-100 vs. S&P 500 Q1, 2024（Nasdaq） https://www.nasdaq.com/articles/when-performance-matters-nasdaq-100r-vs-sp-500-q1-2024
Nvidia Stock Soared 82.5% in the 1st Quarter of 2024（The Motley Fool） https://www.fool.com/investing/2024/03/30/nvda-stock-gain-first-quarter-2024-ai-stocks/
Microsoft, Apple, Meta and Amazon’s stocks are lagging the S&P 500 this year（Yahoo Finance） https://finance.yahoo.com/news/microsoft-apple-meta-amazon-stocks-090000790.html
OpenAI API Pricing（OpenAI 公式） https://platform.openai.com/docs/pricing/

はじめに#

TradingAgentsとは — 証券会社を丸ごとエージェント化する#

アーキテクチャ：7役割・5工程#

技術的な肝：ハイブリッド通信プロトコル#

実験と結果#

考察1：この相場は「良かった」のか？#

考察2：いくらかかる？ 実運用できるのか#

まとめ#

参考文献#

考察2：いくらかかる？実運用できるのか#