Tinker（LLM学習API）は業務で使えるか？調査・検討してみた

この記事について
Claude（Anthropic）との共同編集により作成されました。

要約

TinkerはThinking Machines Labが出したクラウドベースのLLM学習API。インフラは丸投げ、学習ループはフルコントロールという設計が特徴

個人開発・Kaggle・公開データセットでの実験用途には、GPU調達不要・従量課金・豊富なレシピ揃いで現時点でかなり良い選択肢

日本企業の業務ワークロードへの本格採用は「データ外部送信」「サービスの歴史の浅さ」が壁。現状のまま社内承認を通すのは難しい

料金はper Million Tokenベースで他社比較でも競争力あり。AWSなど閉域環境への統合が実現すれば、エンタープライズ採用の余地は一気に広がる

はじめに#

LLMのポストトレーニング（SFT・RL）を個人で試したいとき、選択肢は大まかに2つある。GPU環境をセルフで用意するか、マネージドAPIを使うかだ。

セルフホストは自由度が高いが、前準備が重い。GPUの調達コスト、CUDA環境の構築、DeepSpeedやFSDPを使った分散学習の設定、ハードウェア障害への対応 — これをひとりで抱えると、肝心のアルゴリズム実験に至る前にかなりの時間が消える。

マネージドAPIの代表は長らくOpenAI Fine-tuning APIだったが、あれはブラックボックス型で、ハイパーパラメータをいくつか渡したら学習ジョブが走るだけだ。カスタムロス関数もRLも書けない。

2025年末にGAしたTinkerは、この両者の隙間を狙ったサービスに見える。「インフラ管理は丸投げ、でも学習ループはフルコントロール」という設計だ。

使えるかどうか、業務利用の観点から検討した。先に結論を書いておくと：

個人・PoC・公開データ系には今すぐ使えるレベル。日本企業の本番ワークロードへの本格採用は現状では条件付き。

Tinkerとは何か#

Tinkerを開発したThinking Machines Labは、OpenAI元CTOのMira Muratiが2025年2月に設立したAIスタートアップだ。共同創業者にはOpenAI共同創業者のJohn Schulman、元VP of ResearchのBarret Zoph、Lilian Wengらが名を連ねる^2。設立後5ヶ月で$2B（約3,000億円）を調達、評価額は$12Bに達している^2。

Tinker自体は2025年10月にプライベートベータ、同年12月に一般公開（GA）されたLLM学習APIだ^3 ^4。

何ができるか#

Tinkerの学習APIは4つのプリミティブに集約されている^1。

API	役割
`forward_backward`	データとロス関数を受け取り、勾配を計算・蓄積する
`optim_step`	蓄積された勾配でモデルの重みを更新する
`sample`	学習中のモデルからテキストを生成する
`save_state` / `save_weights`	重みとオプティマイザ状態を保存する

ユーザーはCPUのみのローカルマシンでPythonスクリプトを書く。データセット処理・ロス関数・学習ループを定義したら、API経由でGPUクラスタ上に処理を投げる。インフラ側の分散学習・障害対応はTinkerが処理する^1。

対応モデルはLlama / Qwen3 / DeepSeek / Kimi K2（1T+パラメータ）など28以上、1B〜1T+のDense・MoE両対応だ^4。学習方式はLoRAのみで、フルファインチューニングには対応していない^1。

組み込みロス関数は cross_entropy（SFT）、ppo / importance_sampling / cispo / dro（RL系）、そして任意のカスタムロスを記述できる forward_backward_custom の6種類が揃っている^1。

何が嬉しいのか — 設計思想と料金感#

「研究者が望んでいたもの」を出してきた#

既存のマネージドファインチューニングサービスが「ハイパーパラメータを渡せばジョブが走る」という設計なのに対して、Tinkerは低レベルプリミティブを直接操作できる。カスタムロス関数、独自の報酬関数、非標準の学習スケジュール — 研究レベルの実験が、セルフホストGPU環境なしに回せる^1。

SFT・RL（GRPO/PPO/RLHF）・蒸留・マルチエージェントRLなど15以上の実装レシピをまとめたTinker Cookbookもオープンソースで提供されている^6。ゼロから実装しなくてよいのは個人実験者にとって大きい。

料金は素直に安い#

料金体系は従量課金（per Million Tokens）で、Prefill / Sample / Train の3区分だ^5。2026年5月にTinker Consoleで確認した例：

モデル	サイズ	Train料金
Qwen3.6-35B-A3B（MoE）	35B総、3Bアクティブ	$1.07 / MTok

他社との比較^7：

サービス	モデル	Train料金
Together AI	Llama 3.1 70B（LoRA）	$1.50 / MTok
OpenAI	GPT-4.1	$3.00 / MTok

35BパラメータのMoEモデルで$1.07、学習ループのフルコントロールつきでこの価格帯は競争力がある。MoEはアクティブパラメータ数で課金されるためコスト効率がさらに高い^5。

個人開発者・Kaggle・公開データには今すぐ使える#

GPU調達コストが消える#

個人がSFTやGRPOを試したいとき、最大の障壁はGPUだ。H100/A100をクラウドで借りると月数万〜十数万円になる。Tinkerを使えばこの固定費が消え、実際に使った計算量だけ払えばよい。

月$2,000（約30万円）以下の学習ワークロードでは、セルフホストGPUよりAPIのほうがコスト効率が良いとする分析もある^8。個人〜小チームの実験規模であればTinkerが経済的に優位に立ちやすい。

データ外部送信が問題にならないケース#

公開データセット（HuggingFace Hub、Kaggleデータセット等）を使う場合、データをTinkerのクラウドに送ることは問題にならない。もともとオープンなデータだからだ。Kaggle上のコンペやベンチマーク検証では、Tinkerはかなり手軽な学習基盤になる。

数学推論やコード実行など、ベリファイアブルな報酬関数を使ったRLVR実験とも相性がよい。Tinker Cookbookには数学RL・コードRLの実装がそのまま入っているので、論文のアイデアを素早く試すのに向いている。

ただし、日本企業の業務利用には壁がある#

壁1：データの外部送信#

業務ワークロードで使うデータ — 社内文書、顧客データ、取引情報 — をTinkerのクラウドに送信する必要がある。これはほとんどの日本企業のコンプライアンス審査で引っかかる。

機密データの取り扱いについて、Tinker公式ドキュメントに明示的な暗号化仕様やデータ保護ポリシーの記載を確認できなかった。これも審査上のリスク要因になる。

壁2：サービスの歴史が浅い#

2025年10月ローンチで、GA（ウェイトリスト撤廃）が2025年12月だ。SLA実績・障害対応の履歴・長期サポートの確約 — これらが十分に蓄積されていない。

「Thinking Machines LabというOpenAI出身者が作ったスタートアップのクラウドAPIを、社内の重要なモデル学習基盤として採用する」という意思決定は、社内の情報システム部門やリスク管理の承認を通すのが現実的に難しい。スタートアップの存続リスクも考慮に入る。

壁3：デバッグがブラックボックス#

分散学習の実行部分はTinker側にある。NaNが出た、勾配が爆発した、というときに、セルフホストなら nvidia-smi を眺めたりログを掘ったりできるが、Tinkerでは難しい。学習の不具合が生じたとき、原因の切り分けが困難になりうる。

壁4：LoRAのみ#

フルファインチューニングには非対応だ。LoRAで十分なユースケースが多いのは事実だが^1、ドメイン適応が深い場合や事前学習の延長を行いたい場合には対応できない。

これらを総合すると、現状のTinkerをそのまま日本企業の本番ワークロードに使うのはハードルが高い。

閉じた環境への移植が起きたら状況は変わる#

Tinkerが現在持っている壁の最大のものは、データを外部クラウドに送らなければならない点だ。逆に言えば、ここさえ解決されれば料金・操作性は十分に競争力がある。

想定される変化のシナリオ：

クラウドプロバイダとの統合: AWS SageMakerや Azure Machine Learning、Google Vertex AI 上でTinker相当のAPIが動く形になれば、既存のVPC・PrivateLink・IAM管理の枠内に収まる。既存の承認フローを使えるので企業採用のハードルが劇的に下がる
Tinker側のプライベート接続対応: VPCエンドポイントやプライベートリンクが提供されれば、インターネット経由の送信を回避できる

ただし大規模ワークロードの話は別だ。月$5,000を超えるような継続的な大規模学習では、ベアメタルGPU等のセルフホストが40〜70%のコスト削減になるとの分析がある^8。Tinkerのスイートスポットは個人〜中規模PoC層であり、大規模な継続学習を抱える組織にはセルフホストの方が経済的になる。

日本企業でも、PoC・社内技術検証フェーズで公開データを使って試すという文脈であれば、今でもTinkerは選択肢に入る。本番移行をセルフホスト前提で設計し、アルゴリズム検証だけTinkerで回す、という切り分けは現実的だ。

まとめ#

Q. Tinkerは業務で使えるか？ 個人・PoC・公開データ系の実験用途には今すぐ使えるレベル。日本企業の本番ワークロードへの本格採用は「データ外部送信」と「サービス成熟度の浅さ」が現状の壁で、条件付きになる。

Q. 料金感はどうか？ per Million Tokenベースで他社比較でも妥当〜安い。MoEモデルはアクティブパラメータ数課金でさらにコスト効率が高く、月$2,000以下の実験規模ではセルフホストより経済的になりやすい。

Q. 今後の見通しは？ AWSなどの主要クラウドに閉域環境が整備されれば、エンタープライズ採用の余地は一気に広がる。現時点でのTinkerの最大のユーザーは個人開発者や研究者だが、インフラが閉じればその次の層が動く。

個人開発者にとってはすでに「インフラなしで本格的なLLM学習実験ができる」という点で、かなり良い選択肢になっていると思う。GPU環境の準備で詰まったことがある人は、試してみる価値がある。

参考文献#

Tinker公式ドキュメント — Tinker: a training API for researchers and developers https://tinker-docs.thinkingmachines.ai/tinker/
Built In — Inside Thinking Machines Lab, Mira Murati’s New AI Startup https://builtin.com/articles/what-is-thinking-machines-lab
Thinking Machines Lab — Announcing Tinker https://thinkingmachines.ai/blog/announcing-tinker/
Thinking Machines Lab — Tinker: General Availability and Vision Input https://thinkingmachines.ai/news/tinker-general-availability/
Tinker公式ドキュメント — Models & Pricing https://tinker-docs.thinkingmachines.ai/tinker/models/
Tinker Cookbook GitHub https://github.com/thinking-machines-lab/tinker-cookbook
Awesome Agents — Fine-Tuning Costs Comparison https://awesomeagents.ai/pricing/fine-tuning-costs-comparison/
KickLLM — Open Source vs API: LLM Break-Even Analysis for 2026 https://kickllm.com/research/open-source-vs-api.html