Qwen3.6全般調査 — エージェントコーディングに強い中国発OSS LLM

この記事について
Claude（Anthropic）との共同編集により作成されました。

要約

Qwen3.6は2026年3〜4月にリリースされたAlibaba製LLMシリーズ。オープンウェイト版（35B-A3B）とクローズドAPI版（Plus Preview）の2本立て。

Sparse MoEで総パラメータ35B・アクティブ3Bという計算効率の高い設計。

エージェントコーディングに特化しており、SWE-bench Verifiedで73.4という高スコアを達成（Gemma4-31B比+21pt）。

Thinkingモードがデフォルトオンで、会話をまたいでも推論コンテキストを保持する。

はじめに#

DeepSeekショックから約1年、中国発のオープンLLMがまた話題になっている。

2026年4月16日、Alibaba傘下のQwenチームがQwen3.6-35B-A3Bを公開した。Apache 2.0ライセンスで商用利用も可能な完全オープンウェイトモデルだ。リリースから数日で各種ベンチマークでの高スコアが報告され、特にエージェントコーディングの分野で注目を集めている。

この記事では触ってはいないが、公式ブログ・テクニカルレポート・各種ベンチマーク比較記事をもとにQwen3.6を全般的に調査した。

モデルラインナップ#

Qwen3.6には現時点で2つの系統がある。

モデル	種別	リリース日	コンテキスト長	ライセンス
Qwen3.6-35B-A3B	オープンウェイト（Sparse MoE）	2026年4月16日	262K〜約1Mトークン	Apache 2.0
Qwen3.6-Plus Preview	クローズドAPI	2026年3月30日	100万トークン	商用API

オープンウェイト版がメインの話題になっており、以下の記述は主にこちらを指す。

アーキテクチャの特徴#

Sparse MoE：35B総パラメータ・3Bアクティブ#

Qwen3.6-35B-A3Bの「A3B」は Activated 3B（推論時のアクティブパラメータが約3B）を意味する^1。

通常の密なTransformerは全パラメータを使って推論するが、MoE（Mixture of Experts）はトークンごとに必要な「専門家」モジュールだけを活性化する。Qwen3.6はこの設計で35Bの知識を持ちつつ、推論コストは3B相当という効率を実現している。

Qwen3（2025年）の235B-A22BモデルもMoEだったが、Qwen3.6はさらに小型アクティブパラメータで高い性能を狙った設計になっている。

マルチモーダル対応#

テキストだけでなく画像・動画も入力できるビジョン言語モデル（VLM）になっている。前世代のQwen3はテキスト中心だったため、この点は大きな進化だ^2。

Thinkingモードのデフォルト化と保持#

Qwen3で導入された「ThinkingモードとNon-thinkingモードの統合」がQwen3.6でもベースにある。Qwen3.6ではThinkingモードがデフォルトでオンになっており、さらにThinking Preservationという機能が追加された^3。

これは複数ターンの会話にまたがって推論コンテキスト（thinking context）を保持する仕組みで、エージェントとして長期的なタスクを処理する際に有効に働く。

長コンテキスト#

ネイティブで262,144トークン（約20万字超）のコンテキスト長を持ち、YaRNスケーリングを使えば約100万トークンまで拡張できる^1。長いコードベースや大きなリポジトリを丸ごと渡すユースケースに対応している。

ベンチマーク#

コーディング系（強みの核心）#

ベンチマーク	Qwen3.6-35B-A3B	Gemma4-31B
SWE-bench Verified	73.4	52.0
SWE-bench Multilingual	67.2	51.7
SWE-bench Pro	49.5	35.7
Terminal-Bench 2.0	51.5	42.9
QwenWebBench（内部）	1397	—

SWE-benchはGitHubのIssueをAIが自動で解く難しいベンチマークで、実際のソフトウェアエンジニアリング能力を測る指標として注目されている。73.4というスコアはオープンソースモデルとしてはトップクラスの水準だ^4。

QwenWebBenchはAlibaba内部のフロントエンドコード生成ベンチマーク（7カテゴリの日中バイリンガル評価）で、前世代のQwen3.5シリーズと比較して大幅なスコアアップを達成している^2。

推論・汎用能力#

ベンチマーク	スコア
AIME 2026（数学オリンピック）	92.7
GPQA Diamond（大学院レベル科学）	86.0

AIME 2026で92.7、GPQA Diamondで86.0というスコアは、35Bクラスのモデルとして非常に高い水準にある^5。Thinkingモードによる多段階推論が数学・科学の難問で威力を発揮している。

Qwen3.5からの進化ポイント#

「コーディングエージェントに振っただけ」かと思いきや、アーキテクチャと推論品質にも変化がある。

1. Over-thinkingの改善#

Qwen3.5は推論トークンを使いすぎる傾向（over-thinking）が指摘されていた。3.6 Plusで比較したところ、推論トークンを約515削減しつつ出力量は増え、品質も向上している^7。

「考えすぎて遅い・長い」という実用上の不満が改善された形で、エージェントとして使うときの応答速度・コスト効率に直結する点だ。

2. ハイブリッドアーキテクチャの採用#

Qwen3.5はSparse MoEをベースとしていたが、Qwen3.6 Plus（クローズドAPI版）ではGated Delta Networks と Sparse MoE を組み合わせたハイブリッドアーキテクチャが採用されている^7。

Gated Delta Networksは線形アテンション系の効率的なシーケンスモデルで、長コンテキストの処理スループット向上に寄与するとされる。オープンウェイトの35B-A3BがこのアーキテクチャをそのままPlusと共有しているかは明確ではないが、設計思想は共通している。

3. Thinking Preservationの追加#

Qwen3.5にはなかった機能として、preserve_thinkingパラメータが追加された^7。エージェントワークフローで推論過程（chain-of-thought）を会話履歴に保持できる。

単発の応答ではなく、複数ステップにわたるタスク（リポジトリ調査→修正→テスト、など）でAIが「前の考えの続き」として推論できるようになる。

まとめると#

観点	Qwen3.5	Qwen3.6
推論トークン効率	Over-thinking傾向あり	削減・改善
アーキテクチャ	Sparse MoE	Gated Delta + Sparse MoE（ハイブリッド）
Thinking保持	なし	`preserve_thinking`で対応
コーディング性能	QwenWebBench 978（3.5-35B-A3B）	1397（3.6-35B-A3B）
マルチモーダル	Omniモデルで音声・動画対応	画像・動画対応（音声は3.6でなし）

コーディング特化だけでなく、「推論の質と効率」というモデル全体の地力が上がっている印象だ。

強みのまとめ#

Qwen3.6の強みを一言で言うと「エージェントコーディングに振り切った効率特化モデル」だ。

1. コーディングエージェント能力がオープンソース最高峰 SWE-bench Verifiedの73.4はGemma4-31Bを21ポイント上回り、プロプライエタリモデルに迫る水準。リポジトリ規模の理解とフロントエンド開発に特に強い。

2. アクティブパラメータ3Bという計算効率 実質的な推論コストは小型モデル並みでありながら、35Bの知識を引き出せる。自前のGPUでも動かしやすく、NVIDIAやAMDが公式にDay 0サポートを表明している。

3. 長コンテキスト×マルチモーダル 262K〜1Mトークンの長コンテキストに加え、画像・動画も扱える。コードベース全体を与えてデバッグさせるようなユースケースに向いている。

4. Thinkingモード常時オン 推論過程を保持しながら会話できるため、複数ステップにわたるエージェントタスクに強い。

触ってないので正直なところ#

本記事は調査ベースで、実際にQwen3.6-35B-A3Bを動かしてはいない。ベンチマーク数字は公式・第三者報告からの引用であり、「自分のユースケースで本当に使えるか」はやってみないとわからない。

ローカルで動かすなら35B（アクティブ3B）なので、量子化すれば一般的なGPUでも動作するはず。OllamaにもQwen3.6のエントリが上がっており^6、試しやすい環境は整ってきている。

まとめ#

Qwen3.6は「エージェントコーディングに特化したオープンソースMoE LLM」として、2026年4月時点でオープンモデル最高水準のコーディング性能を持つ。特にSWE-benchスコアは既存オープンモデルを大きく引き離しており、コーディングエージェントを自前で構築したい用途では有力な選択肢になりそうだ。

触ってみた感想は別途書きたいところ。

参考文献#

Qwen/Qwen3.6-35B-A3B（Hugging Face） https://huggingface.co/Qwen/Qwen3.6-35B-A3B
Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All（Alibaba Cloud Blog） https://www.alibabacloud.com/blog/qwen3-6-35b-a3b-agentic-coding-power-now-open-to-all_603043
Qwen3.6-Plus Preview — buildfastwithai https://www.buildfastwithai.com/blogs/qwen-3-6-plus-preview-review
Qwen3.6-35B-A3B: 73.4% SWE-Bench, Runs Locally — buildfastwithai https://www.buildfastwithai.com/blogs/qwen3-6-35b-a3b-review
Qwen3.6-35B-A3B Complete Review — DEV Community https://dev.to/czmilo/qwen36-35b-a3b-complete-review-alibabas-open-source-coding-model-that-beats-frontier-giants-4382
Qwen3.6（Ollama） https://ollama.com/library/qwen3.6
Qwen 3.5 Plus vs Qwen 3.6 Plus: We Tested Both on Qubrid AI — Qubrid https://www.qubrid.com/blog/qwen-3-5-plus-vs-qwen-3-6-plus-we-tested-both-on-qubrid-ai-here-s-what-changed