
3行でわかる今回のニュース
- Anthropicが「Claude Opus 4.6」を発表 — エージェント型コーディングに特化した新フラッグシップ
- コンテキスト1Mトークン、出力128Kトークン — 企業の全コードベースを一度に分析可能
- ARC-AGI-2スコアが37.6%→68.8%に倍増 — 抽象推論能力が大幅向上
もうちょっと詳しく
なにがすごいの?
これまでのAIは「質問に答える」のが得意でした。でもOpus 4.6は「自分で考えて、自分で実行する」タイプ。いわゆるエージェント型AIです。
具体的には:
- 大規模なコードベースを丸ごと読み込んで理解
- 複数のAIが並列でコードレビュー(Agent Teams機能)
- 長時間タスクでもコンテキストを圧縮して継続
数字で見る進化
| 項目 | Opus 4.6 | Opus 4.5 | GPT-5.2 |
|---|---|---|---|
| コンテキスト | 1M tokens | 200K | 128K |
| 出力 | 128K tokens | 64K | 32K |
| 価格 (入力/出力) | $5/$25 | 同じ | $2/$10 |
価格はGPT-5.2の2.5倍ですが、「1回で終わる作業を何度もやり直さなくていい」なら元は取れそうです。
ARC-AGI-2ってなに?
「人間には簡単だけどAIには難しい」抽象推論テスト。暗記じゃ解けない問題ばかりで、本当の「考える力」を測ります。
37.6%→68.8%は誤差じゃなくて、本当に能力が上がった証拠。
日本の開発現場への影響
Xcode 26.3でネイティブ対応
- iOSアプリ開発のワークフローが変わる
- エージェントがコードを書いて、人間がレビューする時代へ
エンタープライズ利用
- 1Mコンテキスト → 企業の全コードベースを一度に分析可能
- 法務・財務の大量ドキュメント処理にも
コスト試算
- 1日10万トークン使用 → 月$15程度
- 大規模利用(1日1Mトークン)→ 月$150程度
試してみたいポイント
- Agent Teamsで並列コードレビュー
- 1Mコンテキストに全コード入れて限界テスト
- GPT-5.2との実用比較(同じタスクでコスパ検証)
まとめ
「AIがコードを書く」のは既に現実ですが、Opus 4.6は「AIが開発プロジェクトを回す」レベルに近づいた感があります。
今すぐ全部入れ替える必要はないけど、「AIが同僚になる」前提で開発プロセスを見直す時期かもしれません。
まずは小さなプロジェクトで試してみるのがおすすめです。
