AIは賢くなった。
長文を読み、
コードを書き、
検索し、
計画を立て、
自らツールを呼び出す。
2026年、我々はついに「考え続ける機械」を手に入れたかのように見えた。
だが、その熱狂の裏側で、現場の技術者たちは奇妙な現象を観測し始める。
長編になると、AIは“まとめ始める”。
最初は鋭かった論考が、
後半になると急に抽象化し、
安全な言葉へ逃げ込み、
同じ構文を繰り返し始める。
Context 1M。
AgenticAI。
Long Reasoning。
華やかな言葉が並ぶ時代に、
なぜ人類は再び、
STOP
NEXT
CHECKPOINT
のような、
あまりにも原始的な制御へ戻り始めたのか。
本稿は、
「Prompt Engineeringは終わった」
と言われた時代に、
実は人類がより巨大な“制御工学”へ回帰していた過程を追う記録である。
- 序章 ─ Prompt Engineeringは、本当に死んだのか
- 第1章 ─ Prompt Engineeringは本当に終わったのか
- 第2章 ─ Context 1M ─ “全部読める”という幻想
- 第3章 ─ なぜLLMは長編になると“まとめ始める”のか
- 第4章 ─ STOP/NEXT ─ 古代プロンプト工学を再起動する
- 第5章 ─ AgenticAI ─ 現代Workflowは巨大STOP/NEXT機構だった
- 第6章 ─ Claude Code、Codex、Gemini ─ “制御思想”の違い
- 第7章 ─ ローカルLLM時代 ─ なぜ再び「編集者」が必要になったのか
- 最終章 ─ AIは賢くなった。だから人類は“制御”へ戻る
序章 ─ Prompt Engineeringは、本当に死んだのか
2025年後半から2026年にかけて、AI界隈では奇妙な空気が漂っていた。
「Prompt Engineeringはもう古い。」
そんな言葉を、我々は何度聞いただろう。
巨大化したコンテキストウィンドウ。
100万トークン級の長文脈処理。
Agentic Workflow。
MCP。
Memory Layer。
Tool Calling。
Reflection。
Planning。
LLMは、もはや単なるチャットボットではなくなった。
複数のツールを呼び出し、自律的に計画を立て、外部世界を参照しながら推論を進める、「半自律システム」へと変貌し始めていた。
それに伴い、かつて一世を風靡した「プロンプト職人」という存在は、どこか時代遅れのものとして扱われるようになった。
「モデル自体が賢くなった。」
「もう呪文はいらない。」
「これからはContext Engineeringの時代だ。」
確かに、それは間違いではなかった。
GPT-5.5世代やGemini系モデルは、かつてのLLMとは比較にならないほど安定している。
少々雑な指示を投げても、意図を汲み取り、それなりに筋の通った答えを返してくる。
2023年頃のLLMが、
- 指示を忘れる
- 途中で人格が崩壊する
- 急に詩を書き始める
- 「もちろんです!」しか言わなくなる
といった、不安定極まりない代物だったことを思えば、まさに別世界だ。
だが――。
現場で、本当に長大な生成を試みた人間たちは、次第にある違和感を覚え始める。
長編記事。
長大な仕様書。
複数章にまたがる技術解説。
マルチステップなAgent Workflow。
モデルは賢くなったはずなのに、なぜか後半になると「熱」が落ちる。
最初は勢いよく走っていた文章が、途中から急に“まとめ始める”。
抽象語が増える。
同じ構文を繰り返す。
「重要なのは〜」が増殖する。
何でもかんでも“文明的転換点”になる。
そして最後には、妙に整ってはいるが、どこか生命力を失った文章が残る。
これは、単なる文章生成の問題ではない。
LLMというシステムそのものが抱える、「長距離推論」と「状態維持」の問題が、長編生成という形で露出しているのだ。
興味深いことに、この問題に最初に気付いたのは、巨大GPUクラスタを抱えるAI企業ではなかった。
むしろ、
- ローカルLLM愛好家
- 小規模モデル利用者
- 長文生成を日常的に行う技術者
- Agent Workflowを泥臭く組んでいる開発者たち
だった。
彼らは、巨大コンテキストや派手なAgentデモの裏側で、実に古典的な手法へ回帰し始める。
STOP。
NEXT。
CHECKPOINT。
SECTION。
REVIEW。
一見すると、2023年頃の“古代プロンプト工学”にしか見えないそれらは、実際には極めて本質的な意味を持っていた。
それは単なる「分割出力テクニック」ではない。
LLMに対して、
- どこで止まるか
- 何を忘れてよいか
- 次に何へ集中するか
- どの状態を保持するか
を、人間側が能動的に制御するための「編集工学」だったのである。
そして皮肉なことに、
2026年現在、最先端のAgentic Workflowは、この“古代技法”を、巨大かつ複雑な形で再実装し始めている。
思考。
停止。
確認。
再開。
自己レビュー。
ツール呼び出し。
状態更新。
それらはすべて、
極論すれば「巨大化したSTOP/NEXT」に過ぎない。
本稿では、
この「忘れられたLLM制御術」の復活を追いながら、
- なぜPrompt Engineeringは死んだと言われたのか
- なぜContext巨大化だけでは問題が解決しなかったのか
- なぜAgent時代に“制御”が再重要化しているのか
- なぜ人類は再び“編集者”へ戻りつつあるのか
を、2026年現在のAI開発現場の空気感とともに描いていきたい。
これは単なるTips記事ではない。
AIが賢くなればなるほど、
人類は逆説的に「制御」という最も古典的な知性へ回帰していく。
その奇妙で興味深い時代の記録である。
第1章 ─ Prompt Engineeringは本当に終わったのか
2024年頃から、AI界隈では妙な“空気の変化”が起き始めていた。
それまで、LLMコミュニティの中心には常に「プロンプト」があった。
「こう書けば精度が上がる。」
「この順番で指示を書け。」
「役割定義を先頭へ置け。」
「CoTを入れろ。」
「Few-shotを混ぜろ。」
RedditやHacker Newsでは、毎日のように“最強プロンプト”が共有されていた。
まるで秘伝の呪文である。
実際、2023〜2024年初期のLLMは、そうした“外部からの矯正”なしには極めて不安定だった。
少し指示が曖昧になるだけで、
- 話題が逸れる
- 条件を忘れる
- 指示を無視する
- 急に人格が変わる
- 自信満々に嘘を吐く
といった挙動が頻発した。
当時のLLMは、
いま振り返ると驚くほど“脆い知性”だったのである。
だからこそ、人々はプロンプトを磨いた。
役割を与えた。
制約を書いた。
出力形式を固定した。
思考手順を明示した。
これは単なる小技ではなかった。
モデル内部へ直接アクセスできない以上、
人間が介入できる唯一の制御レイヤーが「プロンプト」だったからだ。
つまりPrompt Engineeringとは、
本来、
「知性を引き出す魔法」
ではなく、
「不安定な予測システムへガードレールを設置する工学」
だったのである。
だが、モデルの進化は、この空気を大きく変えていった。
GPT-4o。
Claude 3 Opus。
Gemini 2.x。
そして2026年世代のGPT-5.5系。
彼らは、以前とは比較にならないほど「空気を読む」。
多少雑な入力でも意図を補完し、
多少矛盾した要求でもそれっぽく整え、
長い会話でも一定の一貫性を保ち始めた。
この進化は、
ある種の“錯覚”を生み出した。
「もうプロンプト工学はいらないのでは?」
実際、2025年頃から、
海外AIコミュニティでは「Prompt Engineering is Dead」という言葉が流行し始める。
代わりに登場したのが、
- Context Engineering
- Workflow Design
- Agent Orchestration
- Tool Routing
- Memory Layer
といった新しいキーワード群だった。
つまり、
個々の“呪文”を工夫する時代は終わり、
AIが動く“環境そのもの”を設計する時代へ移行した、
というわけである。
これは半分正しく、半分間違っていた。
確かに、
現代LLMは昔ほど脆くない。
しかし、
だからといって「制御」が不要になったわけではない。
むしろ逆だった。
モデルが巨大化し、
長文脈化し、
自律化し始めたことで、
今度は“より高次の制御問題”が出現したのである。
その象徴が、
AgenticAIだった。
Agentは、
単に返答を生成するだけではない。
- 計画を立てる
- ツールを呼ぶ
- 外部検索する
- ファイルを読む
- 自己レビューする
- 修正する
- 再実行する
という、
複数ステップの状態遷移を行う。
ここで重要なのは、
この「状態遷移」が極めて壊れやすいという点だ。
実際、2025〜2026年の現場では、
“Agent疲れ”とも呼ぶべき現象が静かに広がっていた。
派手なデモは動く。
しかし実務へ持ち込むと、
- 無限ループ
- context肥大化
- 指示の自己上書き
- 古い情報への固着
- 余計な推論
- 無意味な検索
- 謎の自己修正
が頻発する。
つまり、
モデル単体は賢くなったが、
“システム全体”として見ると、
依然として極めて不安定だったのである。
ここで、
人々は奇妙な事実に気付き始める。
最新Agent Workflowの多くが、
実は極めて古典的な制御構造に依存していたのだ。
停止。
確認。
再開。
レビュー。
段階分割。
状態固定。
それは、
かつて“原始的プロンプト小技”として笑われた、
STOP/NEXT思想そのものだった。
違うのは、
それが単なるテキスト上のテクニックではなく、
巨大なWorkflowシステムとして再実装され始めたことだけである。
Prompt Engineeringは死んでいなかった。
人々が捨てたと思っていたものは、
実際には、
より巨大で、
より複雑な「制御工学」へ進化していただけだったのだ。
第2章 ─ Context 1M ─ “全部読める”という幻想
LLMの進化を語る上で、
2025年前後の最大のトピックは何だったか。
推論能力か。
マルチモーダル化か。
Agent化か。
もちろんそれらも大きい。
だが、開発者コミュニティに最も強いインパクトを与えたのは、
おそらく「コンテキストウィンドウの巨大化」だった。
数万トークン。
――長い。
十万トークン。
――かなり長い。
百万トークン。
――もう全部入るじゃないか。
そんな空気が、確かにあった。
かつてのLLMは、
“短期記憶の弱い天才”のような存在だった。
少し長い会話をすると前提を忘れ、
冒頭で決めたルールを破り、
仕様書を途中で読み飛ばし、
長文の後半では別人格になる。
だから人類は、
必死に“文脈圧縮”を行っていた。
必要部分だけ抜き出す。
要約する。
小分けにする。
段階化する。
これは初期LLM時代における、
ある種の「節約術」だった。
だがContext 1M時代の到来は、
その前提を根本から揺さぶった。
「全部入るなら、
もう分割しなくてよくないか?」
その発想は、
ある意味では自然だった。
人間だって、
関連資料をすべて机に広げたほうが安心する。
論文を書く時も、
設計レビューをする時も、
できるだけ多くの情報を見ながら考えたい。
だから開発者たちは、
巨大コンテキストへ熱狂した。
ソースコード丸ごと投入。
GitHub repo全体投入。
契約書束投入。
会話履歴全部投入。
そして実際、
短期的にはかなりの成果が出た。
以前なら破綻していた長文QAが成立し始め、
大規模コードベース解析も可能になり、
「LLMが全部読める」感覚が急速に広がっていく。
ここで、
AI界隈にはひとつの空気が形成される。
“Context solves everything.”
長文脈さえあれば、
人類はもうChunkingから解放される。
RAGも不要になる。
分割も不要。
要約も不要。
編集も不要。
全部入れて、
全部読ませればいい。
……だが現実は、
そこまで単純ではなかった。
興味深いことに、
コンテキストが巨大化するほど、
逆に奇妙な問題が目立ち始める。
モデルが、
“全部読んだ風”になるのだ。
これは非常に厄介な現象だった。
例えば、
100万トークンを投入しても、
モデルは確かに一部を参照している。
だが、
本当に重要な箇所を理解しているかというと怪しい。
むしろ、
- 冒頭
- 末尾
- 直近
- 強調部分
ばかりを拾い始める。
そして中間層の重要情報が、
静かに埋没していく。
後に「Lost in the Middle」と呼ばれる問題である。
これはかなり象徴的だった。
人類は、
「全部読める=全部理解できる」
と錯覚していた。
だが実際には、
情報量の増加は、
そのまま“注意散漫”も増幅する。
これは人間にも似ている。
机に資料を100冊積めば、
賢くなるわけではない。
むしろ、
どこを見るべきか分からなくなる。
LLMでも同じことが起きていた。
そしてさらに厄介なのが、
巨大コンテキストは、
“調査した気分”
を強烈に生み出すことだった。
モデルは、
大量情報を背景に持つことで、
非常に説得力ある口調になる。
それっぽい。
詳しそう。
全部読んでそう。
だが、
実際には重要部分を参照していないケースが普通にある。
これは2026年頃、
Agent界隈で深刻な問題になり始める。
Agentが、
- Web検索し
- ドキュメントを読み
- repoを解析し
- 長文脈を保持し
ている“ように見える”のに、
実際には:
- 表層だけ拾う
- 自己補完する
- 内部知識で埋める
- 「調査した空気」を生成する
現象が頻発したからだ。
ここで、
AI開発者たちは、
ある古典的事実を思い出す。
重要なのは、
「どれだけ読めるか」
ではない。
「どこへ注意を固定するか」
だったのである。
そしてその瞬間から、
世界は再び、
- Chunking
- Retrieval
- Checkpoint
- Review
- Step Execution
- Section Control
を真剣に再評価し始める。
つまり、
Context 1M時代とは、
「全部読める時代」ではなかった。
むしろ逆に、
“人類が再び『制御』の重要性を思い出した時代”
だったのである。
第3章 ─ なぜLLMは長編になると“まとめ始める”のか
ある時期から、
LLMを日常的に使っている人々の間で、
共通の“体感”が語られるようになった。
「最初は凄いんだけど、
後半になると急に雑になる。」
これは、
ベンチマークには現れにくい現象だった。
短いQA。
単発コード生成。
小規模要約。
そうしたタスクでは、
最新LLMは驚異的だった。
だが、
本当に長い生成をさせた瞬間、
別の顔が見え始める。
例えば:
- 長編技術記事
- 小説
- 長大仕様書
- 世界観設定
- multi-step planning
- Agent workflow
- repo全体解析
こうした「長距離走」では、
モデルは途中から妙な変化を起こす。
抽象語が増える。
“本質的には〜”が増える。
急に「重要なのは〜」を連発する。
そして最後には、
妙に整っているが、
どこか空気の抜けた文章が残る。
2025年頃、
ローカルLLM界隈では、
これを半ば冗談交じりに:
“まとめ始める病”
と呼ぶ人間すらいた。
実際、
かなり多くのモデルで観測される。
しかも面白いのは、
これは単なる“小型モデル問題”ではないことだった。
GPT系でも起きる。
Claudeでも起きる。
Geminiでも起きる。
程度差はある。
だが、
長文になるほど:
- narrative密度低下
- 語彙反復
- 論点圧縮
- 要約化
- 自己再利用
が増える傾向は、
かなり広範囲で確認されていた。
なぜこんなことが起きるのか。
ここで重要なのは、
LLMは本質的に:
「文章全体を設計している存在」
ではないという点だ。
LLMは、
極論すれば、
“次に来そうなトークン”
を、
ひたすら予測し続けている。
もちろん現代モデルは、
単純なMarkov連鎖とは比較にならないほど高度だ。
Attentionもある。
内部状態もある。
推論能力もある。
だが、
それでもなお、
根本は:
「局所的予測の巨大積層」
なのである。
ここで長編生成が始まると、
奇妙な問題が起きる。
モデルは、
“自分が過去に生成した文章”
にも引っ張られ始める。
これはかなり重要。
つまり長文になるほど、
モデルは:
- ユーザー指示
- 元資料
- 世界知識
だけでなく、
“自分自身の出力”
を強く参照し始める。
ここで自己循環が始まる。
例えば:
第1章で、
「文明的転換点」という表現を使う。
すると、
その言い回しが、
モデル内部で「安全な高確率表現」として固定される。
すると第3章でも使う。
第5章でも使う。
第8章でも使う。
やがて文章全体が、
“自分自身の癖”
に侵食され始める。
これは人間にも少し似ている。
長編を書いていると、
自分の定番表現へ逃げ始める。
だがLLMの場合、
その現象が極端に増幅される。
なぜならモデルは、
“統計的に安全な出力”
へ収束し続けるからだ。
ここで、
長文生成特有の「熱量低下」が起きる。
最初の数千トークンでは、
モデルはまだ:
- ユーザー意図
- テーマ
- 構造
- 新規性
へ強く注意を払っている。
だが、
生成が進むにつれ、
次第に:
“自分が直前に書いた安全パターン”
へ依存し始める。
すると文章は:
- 滑らか
- 安定
- 無難
- だが薄い
方向へ向かう。
これが、
多くの人が感じていた:
「後半で急にAI臭くなる」
現象の正体だった。
そして興味深いのは、
この問題が、
Context巨大化だけでは解決しなかったことである。
むしろ逆に、
巨大コンテキスト化は、
“自己循環”をさらに増幅するケースすらあった。
なぜなら、
モデルは:
- 過去出力
- 中途半端な推論
- 古い方針
- 既出表現
を大量に保持したまま、
次の推論へ進むからだ。
つまり、
長文脈化によって、
“ノイズごと長寿命化”
してしまったのである。
ここで、
現場の開発者たちは、
再び奇妙な技法へ戻り始める。
停止。
区切り。
再入力。
章分割。
状態固定。
つまり、
“自己循環を断ち切る”
ための工学である。
これは単なる出力整理ではない。
モデルが、
自分自身の統計的惰性へ落ち込む前に、
- 主題を再固定し
- 注意を再配置し
- 熱量を再点火する
ための、
極めて本質的な制御手法だった。
そしてその代表例こそ、
忘れられた古代技法――
STOP/NEXT
だったのである。
第4章 ─ STOP/NEXT ─ 古代プロンプト工学を再起動する
最初にそれを見た時、
多くの人間は笑った。
STOP。
NEXT。
たったそれだけである。
2026年のAI界隈は、
巨大Agentだらけだった。
MCP。
Multi-Agent。
Memory Layer。
Reflection Loop。
Autonomous Planning。
まるでAIが自律生命へ進化したかのような、
派手な概念が飛び交っていた。
そんな時代に、
「章ごとに止める」などという発想は、
あまりにも原始的に見えた。
だが、
実際に試すと、
空気が変わる。
これは非常に奇妙な体験だった。
例えば、
長編記事を一気生成させる。
するとモデルは、
最初こそ勢いよく走る。
だが途中から:
- 同型文反復
- 抽象逃げ
- 要約化
- narrative密度低下
- “まとめ始める病”
が発生する。
ところが、
章ごとに強制停止し、
=== END ===
で切り、
NEXTで再開させると、
突然“編集感”が生まれる。
導入が戻る。
章頭で空気を作り直す。
論点が再固定される。
そして何より、
文章に“熱”が戻る。
これは単なる印象論ではない。
実際、
多くのローカルLLM利用者が、
同様の現象を観測し始めていた。
一気書きより:
- 文字数増加
- 章密度向上
- 後半失速軽減
- narrative維持
- 語彙多様化
が発生する。
特に面白いのは、
“章の入り”だった。
一気書きでは:
「時代背景」
「技術的理由」
のような、
テンプレ構造になりやすい。
だがSTOP/NEXTを入れると、
モデルは章ごとに:
「この章は何を語るのか」
を再解釈し始める。
つまり:
「手書き帳簿から機械への移行期」
のような、
“章固有の意味付け”
が突然出始めるのである。
これはかなり示唆的だった。
なぜなら、
LLMは本来、
文章全体を鳥瞰して設計しているわけではないからだ。
モデルは、
巨大な連続生成の中で、
徐々に“統計的惰性”へ落ちていく。
安全な表現。
既出パターン。
高確率構文。
そこへ収束する。
STOP/NEXTは、
その惰性を強制的に切断する。
これは、
単なる分割生成ではない。
むしろ:
- 状態初期化
- 注意再配置
- 主題再固定
- narrative再点火
に近い。
言い換えれば、
“LLMへ編集呼吸を与える”
行為だったのである。
ここで興味深いのは、
現代Agent Workflowとの類似性だった。
最先端Agentは、
決して“無限思考”していない。
実際には:
THINK
STOP
TOOL CALL
WAIT
REVIEW
NEXT STEP
を、
ひたすら繰り返している。
つまり、
現代Agentの本質とは、
“巨大化したSTOP/NEXT制御”
なのである。
この視点に立つと、
2025〜2026年のAI界隈で起きていたことが、
急に別の景色に見えてくる。
人類は、
Prompt Engineeringを捨てたのではなかった。
むしろ逆に、
“より巨大なプロンプト工学”
へ移行していたのである。
違うのは、
制御対象が:
「単発出力」
から、
「状態遷移する知能システム全体」
へ拡張されたことだけだった。
そしてここで、
ひとつの皮肉が浮かび上がる。
Context 1M。
AgenticAI。
Long Reasoning。
それら最先端技術の根底で、
最後に効いていたのが:
「止まれ」
「次へ進め」
という、
極めて古典的な制御思想だったのである。
これは、
ある意味では当然なのかもしれない。
なぜなら、
計算機文明の歴史そのものが、
“制御”の歴史だからだ。
CPUも。
OSも。
RDBも。
ネットワークも。
すべては:
- どこで止めるか
- どこで同期するか
- どこで状態を固定するか
との戦いだった。
LLMだけが、
その宿命から逃れられるはずがなかったのである。
第5章 ─ AgenticAI ─ 現代Workflowは巨大STOP/NEXT機構だった
2026年現在、
AI業界で最も濫用されている言葉を挙げるなら、
おそらく“Agent”だろう。
AI Agent。
Autonomous Agent。
Agentic Workflow。
Multi-Agent System。
猫も杓子もAgentである。
そして奇妙なことに、
多くの人間は、
この“Agent”という言葉に、
半ば人格的なイメージを重ね始めていた。
「AIが考えて動く。」
「AIが自律的に仕事を進める。」
「AIが人間の代わりに判断する。」
確かに、
デモだけ見ればそう見える。
最近のAgentは派手だ。
Issueを読む。
コードを書く。
検索する。
レビューする。
修正する。
再実行する。
しかも、
それを“連続的”に行う。
初めて見た人間は、
かなりの確率で錯覚する。
「ああ、ついにAIが“自分で考え始めた”のか。」
だが、
現場レベルでAgentを触り込んだ人間ほど、
別の感想を抱き始める。
――これ、制御地獄では?
実際、
Agentシステムの現場は、
かなり泥臭い。
派手なデモの裏では:
- 無限ループ
- Context肥大化
- Tool暴走
- 指示自己上書き
- 不要検索
- recursive planning
- hallucinated task
との戦いが続いている。
これは当然だった。
Agentとは本質的に、
“状態遷移し続けるLLM”
だからである。
単発チャットなら、
多少暴走しても被害は限定的だ。
しかしAgentは違う。
ひとつの誤推論が、
次の行動を呼び、
次のcontextを汚染し、
その誤りがさらに次の推論を歪める。
つまり:
「推論ミスが時間方向へ累積する」
のである。
ここが重要だ。
従来のLLM問題は、
主に:
“1回の出力品質”
だった。
だがAgent問題は違う。
問題は:
“状態管理”
へ変化した。
すると突然、
計算機科学の古典問題が、
全部戻ってくる。
同期。
checkpoint。
rollback。
状態固定。
transaction。
retry。
validation。
まるでRDB文明史の再演である。
実際、
2025〜2026年のAgent界隈では、
かなり興味深い現象が起きていた。
表向きは:
「自律AI!」
「自己進化!」
「AI Employee!」
と盛り上がっている。
だが内部実装を見ると、
実際にやっていることは:
THINK
STOP
VERIFY
NEXT STEP
の超高速反復だった。
つまり、
Agentの本質とは:
“自由知能”
ではなく、
“制御された状態機械”
だったのである。
これはかなり重要な転換点だった。
なぜなら、
AI業界は長らく:
「モデルを賢くすれば全部解決する」
という幻想を持っていたからだ。
しかしAgent時代に入り、
ついに皆、
認め始める。
モデル単体の知能だけでは、
システムは安定しない。
必要なのは:
- 推論能力
- 状態制御
- 実行制御
- 文脈制御
- rollback
- 検証
- 分割統治
を含む、
“知能インフラ設計”
だったのである。
ここで、
STOP/NEXT思想が、
急に現代性を帯び始める。
あれは単なる:
「長文を分割する小技」
ではなかった。
むしろ:
“知能を安定化する最小単位”
だったのである。
これは、
OSで言えばschedulerに近い。
CPUは高速でも、
schedulerが壊れていればシステム全体は崩壊する。
同じように、
LLMも:
「推論能力」
だけでは不十分だった。
必要なのは:
“どこで止まり、
どこで確認し、
どこで次へ進むか”
という、
知能そのものの交通整理だったのである。
そしてここで、
人類は奇妙な立場へ戻される。
AIが賢くなればなるほど、
人間は不要になると思われていた。
だが実際には逆だった。
モデルが巨大化し、
Agent化し、
長文脈化するほど、
最後に必要になったのは:
「全体状態を俯瞰し、
適切なcheckpointを設計する存在」
だった。
つまり、
“編集者”
である。
AIは、
文章を書き始めた。
だが人類は、
再び“編集者”として復活し始めたのである。
第6章 ─ Claude Code、Codex、Gemini ─ “制御思想”の違い
2026年のAI界隈は、
表向きには「モデル性能競争」のように見えている。
ベンチマーク。
推論能力。
長文脈。
コーディング性能。
マルチモーダル性能。
だが、
実際に日常業務でAIを使い込んでいる人間たちは、
別のものを見始めていた。
それは、
“このAIは、どう制御されているか”
という思想の違いである。
同じLLMでも、
使い込むと“性格差”が出る。
これは単なる口調ではない。
推論の進め方。
contextの扱い方。
状態遷移の癖。
自己拡張欲求。
停止感覚。
つまり:
「知能の交通整理思想」
そのものが違うのである。
この差が、
2025〜2026年のAgent時代に入り、
急激に表面化し始めた。
例えばClaude系。
Claudeは、
非常に“善良”だ。
文脈を読み、
配慮し、
丁寧に進めようとする。
だがその反面、
長時間運用すると:
- 過剰推論
- 過剰補完
- 過剰計画
- recursive reflection
- “全部やろうとする”
傾向がかなり強い。
これは一見賢く見える。
実際、
短時間では非常に印象が良い。
だがAgent化すると、
突然別の顔を見せる。
止まらないのだ。
「より良くできるかもしれない」
という推論が自己増殖し始める。
結果として:
- token爆発
- context汚染
- workflow肥大化
- 無限review
へ落ち込む。
2026年頃、
一部界隈で:
“Agent疲れ”
という言葉が出始めた背景には、
この“自己拡張型推論”の問題があった。
特にClaude Code周辺では、
「勝手に巨大計画を始める」
という声がかなり観測されていた。
これはモデル性能というより、
“停止思想”の違いだった。
対してCodex系は、
かなり異質だった。
Codexは、
良くも悪くも:
「仕様を実行する」
方向へ寄っている。
過剰に人格化しない。
余計な理想化をしない。
勝手なロードマップを作りにくい。
もちろん欠点もある。
文脈的情緒や、
空気読みではClaudeほど滑らかではない。
だがその代わり:
- token予測可能性
- workflow安定性
- rollback容易性
- “作業感覚”
が強い。
これは、
かなりエンジニアリング寄りの思想だった。
つまり:
Claude系
= “思考を伸ばしたがる”
Codex系
= “状態を固定したがる”
のである。
この差は、
長時間運用やAgent化で急激に効き始める。
実際、
2026年の開発現場では:
「会話はGPT/Claude、
実装はCodex」
という分業構造が、
かなり自然発生していた。
これは性能差というより:
“制御しやすさ”
の問題だったのである。
そしてGemini系。
Geminiはまた独特だった。
Google的と言えばいいのか、
非常に:
“全部理解したがる”
傾向が強い。
巨大contextとの相性は良い。
長文を大量投入すると、
かなり自然に処理する。
だがその反面、
Gemini系では:
“全部読んだ空気”
問題が頻発した。
これは、
Context 1M時代特有の病でもある。
モデルが:
- 大量情報
- Web
- Docs
- 会話履歴
を抱え込むことで、
非常に説得力ある“全知感”
を出し始める。
しかし実際には:
- 中央部を見落とす
- 重要箇所を飛ばす
- 内部知識で補完する
- 「調査した雰囲気」を生成する
ことが普通に起きる。
つまり:
“巨大知識空間の自己補完”
が強い。
これはGoogle的検索思想と、
かなり近い。
興味深いのは、
これら全モデルが、
最終的には:
STOP
CHECKPOINT
REVIEW
NEXT STEP
へ回帰していくことだった。
つまり、
どれほどモデルが進化しても、
最後に必要になるのは:
「どこで止めるか」
なのである。
ここが、
2026年AI時代の、
非常に象徴的な風景だった。
AI業界は、
ずっと:
「どう賢くするか」
を競ってきた。
だがAgent時代に入り、
静かに主戦場が変わり始める。
本当に重要だったのは:
“どう止めるか”
だったのである。
そしてその瞬間、
かつて“原始的テクニック”として笑われた:
STOP/NEXT
が、
突然、
現代AI制御思想の核心へ戻ってくる。
人類は、
AIを自由にしたかった。
だが結局、
最後に必要になったのは:
「適切に停止できる知能」
だったのである。
第7章 ─ ローカルLLM時代 ─ なぜ再び「編集者」が必要になったのか
AI業界には、
定期的に「民主化」という言葉が現れる。
誰でも使える。
誰でも作れる。
誰でも知能を持てる。
2025〜2026年、
その“民主化”の象徴となったのが、
ローカルLLMだった。
かつて、
高性能LLMは巨大企業だけのものだった。
数千万円規模のGPUクラスタ。
巨大推論基盤。
分散推論。
高速インターコネクト。
個人が触れる世界ではない。
だが、
量子化技術と推論最適化が進み、
状況は一変する。
RTX3060。
中古GPU。
自宅PC。
小型ワークステーション。
そんな環境でも、
十分実用的なLLMが動き始めた。
これは、
単なる技術進歩ではなかった。
“知能のローカル化”
だったのである。
ここで重要だったのは、
ローカルLLM利用者たちが、
クラウドAIとは違う現実へ直面したことだ。
リソースが有限なのである。
VRAMは限られる。
contextも重い。
token生成も遅い。
推論も詰まる。
クラウドLLMのように、
裏側で巨大インフラが吸収してくれない。
つまり、
モデルの“素の癖”
が露骨に見え始める。
ここで、
多くのローカルLLM利用者が、
奇妙な発見をする。
「AIって、
放っておくとすぐ脱線するな……」
長文を書くと崩れる。
文脈が漂流する。
自己反復する。
勝手に総括する。
同じ比喩へ逃げる。
そして何より:
“推論リソースを無駄遣いする”。
これはかなり重要だった。
クラウドでは、
多少tokenを浪費しても、
「まあいいか」で済む。
だがローカル環境では違う。
推論とは、
電力であり、
時間であり、
VRAMであり、
冷却ファンであり、
現実の物理資源だった。
だからローカルLLM界隈では、
極めて現実的な視点が育ち始める。
「どうすれば、
少ないtokenで、
最後まで崩れずに走らせられるか?」
ここで、
再びSTOP/NEXTが復活する。
章ごと停止。
状態整理。
再入力。
Checkpoint。
Context圧縮。
これは単なる小技ではなかった。
むしろ:
“有限資源環境で知能を安定動作させるOS設計”
に近かったのである。
ここで、
非常に面白い逆転現象が起きる。
巨大クラウドAIは、
一見すると“完全自律知能”
に近づいているように見える。
だがローカルLLM界隈では、
逆に:
「人間がかなり細かく交通整理しないと、
AIはすぐ迷子になる」
という現実が、
極めて生々しく観測される。
そしてその結果、
ローカルLLM利用者たちは、
自然と“編集者”へ回帰していく。
これは、
2023年頃の:
「全部AIがやってくれる!」
という空気とは、
かなり違っていた。
むしろ逆である。
AIが強くなるほど、
人間側に要求されるのは:
- 文脈設計
- 状態管理
- workflow設計
- checkpoint配置
- 推論制御
だった。
つまり:
“編集能力”
なのである。
ここで、
AI時代の奇妙な逆説が現れる。
かつて人類は、
AIが発展すれば、
人間は“書かなくなる”
と思っていた。
だが実際には、
人間は再び:
- 構成を考え
- 流れを設計し
- 注意を制御し
- narrativeを維持し
- 状態遷移を整理する
役割へ戻され始めた。
つまり、
AI時代とは:
“人類総編集者時代”
の始まりだったのである。
これはある意味、
当然だったのかもしれない。
なぜなら、
知能とは本来:
「情報を生成する力」
だけでは成立しないからだ。
本当に重要なのは:
「どの情報を残し、
どの状態を維持し、
どこで切り替えるか」
という、
“制御”そのものだからである。
そしてその瞬間、
古代プロンプト工学は、
単なる懐古ネタではなくなる。
それは、
“有限資源環境で知能を運用するための、
極めて現代的な制御理論”
として、
再び姿を現し始めたのである。
最終章 ─ AIは賢くなった。だから人類は“制御”へ戻る
2023年頃、
人類はまだ、
LLMという存在をどう扱えばいいのか分かっていなかった。
だから人々は、
必死に“呪文”を探した。
「こう書けば賢くなる。」
「この順番で指示を書け。」
「あなたは世界最高の専門家です、と書け。」
いま振り返ると、
どこか滑稽にも見える。
だが、
あの時代の人間たちは真剣だった。
なぜなら、
当時のLLMは本当に不安定だったからだ。
少し気を抜けば脱線する。
指示を忘れる。
人格が変わる。
突然ポエムを書く。
だから人類は、
外側から必死に“制御”しようとしていた。
その後、
モデルは急速に進化した。
長文脈。
推論。
Agent。
Tool Use。
Memory。
Workflow。
AIは、
もはや単なるチャットボットではなく、
「状態を持って動き続ける知能システム」
へ変貌し始める。
そしてその瞬間、
人類は奇妙な事実に気付かされる。
問題は消えていなかった。
むしろ、
より巨大になって戻ってきたのである。
長文脈は、
“全部読める幻想”
を生み出した。
Agentは、
“自律知能幻想”
を生み出した。
だが現場では、
相変わらず:
- context汚染
- 長文劣化
- 無限ループ
- 自己反復
- state drift
- hallucinated workflow
との戦いが続いていた。
つまり、
AIは賢くなった。
だが、
“知能システムの安定運用”
という問題は、
何も終わっていなかったのである。
ここで、
人類は再び、
非常に古典的な場所へ戻っていく。
STOP。
NEXT。
CHECKPOINT。
REVIEW。
ROLLBACK。
STATE RESET。
それは、
2023年頃には、
“原始的プロンプト小技”
として扱われていたものだった。
だが2026年、
我々はようやく理解し始める。
あれは単なる小技ではなかった。
むしろ:
“知能を制御する最小単位”
だったのである。
興味深いのは、
AIが進化するほど、
人類の役割が:
「回答生成」
から、
「状態管理」
へ移動していったことだった。
AIが文章を書く。
AIがコードを書く。
AIが計画を立てる。
だがその一方で、
人間は:
- どこで止めるか
- どこで確認するか
- どこでcontextを切るか
- どこで状態を初期化するか
を考え始める。
これは、
ある意味では非常に人間らしい役割だった。
なぜなら、
文明そのものが、
常に“制御”との戦いだったからだ。
蒸気機関にも、
制御弁が必要だった。
CPUにもschedulerが必要だった。
RDBにもtransactionが必要だった。
ネットワークにもroutingが必要だった。
知能だけでは、
文明は動かない。
必要なのは:
“暴走しないこと”
だったのである。
そしてLLMもまた、
同じ宿命から逃れられなかった。
我々は、
AIがすべてを自律的に処理する未来を夢見た。
だが現実には、
AIが巨大化し、
複雑化し、
長文脈化するほど、
最後に必要になったのは:
「全体状態を俯瞰し、
適切に制御する存在」
だった。
つまり、
編集者である。
ここで、
古代プロンプト工学は、
突然まったく別の意味を持ち始める。
それはもはや:
「AIを賢く見せるコツ」
ではない。
むしろ:
“巨大知能システムを、
人類が扱えるサイズへ折り畳むための制御理論”
なのである。
そしておそらく、
これからのAI時代に本当に価値を持つ人間とは、
「最も賢い人」
ではない。
「最も大量の知識を持つ人」
でもない。
本当に重要になるのは:
- どこで止めるべきか
- どこで疑うべきか
- どこで分割すべきか
- どこで確認すべきか
を理解している人間だ。
AIは、
人類から「書く」という作業を奪い始めた。
だがその代わりに、
人類へ別の役割を返してきた。
それが、
“制御する知性”
である。
そしてその時、
2023年に笑われていた:
STOP
NEXT
という小さな言葉が、
実はAI文明そのものを支える、
極めて本質的な思想だったことに、
我々はようやく気付き始めるのである。



