GPT-5.4 Thinkingを触ってみた。標準と拡張の違いを実験してみる

OpenAIが公開したGPT-5.4では、新たに「Thinkingモード」が追加された。
ユーザーがAIにどれだけ考えさせるかを選べる仕組みで、標準と拡張の2種類が用意されている。
今回はこのThinkingモードを実際に触り、論理問題、ルール処理、コード生成などで挙動を比較してみた。

Introducing GPT‑5.4 Designed for professional work ( Open AI )
https://openai.com/index/introducing-gpt-5-4

OpenAIが新たに公開した GPT-5.4 では、「Thinkingモード」が追加された。
UI上では次のように表示される。

GPT-5.4 で追加された「Thinkingモード」。標準と拡張が選べるようになっている。

いわば 「AIにどれだけ考えさせるか」 をユーザーが選べる仕組みだ。

ただ、こういう新機能はスペックを読むよりも、実際に触ってみるのが一番早い。
今回はいくつかのテストを投げて、挙動の違いを観察してみた。

Thinkingモードの第一印象
テスト① 論理パズル
テスト② 制約付き文章生成
テスト③ コード生成
テスト④ ルール処理（FizzBuzz拡張）
検証まとめ
実用的な使い分け
まとめ

Thinkingモードの第一印象

まず意外だったのはこれだ。

Thinkingモードでも、必ず長考するわけではない。

どうでもいい質問には、普通のChatGPTのように即答する。
必要なときだけ推論を使う「自動切り替え」になっているようだ。

以前の推論モデルのような

「毎回うんうん唸って待たされる」

というストレスはかなり減っている。

テスト① 論理パズル

次の問題を投げてみた。

A・B・Cの3人がいて
正直者は1人、残りは嘘つき。

A「Bは嘘つきです」
B「Cは嘘つきです」
C「AとBはどちらも嘘つきです」

結果

Thinking標準：正解
Thinking拡張：正解

どちらも Bが正直者 と回答。

思考時間は

標準：2〜3秒
拡張：4秒程度

差はほとんどなかった。

テスト② 制約付き文章生成

次の条件を与えた。

40文字以内
「春」「AI」「窓」を入れる
比喩を1つ入れる

生成例：

春の窓辺で、AIの声はやわらかな風のよう。

条件処理は正確。
標準と拡張の差はほぼ見られなかった。

テスト③ コード生成

次は実務寄りのテスト。

ブラウザで動くMarkdownエディタ（ライブプレビュー付き）
を HTML + JavaScript だけで生成させた。

結果はかなり分かりやすかった。

Thinking標準
→ JavaScript構文エラー
→ コンソールに

Unexpected token ')'

Thinking拡張
→ エラーなし
→ 完全に動作

コード生成では 拡張のほうが明確に安定している。

ChatGPT5.4 で実際にThinking拡張モードで生成したMarkdownエディタのキャプチャ画面

実際にThinking拡張モードで生成したMarkdownエディタ。
標準モードではJavaScriptエラーが発生したが、拡張モードでは問題なく動作した。

テスト④ ルール処理（FizzBuzz拡張）

次のルールを与えた。

3の倍数 → Fizz
5の倍数 → Buzz
7の倍数 → Bangを後ろに付ける

例

7 → 7Bang
21 → FizzBang

1〜30を出力させた結果

Thinking標準 → 途中で規則が崩れる
Thinking拡張 → 正解

拡張は 長いシーケンスでもルール保持が安定していた。

検証まとめ

今回のテスト結果をまとめるとこうなる。

タスク	Thinking標準	Thinking拡張
論理問題	○	○
制約文章	○	○
ルール処理	△	○
コード生成	△	◎

結論はシンプル。

Thinking拡張は「長く考えるモード」というより、ミスを減らすモードに近い。

内部で

生成 → 自己チェック

の工程が増えている可能性が高い。

実用的な使い分け

現時点での体感はこんな感じ。

Instant 5.3
→ 日常会話・軽い質問

Thinking標準
→ 調べ物・文章整理

Thinking拡張
→ コーディング・複雑な処理

特にコード生成では 拡張モードがかなり安心。

まとめ

GPT-5.4のThinkingモードは

「長考AI」

というより

必要なときだけ推論を使うスマートなAI

という印象だった。

そして拡張モードは

思考の深さよりも、回答の安定性を上げる機能

として働いている可能性が高い。

コーディング用途なら、
今のところ Thinking拡張が第一選択になりそうだ。