ROCmの逆襲は始まるのか?AMD「Lemonade」がNPU対応ローカルAIの新基盤に

GPU一強から分散へ。ローカルAIの前提が変わり始めている TECH
GPU一強から分散へ。ローカルAIの前提が変わり始めている

NVIDIA一強──それがローカルAIの前提だった。

CUDAがあり、ツールがあり、情報もある。
「ローカルでAIを動かす」と言えば、実質的に選択肢は一つだった。

一方で、AMDのROCmは長く“あと一歩”の存在に留まっていた。
動くが不安定、対応も限定的。期待はされつつも、主役にはなれなかった。

しかし、ここに来て空気が変わり始めている。

AMDが投入した新しいローカルAI基盤──
それが「Lemonade」だ。

単なるツールではない。
CPU・GPU・そしてNPUまでをまとめて扱う、“次の前提”を提示してきた。

Lemonadeとは何か

Lemonade: Local AI for Text, Images, and Speech

Lemonade(レモネード)は、AMDが提供するローカルAI実行環境だ。

一言で言えば、
「ローカルでAIを動かすための“全部入りランタイム”」に近い。

従来のツールは、それぞれ役割が分かれていた。

  • Ollama:モデルを手軽に動かす
  • LM Studio:GUIでローカルAIを扱う

Lemonadeはそれらをまとめた上で、さらに一歩踏み込んでいる。

特徴は3つ。

  • OpenAI互換APIを備えたローカルサーバー
  • GUIとCLIの両対応
  • 複数の推論エンジンを統合

つまり、単なる「実行ツール」ではない。
アプリケーションから直接叩ける“基盤”として設計されている。

ここが、これまでのローカルAIツールとの決定的な違いだ。

何が新しいのか ─ “NPU対応”という変化

Lemonadeの本質は、機能の多さではない。
計算の前提を変えたことにある。

これまでのローカルAIは、ほぼGPU依存だった。
速く動かすならGPU、それ以外は妥協──そんな世界だ。

しかしLemonadeは違う。

CPU・GPUに加えて、NPU(Neural Processing Unit)を前提に組み込んできた。

これは単なる対応ではない。
「どこで計算するか」を分散する設計だ。


なぜNPUが重要なのか

NPUは派手ではない。だが、性質がまるで違う。

  • 低消費電力で動く
  • 常時稼働に向いている
  • ノートPCや小型デバイスでも使える

GPUが“瞬発力”なら、NPUは“持久力”だ。

これが意味するものはシンプルだ。

ローカルAIが「特別な環境」から「常設インフラ」に変わる


さらに重要なのは、役割の分担ができる点だ。

  • 重い推論 → GPU
  • 軽量処理 → NPU
  • 補助処理 → CPU

一枚岩ではなく、分業する世界


これは性能の話ではない。
運用の話だ。

ローカルAIが“試すもの”から
“回し続けるもの”に変わる。

Lemonadeが提示しているのは、そこだ。

Ollama / LM Studioとの違い

Lemonadeの立ち位置は、単体では見えにくい。
既存ツールと並べて初めて、その意味がはっきりする。


Ollama ─ 入口としての完成形

Ollamaは、とにかくシンプルだ。

  • コマンド一発でモデル起動
  • セットアップが速い
  • 情報も多い

「まず動かす」ための最適解

ローカルAIに触れる人の多くは、ここから入る。
いわば“入口”の役割を担っている。


LM Studio ─ 体験としての最適解

一方でLM Studioは、体験に寄っている。

  • GUIでモデル管理
  • 動作状況が見える
  • 試行錯誤しやすい

「触って理解する」ための環境

ローカルAIを“使い込む”段階では、こちらのほうが快適だ。


Lemonade ─ 基盤としての設計

そしてLemonadeは、そのどちらとも違う。

  • API前提で動くローカルサーバー
  • CPU / GPU / NPU を統合
  • アプリケーション連携を想定

「組み込むための基盤」

ここが決定的に異なる。


3つを一行で整理するとこうなる。

Ollamaは入口、LM Studioは体験、Lemonadeは基盤


この構図が見えた瞬間、理解が一気に進む。

Lemonadeは“便利ツール”ではない。
ローカルAIを動かすための“土台”を取りに来ている。

ROCmの現在地

ここまで読むと、「AMDついに来たか」と思うかもしれない。
だが、現実はもう少し地に足がついている。

ROCmは確かに進化している。
しかし、CUDAと同列に語れる段階にはまだない。


現実①:エコシステムの差は大きい

NVIDIAは長年かけて、

  • フレームワーク対応
  • ライブラリ整備
  • 開発者コミュニティ

を積み上げてきた。

一方でROCmは、

「動く環境が限られる」問題がまだ残る


現実②:ハマると深い

ROCmを触ったことがある人なら分かるが、

  • 環境構築で詰まる
  • バージョン依存が強い
  • ドキュメントが断片的

“素直に動かない”ケースがまだある


現実③:情報量が圧倒的に少ない

困ったとき、

  • CUDA → 解決策がすぐ見つかる
  • ROCm → 情報が散っている

これが実務では効いてくる


それでも無視できない理由

ここが重要だ。

これまでのROCmは、

「頑張れば使える」

という立ち位置だった。

しかし今回、Lemonadeのように

  • 実行環境をまとめ
  • APIを揃え
  • 入口を整備してきた

“使わせに来た”動きに変わっている


これは完成ではない。
だが確実に、

フェーズが一段上がった

なぜ空気が変わったのか

ROCm自体は、昨日今日始まったものではない。
それでも今、空気が変わったと感じるのには理由がある。

単なる性能の話ではない。
“戦い方が変わった”ことが大きい。


① バラバラだったものを“まとめてきた”

これまでのAMD環境は、正直に言えば分かりにくかった。

  • ROCm
  • 各種ライブラリ
  • 個別のツール

全部バラバラに存在していた

結果として、

「動く人は動くが、再現性が低い」

という状態だった。


しかしLemonadeは違う。

  • 実行環境
  • API
  • 推論エンジン

最初から“まとめて提供”している


これは大きい。

「使える人のツール」から「使わせるための基盤」へ


② GPU競争から一歩引いた

これまでAMDは、どうしてもNVIDIAと同じ土俵で戦っていた。

  • GPU性能
  • CUDA互換
  • フレームワーク対応

だが、その勝負は分が悪い。


そこで今回、軸を変えてきた。

NPUという新しいレイヤー


GPUの純粋性能ではなく、

  • 低消費電力
  • 常時稼働
  • 分散処理

“使い方”で勝ちに来ている


これは逃げではない。
戦場の再定義だ。


③ OpenAI互換APIという現実解

そしてもう一つ、極めて実務的なポイント。

OpenAI互換API


これにより、

  • 既存のツール
  • 既存のコード
  • 既存のワークフロー

ほぼそのまま流用できる


つまり、

「新しい環境だから作り直し」

ではない。

“そのまま差し替えられる可能性”がある


まとめると

今回の変化はシンプルだ。

  • バラバラ → 統合
  • GPU依存 → 分散処理
  • 独自仕様 → API互換

“実用に寄せてきた”


これが、空気が変わった理由だ。

実務でどう使うか

ここまで読んで、「面白そうだが何に使うのか?」と思うはずだ。
Lemonadeの価値は、実はこの一点に集約される。

“ローカルAIを常設インフラとして扱える”こと


① ローカルチャットボット

まず分かりやすいのがこれ。

  • 社内ナレッジ検索
  • 簡易QAボット
  • オフライン環境での利用

OpenAI互換APIを持つため、

既存のチャットシステムにそのまま差し込める


② OCR / ASRパイプライン

お前の領域だな、ここは。

  • OCR(画像→テキスト)
  • ASR(音声→テキスト)
  • 要約・整形

これらを組み合わせることで、

“ローカル完結のドキュメント処理ライン”が作れる


例えば:

  • PDF → OCR → 要約
  • 会議音声 → 文字起こし → 議事録化

全部ローカルで回る


③ バッチ処理・自動化

さらに重要なのがこれ。

  • 定期実行
  • ログ解析
  • データ整形

NPUの特性を活かすと、

“低負荷で回し続ける処理”が現実になる


これまでのローカルAIは、

  • 試す
  • 動かす

が中心だった。


しかしLemonadeの方向性は違う。

“回し続ける”ための設計


④ 小規模な社内AI基盤

クラウドを使わずに、

  • ローカルAPI
  • 社内ツール連携
  • セキュアなデータ処理

軽量な“社内AI基盤”が構築できる


この章の結論

Lemonadeの価値は、性能ではない。

「ローカルAIを業務に組み込める形にしたこと」

まとめ

NVIDIA一強の構図は、すぐには崩れない。

CUDAのエコシステムは依然として強く、
現時点での実用性も揺るがない。


だが、前提は変わり始めている。

  • GPU一極依存からの分散
  • NPUという新しい選択肢
  • ローカルAIの常設化

そしてAMDは、

その変化に合わせた“実行基盤”を出してきた


Lemonadeは完成されたツールではない。
ROCmもまだ発展途上だ。


それでも今回の動きは、これまでと違う。

「使えるかもしれない」から「使わせに来た」へ


これは逆襲ではない。


逆襲できる条件が、ようやく揃い始めた。


実際に触ってみた印象(簡易検証)

はじめに、私はAMDネイティブ環境ではないことを、お断りしておく。

Lemonadeのバックエンド設定画面、llama.cppはVulkanでGPU動作、他はCPU実行
llama.cppのみVulkanでGPU動作し、WhisperやStable DiffusionはCPUで動作していることが分かる

今回の検証では、すべてがCPUで動いているわけではなかった。

LLMは、llama.cpp の Vulkanバックエンドで動作しており、
体感ではQwen3-VL-4B使用時に、LM Studio上での速度と大差はなかった。

VulkanによるGPU推論が、現実的な選択肢になってきたと感じた瞬間だ。

一方で、

  • Whisper(音声認識)
  • Stable Diffusion(画像生成)

はCPU実行となっている。

つまり現在のLemonadeは、

「すべてをGPUで回す」のではなく、
「効果が高い部分だけGPUに載せる」

という構成を取っているように見える。

それでも、Lemonadeの魅力を垣間見ることはできた。
実際に触ってみると、面白い挙動がいくつか見えてくる。

チャットを使ってみての感想

LemonadeのチャットUI
LemonadeのチャットUI

マイクを押すと、Whisperが自動で導入され、即実行できる。
ユーザーは何の準備も必要ない。これは新鮮な感覚だ。
もっとも、デフォルトの Whisper Base の認識精度は高くないので、small以上をお勧めしておく。

一方で、Visionモデルはまだ不安定の模様。
Qwen3-VL-4BはVision対応として認識はされているが、ストリームエラーが発生した。

LemonadeでVision推論をやらせてみたが、ストリームエラーが発生
LemonadeでVision推論をやらせてみたが、ストリームエラーが発生

画像生成の感触

画像生成も試してみた。
環境が環境なので、モデルはSD-turbo(デフォルト)。
画像生成モデルに切り替えると、GUIが専用のものに切り替わる。
SD Forge のような複雑な設定は無理だが、最低限の設定変更が可能になっている。
アップスケーラーが入っているのには恐れ入ったw

Lemonadeの画像生成専用のUI
Lemonadeの画像生成専用のUI

現時点ではVulkan経由のGPU活用は限定的で、CPU実行となっていた。
512×512 / 4step で実測約2分程度となったが、参考まで。

ギョッとさせられたのは、DL可能なモデルにFlux-2などの重量級が含まれていたこと。
Vulkan対応のGPUでこれらが気軽に使えるのなら、AMDユーザーにとっての価値は絶大なものだろう。

Lemonadeの画像生成モデルの選択一覧
Lemonadeの画像生成モデルの選択一覧

OpenAI互換APIにも対応

Lemonadeはローカルサーバーとして動作しており、
http://localhost:13305/api/v1 以下にAPIエンドポイントを持っている。

今回試した範囲では、/models エンドポイントからロード済みモデルの一覧を取得できた。

返ってくる形式はOpenAI互換を意識したもので、

  • object: "list"
  • object: "model"
  • id によるモデル指定

といった構造になっている。

実際に取得できたモデルは以下の通り。

  • Qwen3-0.6B-GGUF
  • Qwen3-VL-4B-Instruct-GGUF
  • SD-Turbo
  • RealESRGAN-x4plus
  • Whisper-Base

興味深いのは、画像生成モデルだけでなく、
アップスケーラー(RealESRGAN)まで独立したモデルとして見えている点だ。

内部では複数のモデルを組み合わせて処理していることが分かる。

{"data":[{"checkpoint":"unsloth/Qwen3-0.6B-GGUF:Q4_0","checkpoints":{"main":"unsloth/Qwen3-0.6B-GGUF:Q4_0"},"composite_models":[],"created":1234567890,"downloaded":true,"id":"Qwen3-0.6B-GGUF","labels":["reasoning"],"object":"model","owned_by":"lemonade","recipe":"llamacpp","recipe_options":{},"size":0.38,"suggested":true},{"checkpoint":"Qwen/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M","checkpoints":{"main":"Qwen/Qwen3-VL-4B-Instruct-GGUF:Q4_K_M","mmproj":"Qwen/Qwen3-VL-4B-Instruct-GGUF:mmproj-Qwen3VL-4B-Instruct-F16.gguf"},"composite_models":[],"created":1234567890,"downloaded":true,"id":"Qwen3-VL-4B-Instruct-GGUF","labels":["vision"],"object":"model","owned_by":"lemonade","recipe":"llamacpp","recipe_options":{},"size":3.33,"suggested":true},{"checkpoint":"amd/realesrgan-x4plus:RealESRGAN_x4plus.pth","checkpoints":{"main":"amd/realesrgan-x4plus:RealESRGAN_x4plus.pth"},"composite_models":[],"created":1234567890,"downloaded":true,"id":"RealESRGAN-x4plus","labels":["esrgan","image"],"object":"model","owned_by":"lemonade","recipe":"sd-cpp","recipe_options":{},"size":0.064,"suggested":true},{"checkpoint":"stabilityai/sd-turbo:sd_turbo.safetensors","checkpoints":{"main":"stabilityai/sd-turbo:sd_turbo.safetensors"},"composite_models":[],"created":1234567890,"downloaded":true,"id":"SD-Turbo","image_defaults":{"cfg_scale":1.0,"height":512,"steps":4,"width":512},"labels":["image"],"object":"model","owned_by":"lemonade","recipe":"sd-cpp","recipe_options":{"cfg_scale":1.0,"height":512,"steps":4,"width":512},"size":5.2,"suggested":true},{"checkpoint":"ggerganov/whisper.cpp:ggml-base.bin","checkpoints":{"main":"ggerganov/whisper.cpp:ggml-base.bin","npu_cache":"amd/whisper-base-onnx-npu:ggml-base-encoder-vitisai.rai"},"composite_models":[],"created":1234567890,"downloaded":true,"id":"Whisper-Base","labels":["audio","transcription"],"object":"model","owned_by":"lemonade","recipe":"whispercpp","recipe_options":{},"size":0.142,"suggested":true}],"object":"list"}

なお、チャットAPIの完全な動作確認までは詰め切れていないが、
少なくともモデル一覧取得までは問題なく動作しており、
外部ツールとの連携を見据えた設計であることは間違いない。

総体的な感想

ファーストリリースとして見ると、このバランスは悪くない。

  • LLM → 高速(GPU)
  • 音声 → 安定(CPU)
  • 画像 → 動作確認レベル(CPU)

完璧ではないが、

「使える部分から実用に寄せている」設計

という設計思想がはっきり見える。

Lemonadeはまだ完成品ではない。
だが、「どの処理をGPUに載せるべきか」という判断を、すでに内部に持っている。

この一点だけでも、今後の伸びしろは十分に感じられる。


同時期にMicrosoftもローカルAI基盤を出してきている。
どうやら戦場は“モデル”ではなく“土台”に移ったようだ。

Foundry Local - Run AI Models Locally with Complete Privacy
Run AI models locally on your device. Foundry Local provides on-device inference with complete data privacy, no Azure su...