以前、
私は Stability AI の「Stable Audio Open」を試したことがある。

当時の感想は、
かなり率直に言えば、
「惜しい」
だった。
確かに、
ローカル環境で動くオープンな音楽生成モデルというだけで、
当時は十分に衝撃的だった。
しかも RTX3060クラスでも動作する。
しかし実際に触ると、
かなり癖が強かった。
出力は47秒固定。
ファイルサイズは毎回16MB級。
しかも実際に欲しいのは、
6秒程度のジングルだったりする。
結果として私は、
自前スクリプトを書き始めることになる。
- 先頭6秒だけ切り出す
- 無音を除去する
- フェードアウトを入れる
- 音量正規化する
- シードを管理して量産する
そんな、
涙ぐましい“ジングル工場”を構築していた。
当時の記事を読み返すと、
我ながらかなり必死である。
そして実際、
Stable Audio Open は「素材生成ツール」としては面白かった。
特に短尺ジングル量産機としては、
かなり実用性があった。
だが一方で、
音楽そのものの完成度には、
まだ粗さも感じていた。
音はやや薄い。
長尺は苦しい。
日本語や文化理解も弱い。
「あと一歩感」は、
かなりあった。
だから今回、
Stable Audio 3.0 が出た時も、
最初はそこまで期待していなかった。
「まあ、少し良くなったのかな」
くらいだったのである。
しかし実際に触ってみると、
見えてきた景色はかなり違っていた。
まず、
生成時間の制約感が大幅に薄れた。
180秒生成も普通に動く。
しかも RTX3060 12GB でも十分遊べる。
だが、
本当に面白かったのはそこではない。
Stable Audio 3.0 を触っていて感じたのは、
「AI音楽生成」
そのものよりも、
「音素材生成」
としての進化だった。
特に、
- SFX
- One-Shot
この2つが、
個人開発や動画制作に対して、
かなり危険なポテンシャルを持ち始めている。
そして今回、
実際に色々なプロンプトを投げ込みながら、
その“空気感生成能力”を試してみた。
すると見えてきたのは、
「AIは音楽そのものより先に、
世界を成立させる“音”を変え始めている」
という、
少し面白い未来だったのである。

序章|Stable Audio 3.0、正直ナメていた
正直に言う。
最初は、
「またAI音楽生成か」
くらいに思っていた。
画像生成AIの爆発的進化に比べると、
音楽生成AIはどこか“惜しい”ものが多かったからだ。
雰囲気は出る。
それっぽい。
だが、
「実際に使いたいか?」
と言われると、
微妙に足りない。
特にゲーム開発や動画制作では、
BGM以上に“効果音”や“空気感”が重要になる。
しかし現実には、
- フリー素材サイトを巡回し
- ライセンスを確認し
- 微妙に違うSEを探し
- なんか安っぽい音で妥協する
そんな世界だった。
だから今回も、
そこまで期待していなかった。
しかも Stable Audio 3.0 の導入は、
最初から怪しかった。
ComfyUI上でDLボタンを押しても、
UIはほぼ無反応。
「おいおい、動いてるのか?」
と思ってタスクマネージャを見ると、
ネットワーク帯域が300Mbpsで燃えていた。
実は裏で、
8GB超のモデルを黙々とDLしていたのである。
相変わらず、
AI界隈は豪快だ。
だが、
本当に驚いたのはその後だった。
Stable Audio 3.0 には、
- MUSIC
- Instrument
- SFX
- One-Shot
というモードが存在していた。

最初はよく分からなかった。
しかし触っていくうちに、
このモデルの“本命”が見えてきた。
これは単なる「音楽生成AI」ではない。
むしろ、
「個人開発者が長年渇望していた“音の不足”」
を埋め始めたAIだった。
例えば、
Gun shot
と入れる。
すると、
それらしい銃声が出る。
Wind storm
と入れる。
嵐っぽい環境音が出る。
Kick
Snare
Orchestra hit
と入れる。
ゲームや動画編集で即使えそうな、
“One-Shot素材”が出てくる。
これを見た瞬間、
あることを思い出した。
以前、
「Gemesis」というゲーム系プロジェクトを作っていた時のことだ。
当時、
BGMやSEの存在感は非常に大きかった。
だが同時に、
そこは個人開発者にとって巨大な壁でもあった。
世界観に合う音がない。
探すのが大変。
ライセンスも面倒。
しかも、
“欲しい空気”そのものが見つからない。
Stable Audio 3.0 は、
その問題に対して、
かなり危険な角度から踏み込み始めている。
そして面白いことに、
本稿を書いている時点でも、
まだ世間は「AI音楽生成」の文脈でこのモデルを見ている。
だが実際に触ってみると、
本当に面白いのはそこではなかった。
本命は、
SFXとOne-Shot。
つまり、
「音素材生成AI」
としての側面だったのである。
第1章|本当にヤバいのは「音楽生成」ではなかった
最初、
Stable Audio 3.0 のモード構成を見た時、
正直よく分かっていなかった。
- MUSIC
- Instrument
- SFX
- One-Shot
なんだこれは、と。
最初は「Instrument」で遊んでいた。
ラスボス風BGMを作ろうとして、
Game music,
Last boss battle,
heavy electronic drums,
dramatic tension,
Distortion guitar,
16-bit console soundtrack
などと入力してみる。
すると、
確かに“それっぽい音”は出る。
だが、
妙に単調だ。
展開しない。
延々と、
「雰囲気の床」みたいなものが流れ続ける。
「うーん……」
と思っていたのだが、
途中で気づいた。
これ、
Instrumentモードだったのである。
試しに、
同じような内容をMUSICで生成してみる。
すると突然、
AIが“曲”を作り始めた。
盛り上がる。
ドラムが走る。
妙な転調を始める。
そして何より、
「ゲームっぽい熱」が急に出てくる。
悪魔城ドラキュラ風。
メガドライブ後期風。
90年代アーケード風。
そういう“空気”が、
急に濃くなった。
一方で、
Instrumentモードは、
おそらく「伴奏素材」「演奏素材」寄りなのだろう。
主張が弱い。
展開も少ない。
だから単調に感じやすい。
逆にMUSICは、
「完成済みの楽曲」を生成しようとしている。
この違いはかなり大きかった。
だが、
本当に驚いたのは、
その先だった。
SFXとOne-Shotである。
例えば、
One-Shotに対して、
Kick
と入力する。
すると、
普通にキック音が出る。
Snare
と入れる。
スネアが鳴る。
Orchestra hit
と入れる。
90年代ゲームで聞いたような、
あの「じゃん!」が出る。
これはかなり衝撃だった。
なぜなら、
これはもう「音楽生成AI」ではないからだ。
DAW素材生成。
ゲームSE生成。
動画編集素材生成。
そういう世界に、
片足を突っ込み始めている。
さらにSFX。
Gun shot
銃声。
Cannon shot
砲撃。
Car crash
クラッシュ音。
これらが、
かなり普通に使える。
もちろん万能ではない。
人の悲鳴はかなり怪しい。
動物系も不安定だった。
Dogはそこそこ。
しかし Elephant や Tiger はかなり微妙だった。
だが、
重要なのはそこではない。
例えば動画制作。
例えば個人ゲーム。
例えばプレゼン動画。
「当て音が欲しい」
だけなら、
すでにかなり実用圏に入っている。
しかも面白いのは、
Stable Audio 3.0 が、
あまり“小難しいこと”を要求してこないことだ。
画像生成AIでは、
長大プロンプト文化がかなり進行している。
だが Stable Audio 3.0 は、
むしろシンプルなほうが強かった。
例えば、
80's Euro Beat sound
これだけで、
かなりそれっぽい。
marching military music
軍楽隊っぽい空気が出る。
Alto Sax, Solo play
ブレス感のあるサックスが鳴る。
逆に、
steinway piano, bright sound, minor tone, aggressive, Moon light style
などと盛り込みすぎると、
ピアノが1音も鳴らない謎の音楽になった。
つまりこのモデル、
「意味理解」よりも、
かなり“音響タグ空間”寄りなのである。
それゆえ、
用途・ジャンル・音色をシンプルに指定したほうが、
妙に強い。
ここは、
画像生成AIとは少し違う感触だった。
第2章|One-ShotとSFXが“音素材集文化”を壊し始めている
今回、
実際に触ってみて一番驚いたのは、
MUSICではなかった。
One-Shot と SFX。
ここが異様に強い。
例えば、
ゲームを作る。
動画を作る。
プレゼンを作る。
YouTube Shortsを作る。
すると必ず発生する問題がある。
「音が足りない」
である。
実際、
個人制作において、
最後まで不足し続けるのは音素材だ。
画像はまだ何とかなる。
最近はGPT Images 2.0やFLUX系もある。
UI素材もSVGでどうにかなる。
だが音は違う。
- ボタン押下音
- 決定音
- 爆発
- 銃声
- 風
- ドア
- 足音
- ジングル
- 環境音
これらは作品全体の空気感を支配する。
しかし現実には、
- フリー素材サイト巡回
- ライセンス確認
- 商用利用条件確認
- 音量調整
- フォーマット変換
- 世界観との不一致
この地味な苦行が待っている。
しかも、
欲しい音ほど存在しない。
例えば、
「古代遺跡っぽい機械音」
とか、
「バイオ系ラスボスの脈動音」
とか、
「未来都市の湿った環境音」
とか。
ピンポイントになるほど、
素材は急速に見つからなくなる。
しかし Stable Audio 3.0 は、
そこに対してかなり危険な回答を出し始めている。
例えば、
Deep forest
森っぽい空気。
Wind storm
嵐。
Gun shot
銃声。
Car crash
衝突音。
しかも、
One-Shotがかなり面白い。
Kick
Snare
Orchestra hit
こういう、
「音楽制作の部品」
を直接生成できる。
これは実はかなり大きい。
なぜなら、
DAWユーザーや動画編集者にとって、
“One-Shot素材”は消耗品だからだ。
- キックが欲しい
- スネアが欲しい
- インパクト音が欲しい
- UI音が欲しい
そういう場面は異常に多い。
しかも、
既存素材は誰かと被る。
結果、
「あ、この音どこかで聞いたな」
問題が発生する。
だが、
AI生成なら、
毎回少し違う。
ここがかなり面白い。
もちろん、
まだ万能ではない。
音質そのものは、
Ace Step系のほうが“厚み”を感じた。
Stable Audio 3.0 は、
どちらかと言えばクリア寄り。
悪く言えば、
少し薄い。
ノイズ感や空気の湿度は、
まだ弱い。
だが逆に、
だからこそ使いやすい。
動画編集で当て込む。
ゲームで軽く鳴らす。
プレゼンで空気を作る。
そういう用途では、
むしろ整理された音のほうが扱いやすい。
そして何より重要なのは、
これらがローカルで動くことだ。
今回試した環境は RTX3060 12GB。
最初、
180秒生成など無理だと思っていた。
しかし実際には、
生成開始直後にVRAMを大きく掴み、
その後は比較的落ち着いた。
つまり、
「超高級GPUがなければ無理」
という世界では、
すでになくなり始めている。
これはかなり大きい。
なぜなら、
個人開発者が最も不足していたのは、
“音の自由”だったからだ。
そして Stable Audio 3.0 は、
そこを崩し始めている。
第3章|Stable Audio 3.0 の得意・不得意がかなり面白い
色々試しているうちに、
このモデルの“得意分野”がかなり見えてきた。
まず、
雰囲気系はかなり強い。
例えば、
80's Euro Beat sound
これはかなり良かった。
いかにも90年代ゲームや、
深夜ドライブ系コンピレーションに入っていそうな、
あの独特の軽快感が出る。
また、
marching military music
これも強い。
軍楽隊っぽい迫力や、
「行進している感」がちゃんと出る。
さらに、
Big band, Benny Goodman
JAZZ系。
ウッドベース、
ドラム、
トランペット。
この辺の空気感はかなり良かった。
Alto Sax, Solo play
サックスも面白い。
ブレス感がある。
“それっぽい演奏”になっている。
また、
Flamenco music
Flamenco guitar, solo play
この辺も雰囲気が強い。
ハワイアン系も悪くなかった。
つまり、
Stable Audio 3.0 は、
「ジャンルの空気」
を掴む能力がかなり高い。
だが一方で、
弱点もかなり見えやすい。
まず、
クラシック方面。
ピアノソロはかなり厳しい。
例えば、
steinway piano, bright sound, minor tone, aggressive, Moon light style
などを試したのだが、
なぜかピアノが1音も鳴らない、
謎の音楽になった。
おそらく、
意味解釈が衝突している。
つまりこのモデル、
「音楽理論」を理解しているというより、
“音響タグ”
を統計的に結びつけている感じが強い。
だから、
- Alto Sax
- marching
- Euro Beat
のような、
「用途やジャンルが明確なもの」は強い。
逆に、
- 感情
- 音楽理論
- 抽象的表現
- 複雑な作曲指示
を重ねると、
急に迷子になる。
ここは、
画像生成AIとかなり感触が違った。
さらに面白かったのは、
文化理解である。
例えば、
三味線
これは、
それっぽい音は出る。
だが音階感がかなり怪しい。
「和風っぽい何か」
にはなるが、
日本音楽として正確かと言われると微妙だ。
さらに、
笙(しょう)
これはかなり厳しかった。
そもそも、
音色理解が怪しい。
一方、
和太鼓
これも、
太鼓っぽい音は鳴る。
だが途中で、
なぜかハイハットが混ざる。
つまり、
「映画的・ハリウッド的な“日本”」
に引っ張られている。
ここはかなり興味深かった。
GPT Images 2.0 などは、
日本文化理解がかなり深い。
しかし Stable Audio 3.0 は、
まだそこまで到達していない。
どちらかと言えば、
“音響ラベル”
として文化を扱っている印象がある。
だから、
- Shamisen → 日本っぽい
- Taiko → 映画っぽい和風
- Sho → 学習量不足
みたいな反応になる。
逆に言えば、
西洋圏で頻繁に使われるジャンルほど強い。
Euro Beat、
Jazz、
Choir、
Military、
Flamenco。
この辺はかなり雰囲気が良い。
また、
Stable Audio 3.0 全体として感じたのは、
「ノイズ感が少ない」
ことである。
良く言えばクリア。
悪く言えば、
少し薄い。
Ace Step系のほうが、
音の厚みや雑味、湿度を感じた。
Stable Audio 3.0 は、
どちらかと言えば整理されたサウンド。
だから、
“芸術作品”として聴くよりも、
- ゲーム
- 動画
- プレゼン
- UI演出
- 当て音
など、
「実用品」としての強さを感じた。
そして、
そこにこそ、
このモデルの本当の価値があるように思えた。
第4章|Genesis作るまえに知りたかった

今回、
Stable Audio 3.0 を触っていて、
何度も頭をよぎった言葉がある。
「これ、Genesis作ってた時に欲しかったな……」
である。
以前、
小規模ゲーム系プロジェクトを触っていた時期があった。
ゲームを作る。
画面を作る。
UIを作る。
エフェクトを作る。
最近なら、
画像生成AIもある。
だから“見た目”は、
かなりどうにかなる。
しかし最後まで苦しむのが、
音だった。
特に個人開発では、
BGMやSEは後回しになりやすい。
理由は単純で、
難しいからだ。
画像なら、
多少崩れていても成立する。
だが音は違う。
世界観を一瞬で壊す。
例えば、
古代遺跡。
見た目は完璧でも、
SEが安っぽいだけで急に“無料ゲーム感”が出る。
逆に、
音が良いと、
世界が一気に立ち上がる。
これはゲームを作った人間なら、
かなり共感してもらえると思う。
特に厄介なのが、
「欲しい空気が存在しない」
問題だった。
例えば、
- 有機的な宇宙船内部音
- 生体兵器の鼓動
- 古代機械の駆動音
- 湿った地下施設
- レトロSFの環境ノイズ
こういう、
“世界観の中間素材”。
ここが本当に見つからない。
しかも、
探すほど時間が溶ける。
最終的に、
「もうこれでいいや……」
と、
どこかで妥協する。
個人開発の“音問題”とは、
大体そういうものだった。
だが、
Stable Audio 3.0 は、
そこをかなり変え始めている。
例えば、
Deep forest
と入れる。
すると、
「森っぽい空気」が出る。
完璧ではない。
だが、
“ゼロ”ではない。
ここが大きい。
今までは、
欲しい音が存在しなければ終わりだった。
しかし今は、
「とりあえず生成してみる」
が可能になった。
これは創作フローをかなり変える。
特に One-Shot。
これが地味に危険だ。
例えばゲーム開発では、
- 決定音
- レベルアップ
- アイテム取得
- UI操作
- 爆発
- 警告音
など、
短いSEを異常に大量消費する。
しかし、
そのたびに素材を探していた。
今後は違う。
Level up fanfare
PSG sound
これだけで、
“それっぽいもの”
が数秒で出る。
しかも毎回少し違う。
つまり、
「素材探し」
から、
「空気生成」
へ変わり始めている。
ここはかなり大きい。
もちろん、
プロの音楽制作を完全に置き換える段階ではない。
Ace Step系のほうが、
音の厚みや没入感は強かった。
Stable Audio 3.0 は、
まだ少し薄い。
だが、
個人開発者にとって重要なのは、
“完璧な音楽”
ではない。
「世界が成立すること」
なのである。
そして、
その敷居を、
AIが猛烈に下げ始めている。
これはゲームだけではない。
- YouTube動画
- Web演出
- LP
- プレゼン
- Shorts
- インディーゲーム
あらゆる場所で、
“音の不足”
が埋まり始める。
Stable Audio 3.0 は、
その入口として、
かなり面白い存在だった。
終章|AIは「音楽」より先に「音素材」を変え始めた
今回、
Stable Audio 3.0 を触っていて、
最後に強く感じたことがある。
このモデル、
“音楽AI”として見ると、
少し評価を誤る。
もちろん、
MUSICモードは面白い。
Euro Beat。
Military march。
Jazz。
Choir。
ゲームBGM風。
そういう“雰囲気生成”はかなり強い。
だが一方で、
- ピアノソロ
- クラシック
- 複雑な作曲
- 人の声
- 高度な文化理解
この辺は、
まだかなり粗い。
だから最初は、
「うーん、あと一歩かな」
と思っていた。
しかし、
SFXとOne-Shotに触れた瞬間、
見え方が変わった。
これは、
“音楽生成AI”
ではない。
むしろ、
「音素材生成AI」
として見るべき存在だったのである。
例えば、
動画を作る。
すると、
細かいSEが欲しくなる。
ゲームを作る。
環境音が欲しくなる。
LPを作る。
空気感が欲しくなる。
プレゼンを作る。
一瞬だけ印象的なジングルが欲しくなる。
そういう、
“作品の温度”
を決める音。
そこに対して、
Stable Audio 3.0 はかなり実用的だった。
しかも重要なのは、
「とりあえず生成してみる」
が可能になったことだ。
これはかなり大きい。
昔は、
素材が存在しなければ終わりだった。
今は違う。
まずAIに投げる。
そこから調整する。
つまり、
創作フローそのものが変わり始めている。
特に個人開発者にとって、
これはかなり大きい。
なぜなら、
個人制作において最後まで不足するのは、
大体「音」だからだ。
画像は増えた。
動画も増えた。
しかし音素材は、
長い間“専門領域”だった。
Stable Audio 3.0 は、
そこを崩し始めている。
もちろん、
まだ完璧ではない。
Ace Step系のほうが、
音の厚みや没入感は上だと感じた。
Stable Audio 3.0 は、
どちらかと言えばクリア寄り。
文化理解も浅い。
和楽器などは、
まだ“それっぽい”止まりだ。
だが、
だから価値がないわけではない。
むしろ逆だ。
「ちょっと音が欲しい」
という、
現実世界で最も大量に存在する需要。
そこに対して、
かなり危険な性能になり始めている。
そして、
これがローカルで動く。
RTX3060クラスでも、
十分遊べる。
ここが大きい。
AIによる創作支援は、
ついに、
「画像」
だけでなく、
「音の空気」
にまで到達し始めた。
そして多分、
これから先、
個人開発者が最初に恩恵を受けるのは、
“完全自動作曲”
ではない。
ゲーム。
動画。
演出。
UI。
環境音。
つまり、
「世界を成立させるための音」
のほうなのだと思う。


