Employee Blog
社員ブログ

Stable Diffusion 3 Medium リリース

AI画像生成モデルの最新版である Stable Diffusion 3 の Medium モデルが2024/06/12 深夜から ダウンロードできるようになりました。

https://stability.ai/news/stable-diffusion-3-medium

Stable Diffusion 3 のリリース自体は、 2024/02/22 に早期プレビュー 、2024/04/17 にAPIリリース という形で、Stability AI 社のAPIで(無料では)ほんの少しだけお試しできる程度でしたので、気軽に生成できるようになったのは今日からという感じですね。

Stable Diffusion 3 公式 sample workflow で生成したときの ComfyUIのワークフロー

ライセンスについて

ライセンスは 3種類 用意され 無料の open non-commercial license は研究などの用途用となっており 、小規模利用の Creator License、もっと大規模な利用の Enterprise License と用意されていました。( 小規模利用も有料なので、残念ですがこのページに生成した画像は載せないでおきます… )


まだちょっと気軽にからは遠い?

「気軽に」と、書きましたがまだ出たてということもあり、できる環境が限定されています。

Stable Diffusion での画像生成といえば、真っ先に思いつく環境は Stable Diffusion WebUI なのですが、こちらはまだ対応されていません。現状では ComfyUI のみが利用できるようになっていました。

Hugging Face の Stable Diffusion 3 のモデルページ から、モデルファイル( 4.34 GB ) と、 テキストエンコーダモデル ( 1.39 GB + 246MB + 9.79 GB(!) ) ComfyUI 用の サンプルワークフロー (JSON ファイル) をダウンロードして実行すると画像が生成されました。

「気軽に」からちょっと遠くなる理由の1つなのですが、上のワークフローを利用して生成した際には VRAM を なんと 19GB 近く使用しました。

2024/06/12 現在、 VRAM が 19 GB 以上あるNVIDIA 製品の家庭向けのグラフィックカードは Geforce RTX 3090、3090Ti 、4090 の ハイエンド3種類だけなのです。VRAM だけではなく通常の RAM も生成に使用することで生成自体はできるのですが、かなりストレスがたまる画像生成となると思われます。

今回のリリースは「Medium」ということなので、「Low」とかが出てくるともう少し要求VRAMが少なくて済むかもしれませんね。