現在、巷で話題のstable diffusionをローカル環境で動かしてみた。
しかしエラーに継ぐエラー、私の環境はGTX1660TiとGTX1060両方共VRAM6GBしかない。stable diffusionはVRAM10GBの環境を想定しているそうだ。
しかし今現在、一般的なGPUのVRAMは4GBから8GB程度。Steamでも未だに主流のGPUはGTX1060 6GB。 stable diffusionの掲げる「AIの民主化」を実現するならば、主流のGTX1060 6GBや同じく6GBのGPUで動かせてこその「AIの民主化」だ。
よって色んな試行錯誤を経てVRAM6GBのGPUのローカル環境でstable diffusionを使えるようにした手段を書いていく。
まず私がメインで使っているのはGTX1660Ti VRAMは6GB。最新のPCゲームでも、解像度1600×900なら案外、最高設定で結構動いてくれる代物だ。
その理由は特殊な設計に有る。Turing世代なのにRT CoreもTensor Coreも無いTU116ベースのGPU。Tensor Coreを持たない代わりにFP16専用の演算器を32基載せ、FP32とINT32に関しては、それぞれ16基載せたレアというか”変り者”仕様だ。
だからFP32の演算能力は5.5TFLOPSだがFP16なら11TFLOPS出る。
しかもFP32とINT32のオーバーラップ実行。だから新しめのゲームなら先代Pascal仕様のGTX1060が100命令かかるのにGTX1660Tiなら62命令で済む。
古いゲームなら先代の上位機種GTX1070に少し及ばないか、同等。
新しいゲームならGTX1070を超え、更に上位のGTX1070Tiに迫る実力だ。
しかも先代のPascalはFP16でもFP32でも演算能力が変わらない(GTX1060 6GBなら、どちらも4.4TFLOPS)
そして機械学習において浮動小数点演算精度を下げて演算能力やGPUメモリ使用量を減らすのは、もはや定石だ。この時点で私は過去にGTX1660Tiを買ったことをラッキーだと思っていた。
しかしstable diffusionにおいてfloat値、float16にしても思ったような結果が出ない。
VSCodeはfloat値でエラーを吐きまくるし、float値を標準に戻して解像度を下げても緑色の画像。
なんてこった!せっかく武器になると思っていたGTX1660シリーズのFP16演算器が邪魔になっていたなんて、浮動小数点演算精度を半精度のFP16にすればVRAM6GB以下でも動かせるし、演算精度も2倍になることを期待していたのに!
ならばとfloat値をFP32に固定すれば当然VRAM不足だ。
仕方がない、解像度を下げようPythonコードの解像度指定値を探して512×512からピクセル数4分の1の256×256でやっと画像が出力できた。
deviceをCPUに指定すれば、まともな画像は出せるが、CPUは第12世代corei5を使っているのに5分以上かかる。でもGPUなら数十秒に短縮できる。なら、どうしてもGPUで実行したい。
なら先代のGTX1060はどうだ?GTX1660のFP16演算器は相性問題があるが、サブで使っているGTX1060なら相性問題が無い。
しかも演算精度も単精度FP32なら4.4TFLOPSと、5.5TFLOPSのGTX1660Tiと大差ない。
FP16も4.4TFLOPSなのは残念だがFP16ならVRAM6GBでもメモリ不足にならずにディフォルトの512×512で出力できるはずだ。
そこで最新のStable_Diffusion_with_🧨_diffusers.ipynbのコードを編集した。場所は「Next, let’s move the pipeline to GPU to have faster inference.」の下「pipe = pipe.to(“cuda”)」を「pipe = pipe.to(“cuda:1”)」に編集してセカンダリGPU GPU:1(GTX1060)を指定。
GTX1660なら40秒程度、FP16が使えれば20秒程度に短縮できそうだが、FP16との相性問題で緑色の画像しか出力できないなら仕方がない。今後stable diffusion側が対応してくれるまで待つしか無い。
しかしこれで枚数制限もなくローカル環境で数十秒でAI画像生成が可能になった。
私と同じ様にGTX1600シリーズをメインで使っているが相性問題でstable diffusionが実行できない人は試しに古いグラフィックボードを引っ張り出してみてはいかがだろうか?おかげで私は出費0円でstable diffusionが実行できた。
両方共コスパの良いグラボで大いに売れたから未だに所持しており、似たような構成が可能な人も多いんじゃないだろうか?
ならGTX1060はマザーボードの下の方。PCIExpressの4X レーンにでも挿せば良い。そうすればプライマリのGTX1660はCPU直結の16Xレーンのままだ。
GTX1060は4X レーンでもstable diffusionなどの機械学習やビデオエンコードやNVIDIA PhysXを任せれば、むしろプライマリのGTX1660に余裕が生まれる。
消費電力だってアイドル時は7W程度でLED電球程度。PC全体から見れば微々たるものだ。
案外古くて持て余してるPCパーツが試行錯誤と工夫によって役に立つかもしれない。しかも、それは自身の経験や知識になる。
参考になれば幸いだ。