2022年10月26日水曜日
WSL2でTensorflowのGPUが実行できない?初心者が詰まりやすいポイントを紹介
2022年10月3日月曜日
OpenAIのWhisperを試してみたらRuntimeError: “slow_conv2d_cpu” not implemented for ‘Half’ と表示されたので修正してみた
2022年9月の末に人工知能を研究する非営利団体OPENAIがwhisperと言うAI文字起こしを公開した。
今どきスマホでも音声検索や文字起こしアプリは有るがwhisperは何が凄いのだろう?GitHubで見てみようまずはその誤認識率
https://github.com/openai/whisper
OPENAIの公式ブログを見ると「Whisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識(ASR)システムである。」
68万時間!データセットを作るのに、どれだけ莫大な計算能力と時間がかかったのだろう。さすが、かの有名なGPT-3を作ったOPENAIだ。
早口言葉や、スポーツの実況、K-POPの歌詞や、多人数での会話まで文字起こし出来るらしい。
さっそくローカル環境で動かしてみることにした。
RuntimeError: “slow_conv2d_cpu” not implemented for ‘Half’
ハーフつまり浮動小数点演算精度 半精度 FP16のことだろう。
そこで該当のPythonファイルdecoding.pyを調べる
このwhisper学習モデルが選べるのだが、下記の表の通り、モデルが大きくなれば処理に時間がかかりVRAM使用量も増える。私のGPUはGTX1660Ti 6GBだから~5GBのmediumで試したのだが、標準のbaseに比べたら8倍も時間がかかるようだ。よし、ここは素直に標準のbaseで試そう。
これでは『最新の凄い文字起こしAI』とはいえない。最近のスマホ以下だろう。やはり圧倒的な精度で実行したい。
そこで違和感に気がつく、さっきのランタイムエラー
GTX1660Tiを使っていたから、いつも通りGPUのせいかと思ったら、これCPU実行じゃん!タスクマネージャーでもnvidia-smiでもVRAM全然使ってない!
かと言ってコードに不審な点もない。
そこでPIP LISTでTorchバージョンを見たところ、やはりCPUバージョンのTorchが入っていた。最近あまり使っていないconda環境だからPytorchのバージョンを忘れていたのが原因だった。
pip3 uninstall torch torchvision torchaudioで現状インストールされているPytorchを全て消し。
pip3 install torch torchvision torchaudioでCUDAバージョンのPytorchを入れた。
さあ、これでwhisperの真の実力がわかる!いざmediumモデルで実行!
ちなみに、なんでこんな事になったかというとubuntu 20.04だと上手くGit installが出来ず、WSL2でubuntu 18.04を開くもPython3.7や3.6だとtransformerの互換性エラーが出てしまう。
そこで以前Stable Diffusionのときに作ったconda環境のPython3.85をTerminalで開いて
pip install git+https://github.com/openai/whisper.git
と打ったらあっけなくinstall出来たので、そのまま使っていた(どのPytorchを入れていたかは忘れていた。)と言うわけだ。
Stable DiffusionもFP16を使うのでGPUがエラーを起きた際にCPUで動かしたりしたのだろう。その後Stable Diffusionは別の方法で解決したので※別の記事で解説 CPUバージョンのPytorchのままだったのかもしれない。
最近はWSL2 DockerDesktop anaconda3と簡単に様々な仮想環境を作成出来るので、それぞれの詳細なSitePackageまでは把握しきれない。
ただ、フレームワークやライブラリの確認は開発の基本だから今後は気を付けたい。
ちなみにOPENAIのwhisperは、あらゆるフォーマットに対応するffmpegを利用するのでmp3でもAACはもちろん。mp4の動画でも、ファイルを指定すれば文字起こししてくれる。
一度ローカル環境を作ってしまえば、何度でもすぐに使える今日現在最高に便利な文字起こしAIなので、みなさんも是非試してみてはいかがだろうか。
AIミステリー小説 第2章
俺は情報提供の準備を進め、信頼性のある報道機関に証拠を届けるための手段を探った。 メディアに証拠を提供することで、事件を世間に知らせ、製薬会社の闇を暴露するための力を高めることが不可欠だと考えていた。 その準備の過程で、俺は元アナウンサーで現在はジャーナリストとして活躍している久...
-
2022年9月の末に人工知能を研究する非営利団体OPENAIがwhisperと言うAI文字起こしを公開した。 今どきスマホでも音声検索や文字起こしアプリは有るがwhisperは何が凄いのだろう?GitHubで見てみようまずはその誤認識率 https://github.com/o...
-
機械学習を始めて当初はWindows版のanacondaを使っていたのでTensorflowのGPU実行は当たり前のように出来ていた。 しかし相性の問題かanacondaは稀にフリーズするし動作も遅いし悩まされていた。 pip Packageとconda Packageが混在する...
-
俺は情報提供の準備を進め、信頼性のある報道機関に証拠を届けるための手段を探った。 メディアに証拠を提供することで、事件を世間に知らせ、製薬会社の闇を暴露するための力を高めることが不可欠だと考えていた。 その準備の過程で、俺は元アナウンサーで現在はジャーナリストとして活躍している久...