2022年10月3日月曜日

OpenAIのWhisperを試してみたらRuntimeError: “slow_conv2d_cpu” not implemented for ‘Half’ と表示されたので修正してみた

2022年9月の末に人工知能を研究する非営利団体OPENAIがwhisperと言うAI文字起こしを公開した。

今どきスマホでも音声検索や文字起こしアプリは有るがwhisperは何が凄いのだろう?GitHubで見てみようまずはその誤認識率

https://github.com/openai/whisper


日本語が6.4%と驚異的な低さだ(低いほど良い)ちなみにスペイン語が突出して低いがAIはスペイン語が得意なのだろうか?発音が認識しやすいのかな?とても自分には聞き取れないが。

OPENAIの公式ブログを見ると「Whisperは、ウェブから収集した68万時間に及ぶ多言語・マルチタスク教師付きデータで学習させた自動音声認識(ASR)システムである。」

68万時間!データセットを作るのに、どれだけ莫大な計算能力と時間がかかったのだろう。さすが、かの有名なGPT-3を作ったOPENAIだ。

早口言葉や、スポーツの実況、K-POPの歌詞や、多人数での会話まで文字起こし出来るらしい。

さっそくローカル環境で動かしてみることにした。


しかし早速エラーが

RuntimeError: “slow_conv2d_cpu” not implemented for ‘Half’

ハーフつまり浮動小数点演算精度 半精度 FP16のことだろう。

そこで該当のPythonファイルdecoding.pyを調べる


どうやら100行目にuse fp16 for most of the calculation(計算の大部分にfp16を使用)と、いかにもなコメントを発見

TrueからFalseへ変更して保存。Notebookを再起動して実行!果たして…

見事に文字起こし成功!精度も素晴らしい。しかし40秒もかかっている…

このwhisper学習モデルが選べるのだが、下記の表の通り、モデルが大きくなれば処理に時間がかかりVRAM使用量も増える。私のGPUはGTX1660Ti 6GBだから~5GBのmediumで試したのだが、標準のbaseに比べたら8倍も時間がかかるようだ。よし、ここは素直に標準のbaseで試そう。



baseにした所、時間は10倍以上短縮されたが、「whisper」が「ビスパー」になってるし「文字起こし」は「文字を越し」

これでは『最新の凄い文字起こしAI』とはいえない。最近のスマホ以下だろう。やはり圧倒的な精度で実行したい。

そこで違和感に気がつく、さっきのランタイムエラー

“slow_conv2d_cpu”・・・CPU?

GTX1660Tiを使っていたから、いつも通りGPUのせいかと思ったら、これCPU実行じゃん!タスクマネージャーでもnvidia-smiでもVRAM全然使ってない!

かと言ってコードに不審な点もない。

そこでPIP LISTでTorchバージョンを見たところ、やはりCPUバージョンのTorchが入っていた。最近あまり使っていないconda環境だからPytorchのバージョンを忘れていたのが原因だった。

pip3 uninstall torch torchvision torchaudioで現状インストールされているPytorchを全て消し。

pip3 install torch torchvision torchaudioでCUDAバージョンのPytorchを入れた。

さあ、これでwhisperの真の実力がわかる!いざmediumモデルで実行!


11.7s!! CPUで実行した際の40.1秒から4倍近く早くなった!文字起こしの精度も完璧だ!

ちなみに、なんでこんな事になったかというとubuntu 20.04だと上手くGit installが出来ず、WSL2でubuntu 18.04を開くもPython3.7や3.6だとtransformerの互換性エラーが出てしまう。

そこで以前Stable Diffusionのときに作ったconda環境のPython3.85をTerminalで開いて

pip install git+https://github.com/openai/whisper.git

と打ったらあっけなくinstall出来たので、そのまま使っていた(どのPytorchを入れていたかは忘れていた。)と言うわけだ。

Stable DiffusionもFP16を使うのでGPUがエラーを起きた際にCPUで動かしたりしたのだろう。その後Stable Diffusionは別の方法で解決したので※別の記事で解説 CPUバージョンのPytorchのままだったのかもしれない。

最近はWSL2 DockerDesktop anaconda3と簡単に様々な仮想環境を作成出来るので、それぞれの詳細なSitePackageまでは把握しきれない。

ただ、フレームワークやライブラリの確認は開発の基本だから今後は気を付けたい。

ちなみにOPENAIのwhisperは、あらゆるフォーマットに対応するffmpegを利用するのでmp3でもAACはもちろん。mp4の動画でも、ファイルを指定すれば文字起こししてくれる。

一度ローカル環境を作ってしまえば、何度でもすぐに使える今日現在最高に便利な文字起こしAIなので、みなさんも是非試してみてはいかがだろうか。

【AI向けで高コスパなGPU RTX3060 12GB】

0 件のコメント:

コメントを投稿

AIミステリー小説 第2章

俺は情報提供の準備を進め、信頼性のある報道機関に証拠を届けるための手段を探った。 メディアに証拠を提供することで、事件を世間に知らせ、製薬会社の闇を暴露するための力を高めることが不可欠だと考えていた。 その準備の過程で、俺は元アナウンサーで現在はジャーナリストとして活躍している久...