2022年10月26日水曜日

WSL2でTensorflowのGPUが実行できない?初心者が詰まりやすいポイントを紹介

機械学習を始めて当初はWindows版のanacondaを使っていたのでTensorflowのGPU実行は当たり前のように出来ていた。

しかし相性の問題かanacondaは稀にフリーズするし動作も遅いし悩まされていた。
pip Packageとconda Packageが混在するのもトラブルの元だったし、肥大化したせいかanaconda自体が調子悪くなってきたので、トラブルシューティングとしてanacondaの再インストールを試みた所、遂にanaconda自体が起動しなくなってしまった。

そこで、古いPCパーツを活用してLinuxマシンを組み上げ、Ubuntu20.04を入れ、VScodeでTensorflowを使うとGPUが全然利用されない、使用率も消費電力も温度も上がらないしCPU使用率は100%に近い。
PytorchならGPUが正常に稼働するが、Tensorflowは、どのコードも駄目だ。

ドライバーの問題か?CUDAToolkitのバージョンや相性だろうか?
検索しても事例が出てこないし、導入の仕方やanacondaがオススメだとか、DockerDesktopの紹介ばかりだ。

その後Windows環境に戻りVScodeにWSL2をリンクしてWindowsからLinuxを利用できるようにした。

そしたらLinuxPCと全く同じで、PytorchならGPUが使えるがTensorflowだとGPUが動かない。

そこで、今まで良くわからないからすっ飛ばしていた事を、ちゃんとやることにした。
cuDNNの導入だ。
デバイスドライバーやCUDAToolkitと違って、NVIDIAのDeveloper登録が必要だし、検索しても環境変数とか面倒な情報ばっかりだったので、放おって置いたのだが、真面目に導入してみることにした。


今考えると、これが原因なのだが、初心者からすれば「PytorchならGPUで機械学習が動いているのだから別にcuDNNは必須では無いのだろう」と思いこんでいた。

ちなみにanacondaはconda installで簡単にcuDNNが実装できるので動いていたと言うわけだ。

やってみると意外と簡単だ。
NVIDIAのDeveloper登録だが下記のサイトから行う

普通にDownload cuDNN>をクリックすれば良い。
次にJoin nowでユーザー登録を行う
メールアドレスを入れてNextを押すと
後はパスワードを作成してI am human、メール認証で登録完了だ。
無事にログインできたらCUDAバージョンに合わせたcuDNNをダウンロードしよう。

さて、ここからが本題だ。
・ダンロードしたファイルをどこに入れれば良いのか?
・どうやってインストールすれば良いのか?

まず、ダウンロードしたdebファイルをWindowsだったら7ZIPなどの圧縮解凍ソフトで開く。

そしたdata.tarを更に開いていく。
この階層に有る
libcudnn8_8.6.0.163-1+cuda10.2_amd64.debがcuDNNのインストーラーパッケージだ。※今回は10.2を使っているので、このファイル名だが、もちろんバージョンによって異なる。

該当のファイルをWSLの/home/ユーザー名フォルダにコピーする。

次にターミナルでsudo dpkg -i libcudnn8_8.6.0.163-1+cuda10.2_amd64.debを実行※sudoが必要なことに注意
これでcuDNNがバッチリ入る。

Tensorflowのチュートリアル機械学習コードで試してみると見事にGPUで機械学習が出来ていることが確認できる。

同様にUbuntuをインストールしたLinuxPCでも全く同様の手順でcuDNNはインストールできる。
機械学習をしようと調べるとanacondaやらDockerDesktopの話ばっかり出てきて、色んなものをインストールしてストレージを逼迫したり、重くなるのが嫌でLinuxやWSL2でシンプルにTensorflowをGPU実行したい人は参考になれば幸いだ。

0 件のコメント:

コメントを投稿

AIミステリー小説 第2章

俺は情報提供の準備を進め、信頼性のある報道機関に証拠を届けるための手段を探った。 メディアに証拠を提供することで、事件を世間に知らせ、製薬会社の闇を暴露するための力を高めることが不可欠だと考えていた。 その準備の過程で、俺は元アナウンサーで現在はジャーナリストとして活躍している久...