【比較】ディープラーニングに必要な「GPU」の要件とは？

GPUは、今やグラフィック描写だけでなく、人工知能分野におけるディープラーニングにも活躍する存在です。グラフィック以外の活用分野が登場したことで、GPUの多様化も進んでいます。

さまざまなバリエーションが登場しているGPUですが、果たしてディープラーニングに最適なモデルはどのような製品なのでしょうか？今回は、ディープラーニングに活躍するGPUの選び方や、実際のモデルの性能の違いについて、具体的な数字を見ながら比較してみましょう。

GPU別でディープラーニング性能の比較

一般的に手に入るGPUのメーカーとして、最も有名なのがNVIDIAのRTXシリーズとAMD社製のRadeonシリーズです。これらは多くのバージョンアップやニーズに応じたバリエーションの増加を通じて、さまざまなモデルが登場しています。

今回は、以下の4製品にターゲットを絞り、それぞれの性能をみていきましょう。

RTX3060
RTX8000
Radeon RX 560
Radeon Ⅶ

RTX3060

まずは、NVIDIA製のGPUです。「GeForce RTX 30」と呼ばれるこのシリーズは、第2世代RTXアーキテクチャを採用するハイパフォーマンスなモデルです。従来モデルと比較して2倍の処理性能を誇っており、負荷の大きな作業にも対応が可能です。

基本的にはゲーミングPC向けに設計されたGPUで、AIを活用したレンダリング技術が導入されています。4Kや8Kなど、非常に大きな動画データや3Dグラフィックを処理する際にも、余裕を持った処理で滑らかな視覚体験を提供します。

【詳細】レンダリングとは何？映像・3DCG・DTM・Webとの関係性

RTX3060はミドルレンジの製品とはいえ、ハイエンドなパフォーマンスを実現するための条件は十分にそろっています。ディープラーニングに活躍するCUDAコアは3584基、およびTensorコアは112基備えており、メモリ容量も12GBと、比較的余裕のあるスペックです。

RTX30シリーズのハイエンドモデルであるRTX3090に比べれば、Tensorコア数やメモリ容量は2～3倍も異なります。しかし、その分TDP、いわゆる電力消費の指標となる数値も170Wと、RTX3090と比べて半分ほどに抑えられています。

価格は6万円前後と家庭的な価格に収まっているので、個人でのディープラーニング活用や研究用としても役立ってくれるでしょう。

RTX8000

業務用として、さらにパワフルなGPUを求めている場合には、NVIDIA QUADRO RTX8000が最適のパフォーマンスを実現してくれます。RTX8000は小売価格が1機あたり100万円にものぼり、RTX30シリーズのような家庭用モデルとしての導入には難しいものがあります。

導入コストが家庭用GPUの比ではないだけに、その性能もこの上なくパワフルです。CUDAコアは4608基、Tensorコアは576基と、驚異的なポテンシャルを備えています。

また、メモリ容量は48GBと、RTX3060の4倍にものぼる数値を持っています。ディープラーニングは並列処理が多く発生しますが、メモリ容量が大きければ大きいほど、一度に処理できる情報量も増えます。

48GBものメモリを備えているGPUはそうあるものではないため、この性能は重宝するでしょう。万が一メモリ容量に不満を覚えた場合には、容易に拡張することも可能です。RTX8000には複数のGPUの高速相互接続を可能にする、NVIDIA NVLinkと呼ばれる機能を備えています。

これによって、RTX8000は最大で96GBものメモリ容量、そして毎秒100GBものデータ転送が可能となるため、規模の大きなディープラーニングとなっても安定した計算処理を実現できます。

VR（仮想現実）映像を表示するヘッドマウントディスプレイの接続にも標準で対応するVirtualLinkも備えているため、幅広い用途でのGPU運用をこれ一台で可能にしてくれます。最大消費電力は295WとさすがにRTX3060よりも大きな値となりますが、そのパフォーマンスを考えると十分と言えるでしょう。

Radeon RX 560

続いては、AMD社製のRadeon RX 560についてです。こちらはいわゆるエントリーモデルのGPUに分類されており、価格は1機あたり1万円前後と非常に安価であることが魅力です。

ただ、価格が上記で紹介したRTXシリーズに比べて非常に安価なだけに、そのパフォーマンスについても値段相応の性能にとどまっています。CUDAコア数は1024基、メモリ容量は4GBと、先の数字を見た後では少々拍子抜けしてしまうかもしれません。

ただ、それでもコスト面でのメリットを考えると、リーズナブルにディープラーニングを実験的に始めたいという場合には、活用機会のあるモデルです。スペック不足は複数枚のGPU導入で補うことも可能なので、パフォーマンスを見ながら増設すると良いでしょう。

TDPも80Wと、1機あたりのパワーが小さいだけに消費する電力も小さいので、家で使う場合でも家庭内の電力事情を考慮する必要はありません。

また、GPUは毎年新しいモデルが登場することもあり、型落ちモデルはすぐに値下がりする傾向にあります。RX 560は2017年に登場したモデルなので、すでに何台もの新製品が世に送り出されています。

そのため、型落ち版として新品の製品でもセール対象となっていることが多く、うまく格安で複数台入手できれば高いコストパフォーマンスを発揮してくれるでしょう。

Radeon Ⅶ

RX560とは打って変わって、Radeonモデルのハイエンド製品がRadeon VIIです。価格帯は7万円〜8万円というこちらのGPUは、やはり価格に見合ったハイパフォーマンスを発揮してくれます。

第2世代「VEGA」アーキテクチャを備えるRadeon VIIは、第1世代のモデルに比べて1.8倍のゲーミングパフォーマンス、および16GBという2倍のメモリ容量を実現し、快適なグラフィック描写を実現しています。

これらの性能は、もちろんディープラーニングも前向きな影響を与え、大きな処理が必要なデータであってもスムーズに動作します。

GPUの快適な動作を支えるのが、適切な温度管理です。Radeon VIIでは、ジャンクション温度と呼ばれるGPUの温度指標を採用しています。これは、GPUに配置された全64にものぼる温度センサーによって、GPU全体の温度をくまなく把握ができるというシステムです。

ここから得られた数値を基準にして、確実な熱保護を実現してくれます。TDPも300Wと、この価格帯のモデルとしては平均的な性能です。

ディープラーニングに最適なGPUの選び方

上記で紹介したもの以外にも、GPUにはさまざまな製品が存在します。これらのラインナップから、自分に最適なモデルを選ぶためのポイントを紹介します。

世代の若いGPUを選ぶ

ディープラーニングに最適なGPUを選ぶ場合、最も簡単で効率的な方法が、新しい世代のGPUから選択するという選び方です。

GPUもPCやスマホと同様に、毎年新しいモデルが登場するだけでなく、少しずつ性能も向上しています。1年程度の違いであれば大きく変わることもそうありませんが、3年、5年の違いとなってくると、同じ価格帯のモデルでもパフォーマンスに差が生まれてきます。

もちろん、最新のモデルでハイエンドなGPUを購入するとなれば、相応の価格になってしまいますが、その分高い処理能力で人工知能の学習処理を手助けしてくれることは間違いありません。

また、同世代としてリリースされているGPUで同じシリーズのモデルであっても、製品によって微妙なグレードの違いが存在します。簡単にそれらの違いを判別する方法が価格ですが、数万円単位での違いがある分、それだけパフォーマンスにも差が出ています。

単純な性能の違いだけでなく、特定の機能の有無やそれぞれのモデルの得手不得手によってグレードが分けられている場合もあります。同世代の中から最適の一台を選ぶ際には、細かいスペックを比較しながら選ぶことが大切です。

もし最新の世代のGPUの購入が予算の都合で難しい場合には、一年ずつモデルを遡ってみることも重要です。1～2年であれば、性能にそこまで大きな違いがないのにも関わらず、価格が下落してお求めやすい値段になっていることもしばしばあります。

新しいラインナップから選定をすすめ、ほど良い価格とパフォーマンスのGPUを選び抜きましょう。

コストパフォーマンスで考える

少しでも高いコストパフォーマンスを求める場合には、世代の若さに囚われることなく、もう少し広範な目でGPUを選んでみるのがおすすめです。

発売から3年、5年たったGPUは、次世代のGPUに比べるとそのパフォーマンスは劣ります。ただ、これはあくまで一枚あたりで考えた場合のスペックの差であり、2枚使いを行ったときのパフォーマンスはその限りではありません。

実際、発売からやや年数が経ったモデルは価格が大幅に割引されているため、2枚買ったとしても大きな出費とならないこともしばしばあります。そのため、高価な次世代GPUを一台購入するよりも、旧世代のGPUを割引価格で2枚購入し、運用をした方がコストパフォーマンスに優れるケースがあります。

PCの販売を担うパソコン工房では、一台あたりのスペックに優れたGPUであるGeForce RTX 2080 Tiを1枚と、安価なGeForce RTX 2060 Superの2枚使いでパフォーマンスに差があるかを検証しています。その結果をスコアリングしてみると、GeForce RTX 2060 Superを2枚使いにした方が、コストパフォーマンスとしては優れる数値を算出したのです。

コスト面での効果を考えた場合、型落ちGPUの活用に注目することも大切です。

VRAM容量（メモリ）に注目する

VRAM容量とは、GPUにおけるメモリ容量を指すキーワードです。メモリ容量の大小はGPUの性能を測る上で非常に重要な存在で、これが大きければ大きいほど高いパフォーマンスを発揮します。

例えば、ゲームや映像編集においてはメモリ容量が大きいほどラグや操作遅延が少なく、快適な操作を実現します。ディープラーニングにおいては計算処理の速度に直結するため、やはり容量は大きいに越したことはありません。

複雑な計算が必要になれば、一度の処理で必要とする容量も巨大になります、そのため、そもそも十分なVRAM容量が確保されていなければ、ディープラーニングをまともに行うことも難しくなるでしょう。

せっかく購入した GPUだけれど、メモリ容量が不足していて現在の環境ではディープラーニングができなかったという事態を回避するためにも、VRAMのスペックにはしっかりと目を通さなければなりません。

NVIDIA® Tensor Coreの有無を確認する

ディープラーニング活用に最適なGPUを選ぶ上で、近年の新しい指標となっているのがNVIDIA® Tensor コアの有無についてです。TensorコアはNVIDIAが独自に提供する技術の一つで、AI 向けの極めて効率的な計算を高い精度で実現しています。

ディープラーニングのようなAIのトレーニング、およびAI推論の両方に優れており、ディープラーニングの高速化に役立ってくれる技術です。TensorFlowやPytorchとの互換性は極めて高く、TensorFlowの既存プロジェクトが存在する場合、たった2行のコードを記入するだけでトレーニングスピードを3倍にまで拡張できます。

ずば抜けた性能を誇るTensorフロー導入済みのGPUのパフォーマンスについては、競合他社であるはずのIntelが、正式にその性能の高さを認めるなど、GPU業界においても非凡な注目を集めています。

上記で紹介したRTX3060を始め、現世代のNVIDIA製GPUにはこのTensorコアが標準搭載されています。AI活用において優れた効率を誇るこれらのシリーズは、AI向けのGPU導入を考えるにあたって優先的に検討したいところです。

ディープラーニングに適したGPU環境の整え方

ディープラーニングに最適なGPUを選んだ後は、GPUに最適な環境の整え方についても見ておきましょう。

排熱性能に優れた環境を用意する

強力なスペックを必要とするディープラーニング環境のような現場でのGPU活用には、排熱性能に優れるコンピューティングを実現する必要があります。

GPUは計算処理を行う際、非常に高い温度の熱を放出し、コンピューターをオーバーヒートさせる可能性があります。適切な熱処理が行えないと、計算のパフォーマンスが遅くなってしまったり、適性温度に戻るまで計算が止まってしまったりと、GPU本来の性能を発揮することができなくなります。

冷却ファンの導入や、通気性の確保によって、GPUが常に一定の温度を保てるよう周囲環境の構築を行うことは大切です。ハイスペックなGPUを導入する場合には、その周辺環境の整備にもある程度の予算を投じることが重要です。

GPUクラウドを活用する

ハイスペックなGPUを即座に用意できる予算がない、あるいは物理的な導入スペースの制限に苦しんでいるという場合には、クラウド経由でGPUを拡張するというのも一つの手段です。

GPUクラウドはディープラーニングをはじめとする計算処理や、グラフィックの処理など、さまざまな用途に活用できるGPUをオンラインで利用可能なサービスです。

GPUクラウドとは？オンプレミスと比較したメリット

導入は短期間で行えるだけでなく、必要なスペックと期間を自由に設定し、導入を進められるので、高いコストパフォーマンスを期待できます。また、契約の更新もいつでも行えるので、期間限定でGPUのパフォーマンスを高めたいという人にも有益なサービスです。

当社のクラウドGPU「M:CPP」は、クラウド経由でGPUを利用することができます。そのため、ライセンス料金を支払うだけで自由にリソースを拡張することができます。

ディープラーニング向けGPU：ハイパフォーマンス編

ここで、ディープラーニング向けのGPUについて代表的な製品を確認しておきましょう。まずは、ハイパフォーマンスな製品を消化思惟します。

NVIDIA RTX A6000

画像引用元：NVIDIA RTX A6000 グラフィックスカード（LENOVO）

NVIDIA RTX A6000は、デスクトップワークステーション向けに生産されている、世界でも有数のパワフルなビジュアルコンピューティング GPUです。GPUメモリは48GBと大きく、通常のGPUを遥かに凌駕するスペックを有しています。

新型のTensor Float 32（TF32）を採用することで、従来のTensorコアを採用するGPUの5倍近いAIモデルのトレーニングを高速化できることが強みです。

NVIDIA Tesla T4

画像引用元：NVIDIA Tesla T4（ELSA）

NVIDIA Tesla T4は、AI開発や推論に活躍するハイエンドGPUの一種です。新しいNVIDIA Turing^™アーキテクチャを基盤に、エネルギー効率に優れる70 ワットの小型PCIeフォームファクターへ格納された本製品は、他製品よりも優れた計算能力を発揮します。

他の製品と比較して、最大 40 倍のスループットを実現するため、より多くのリクエストをリアルタイムで対応可能です。スピーディな計算が求められるディープラーニングにおいて、信頼性に優れる製品といえるでしょう。

NVIDIA Quadro GV100

画像引用元：NVIDIA Quadro GV100

NVIDIA Quadro GV100は、32GBの超高速大容量HBM2メモリを搭載した、ウルトラハイエンドなGPUです。5120基のCUDAコアと640基のTensorコアを搭載しており、ディープラーニングにおいて強力な演算能力を発揮します。

別売りのNVLink ブリッジを利用すれば、デュアルGPUで更なるハイパフォーマンスを得られる拡張性も備えていることが特徴です。

AMD Instinct MI100

画像引用元：AMD Instinct MI100（AMD )

AMD Instinct MI100は、業界初のオープンソフトウェア・プラットフォームであるAMD ROCm™がサポートするハイエンドGPUです。ディープラーニング開発に特化した製品仕様となっており、前世代の AMD アクセラレーターと比較してHPC （FP32マトリックス）の約3.5倍、AI（FP16）スループットの約7倍のブースト性能を発揮できます。

従来の研究者では手が届かないとされた演算能力をサーバーにもたらし、研究開発能力の底上げが期待できます。