【2022】ディープラーニングが「強化学習」に与えた影響とは？深層強化学習も紹介

人工知能（AI）開発は、ここ10年ほどで大きな飛躍を遂げてきましたが、同時に多様なアプローチの開拓も進みました。中でもディープラーニングのような複雑な学習プロセスが今ほど普及したことは、AI研究者の間はもちろん、一般社会にとっても多大なインパクトを残しています。

今回は、そんなディープラーニングのポテンシャルの高さに注目し、さらなるAIの飛躍をもたらすとされている「強化学習」に与える影響について解説していきます。

強化学習とは

まずは、そもそも強化学習がどのような学習プロセスであるかについて確認しておきましょう。強化学習は、AI自らがトライアンドエラーを繰り返すことで、与えられた目標の達成に向けた学習を繰り返すというものです。

強化学習の仕組み

強化学習は、与えられた条件の中で、同じく与えられた目的を達成するべく、実に多くの試行錯誤を行います。逆に、試行錯誤を繰り返して、さらなる高みを目指せるようなタスクの達成に用いられるのが強化学習と呼ばれる手法です。

代表的な強化学習の実践例といえば、テレビゲームです。AIに対して「このゲームでとにかくハイスコアを目指せ」と目的を設定し、どうやって操作すれば良いのかを伝えた後は、AIが一人で学習を繰り返します。

特徴的なのは、何千回、何万回とゲームプレイを繰り返すことで、徐々にゲームのルールを理解し、効率的な動きができるようになることです。最初はプレイヤーキャラクターを動かすのに精一杯だったのが、気がつけば人間以上に器用にゲームをプレイし、常人ではたどり着けないスコアに到達していることも珍しくありません。

このような強化学習のプロセスを支えているのが、明確な報酬体系です。上記のゲームの例を再び参考にすると、AIが正しい解へ近づいている場合、「スコアの獲得」という明確な形でAIへ報酬が与えられる仕組みになっています。

コンピュータは「スコアが増えれば増えるほど良い」とプログラムされているため、自らスコアを伸ばすための方法を発見し、取り組むようになります。まるで歩合制で働く労働者のように、成果主義的な仕組みを導入しているのは、強化学習独自のシステムといえるでしょう。

強化学習と「教師あり学習」「教師なし学習」との違い

ここで、強化学習とその他の学習プロセスの違いについても見ておきます。機械学習には強化学習の他にも、「教師あり学習」と「教師なし学習」と呼ばれるアプローチが存在します。それぞれの特徴と相違点を確認しましょう。

教師あり学習との違い

教師あり学習は、機械学習プロセスの中でも最もポピュラーな存在として認知されている学習プロセスです。事前に正解ラベルが付与された教師データを用意し、コンピュータに読み込ませることで、正解の事例とそうでない事例を同時に学習させることができます。

明確な正誤判定を行いやすい問題、たとえば果物の分類や品質チェックなどに採用されているのが特徴です。人工知能開発においては最もポピュラーで、なおかつ取り組みやすい学習方法であるため、頻繁に採用されています。

強化学習との違いとしては、教師データを必要とする点にあるでしょう。強化学習は正解データを必要としない学習方法で、環境を与えることでAIが自動的に解へと近づいてくれます。また、強化学習を採用する課題は正誤判定のように明確な区別ができないケースも多く、ひたすらにハイスコアを目指せる命題に対して採用される傾向にあります。

ディープラーニングと「教師あり学習」の違いとは？メリットと課題

教師なし学習との違い

二つ目は、教師なし学習です。教師なし学習はデータを読み込ませてAIに学習させるという点では教師あり学習と同様ですが、インプットするデータに正解ラベルを貼り付けなくて良いというのが特徴的です。

教師なし学習が重視しているのは、各データに付与されている「特徴量」の存在です。特定のタスクを解決するためのヒントになると考えられる特徴を、インプットするデータから独自に発見し、重みづけを調節していくことで、正解を導きます。

機械学習の「特徴量抽出」においてディープラーニングが重要である理由

教師なし学習は、ディープラーニングの登場によって注目を集めるようになった学習プロセスです。自発的な特徴量の発見には膨大なデータ量と強力なマシンパワーが求められますが、そのぶんより高度な問題に取り組めるようになりました。

教師なし学習も、教師あり学習と同様にデータの読み込みを外部から行う必要がある手法です。強化学習はAIが学習に必要なデータと環境をあらかじめ整備して学習をスタートさせるため、データの収集に時間をかける必要はないのが特徴的と言えるでしょう。

ディープラーニングの「教師なし学習」とは？教師あり・強化学習との違いと活用事例

強化学習の持つ強み

続いて、強化学習の持つ強みについて紹介していきます。強化学習が好んで採用されているのには、効率性はもちろん、AIでしかたどり着けない答えを導くことができる点も評価されているケースが多いといえます。

自発的に学習を進めてくれる

一つ目の強みは、自発的な学習を実現できる点です。

強化学習は一度学習をスタートさせてしまえば、後はマシンを動かしているだけで学習を自動で進めてくれます。教師なし学習や教師あり学習では絶えずデータをインプットする必要がありましたが、強化学習は一人でAIが理解を深めてくれるため、比較的世話がかからない手法であるともいえます。

ただ、もちろん一定の成果を得るためには膨大な学習時間を必要とする上、短期間で学習成果を得られるためにはある程度のマシンパワーが求められます。インプットデータの品質にこだわる必要がない分、成果へ効果的につなげられるマシンスペックを用意しておく必要はあるでしょう。

人間では到達できない高みにたどり着くことがある

二つ目の強みは、無限の可能性を強化学習は秘めている点です。前述のテレビゲームの例を再び検討してみると、AIに与えられた課題が「できる限りハイスコアを目指す」ことである場合、時間さえかければ永遠にゲームをプレイしていられるAIが完成する可能性もあります。

どれだけ難易度の高いゲームで、人間では80程度のスコアが限界だとしても、強化学習を行ったAIであれば、100でも200でも到達してしまう可能性があります。人間よりもゲーム勘のような感覚的な理解には乏しいものの、マシンが動いている限りは24時間試行錯誤を重ねられるため、短期間で人間の限界を越える可能性は十分にあります。

ディープラーニングが生み出した「深層強化学習」とは

強化学習は確かなポテンシャルを持った学習方法といえますが、ディープラーニングの技術を活用することで、その可能性がさらに広がることとなりました。ここで、ディープラーニングによって生まれ変わった新しい学習形態である「深層強化学習」について紹介します。

深層強化学習の仕組み

ディープラーニングがAIにもたらした一番の功績は、自律的に特徴量を抽出できるよう促したという点です。前述で紹介した「教師なし学習」も、ディープラーニングの技術がなければ実現し得ないものだったといえるでしょう。

そんなディープラーニングの特徴量抽出能力は、強化学習の分野においても有効です。

強化学習は、外部からのデータを必要としない代わりに、自らの行動とその結果からデータを評価し、学習へと結びつける機能を備えています。ディープラーニングのアルゴリズムを活用することで、自身の行動がどんな結果をもたらすかの予測に対してディープラーニングを実施し、そこに特徴を見出すことによって、最適な行動パターンの把握を効率よく進めていくことができるようになりました。

強化学習の各過程において深く考えることが深層強化学習では可能になっているため、より複雑な読みや最適解の発見スピードを高めることに成功しています。

強化学習の主な運用方法

強化学習の運用可能性は、深層強化学習が登場したことによって、さらに広がっていくこととなりました。ここでは、強化学習の主な運用方法について紹介します。

ゲームプレイング

強化学習のわかりやすい運用事例として頻繁に紹介されるのが、ゲームプレイングです。ビデオゲームやボードゲームなどは目的がわかりやすく、条件設定も容易であるため、時間をかければ人間よりも優れたAIを開発しやすいことが特徴です。

近年は囲碁や将棋、チェスといったポピュラーなボードゲームにおいても次々と人間のプレイヤーを凌ぐレベルのAIが登場しており、いよいよ人間では太刀打ちができないレベルにまで到達しつつあります。現実世界で複雑なルールをクリアしながら人間を凌ぐのは難しいものですが、ゲームというルールが明確に定められた世界では、もはやAIに人間が勝つことは困難な時代へとなりました。

自動運転

強化学習を現実世界でも活用しようということで、よく例に挙げられるのが自動運転です。自動車の運転は、誰でも一定の年齢になれば免許を取得する機会が与えられ、多くの人が有している日常的なライセンスである一方、ロボットにとって運転技術は困難を伴う作業の一つです。

アクセルやブレーキのタイミングはもちろん、リアルタイムで目の前の物体を検出しながら障害物を避けるといった行為は、高度な技術力がなければ再現が難しい挙動です。

強化学習を活用することで、そんな自動車の運転もAIによって完全に自動化することが叶いつつあります。完璧な運転をこなすのは難しいものですが、試行錯誤を繰り返すことによって、長距離コースや障害物コースなど、さまざまなシチュエーションでも難なく運転を行えるAIの開発に貢献できます。

広告配信

身近な強化学習の運用例としては、広告配信なども挙げられるでしょう。

強化学習において重要なのは、価値を無限に最大化できる問題を提示することです。広告配信においても、どれだけ閲覧されたか、どれだけクリックにつながったかなどは明確に数値化されているため、トライアンドエラーを繰り返すことで最適な広告配信のあり方を導くことができます。

どんな時間帯に配信するのか、どんな媒体で、どれくらいの頻度で配信するかなどの条件を細かく検討することで、最終的にはコンバージョン（目的）へ大いに貢献する配信システムを構築可能です。

強化学習運用の課題

強化学習は魅力的なメリットとさまざまな運用可能性を抱えている一方、懸念しておくべき課題も存在します。ここでは、強化学習を妨げる要因についても確認しておきましょう。

学習コストが高い

一つ目の課題は、学習コストの問題です。

強化学習は外部から学習データをインプットする必要はありませんが、効率良く学習を進めるためには、時間をかける必要があります。というのも、AIが課題に取り組み、結果が得られるまでは時間がかかるためです。

AIが学習を進めるためにはトライアンドエラーのワンセットを何度も繰り返す必要があるため、処理が終わるまでは新しい結果を得ることはできません。最初は失敗続きですぐに結果を得られるため、それほど違いが出てくることはありませんが、できることが複雑になってくると、一回の処理に多くの時間を要するようになります。

そのため、質の高いAIの開発を強化学習で行おうとするほど、学習に時間がかかるようになってしまうのが現状です。

シミュレーションコストが高い

二つ目の課題は、シミュレーションコストの問題です。

ビデオゲームのように、デジタルデータを使った試行錯誤であればコストの問題をそこまで気にする必要はありませんが、自動運転のような現実世界の課題となると話は違います。まず、一回の学習にかかる時間が非常に長いだけでなく、シミュレーションを何度も行うためには予算と時間も必要とするため、数をこなすことで学習効果を発揮する強化学習の世界では、相応の負担を覚悟する必要があります。

もちろん、現実世界で好きなだけシミュレーションができる予算があるのであれば実施しない手はありませんが、そうでない場合には相応の負担を覚悟しなければならないでしょう。

現実とのギャップに悩むケースがある

三つ目は、シミュレーションと現実世界のギャップです。どれだけシミュレーションの段階で高いパフォーマンスを発揮できても、現実世界のパターンに対応ができなければ、実践運用は遠ざかるばかりです。

シミュレータが完全に現実世界を模倣できない限りは、AIの学習結果が意味をなさないことにもなりかねません。学習環境を整備する際は、こういった側面にも気をつける必要があります。

深層強化学習を実施する上で必要なもの

深層強化学習によって、AIに複雑なタスクを解消してもらうためには、準備段階で不可欠な部分を補ってやらなければなりません。ここでは、深層強化学習を実施する上で必要なものについて、2つ紹介します。

膨大な学習時間

1つ目は、膨大な学習時間の確保です。強化学習は深層強化学習も含め、とにかく時間をかけて取り組まなければなりません。学習データを外部からインプットすることができないため、AIに経験の時間を確保してやらなければ効率的な学習は望めません。

そのため、強化学習は短期間でAIを育てたいときには向いておらず、中長期的にシステムを構築したい場合に運用すると良いでしょう。

優秀なデータサイエンティスト

優れた学習には、優れたデータサイエンティストも必須といえます。データの扱いに特化した人材がいれば、適切な強化学習の運用方法の提案や、学習過程での問題解決に力を発揮してくれます。人材確保に力を入れ、AIを自社開発できる素養を身につけましょう。

圧倒的な処理能力を持つハードウェア

強化学習は仕組みやプロセスだけでなく、ハード面にもこだわる必要があります。強化学習はとにかく処理する能力が求められるため、一昔前のモデルや劣化したGPUでは対応ができないこともあります。

特に期限内での成果を求める場合には、あらかじめ処理能力の高いマシンを備えておき、積極的な運用を兼用する必要があるでしょう。

まとめ

強化学習がディープラーニングにもたらした、新しい学習プロセスのあり方について紹介しました。

強化学習はまだまだこれから伸びていくと考えられる技術である一方、既存の組織にはハイテクすぎるということで、敬遠されることも少なくありません。適切な運用方法や手順を理解し、環境を整えた上で実行に移すことをおすすめします。

当社モルゲンロットが提供するクラウドGPUサービス「M:CPP」では、そんなハイクオリティな強化学習の運用を、クラウドGPUサービスの提供によって後押ししています。

大手クラウドサービスの半額以下の価格で提供するハイエンドなGPUサーバーを活用することで、迅速なリソースの補填と、高度な学習環境を整備できます。クラウドGPUの導入を検討されている際には、お気軽にご相談ください。

M:CPP公式サイト