【詳細】ディープラーニングと画像認識の関係性は？仕組み・今後の展望と活用事例

画像認識技術は、人工知能の発達により、ここ数年で大きな精度の向上が見られています。

そして、10年前では考えられないほどの進化を遂げているこの技術の裏には、ディープラーニングの普及が背景にあります。

人工知能分野のスタンダードとなりつつあるディープラーニングは、画像認識にどのような影響を与えているのでしょうか？

今回は画像認識とディープラーニングの関係について、詳しく紹介していきます。

画像認識とは

そもそも画像認識とは、コンピューターがまるで人間のように写真や絵などを認識し、必要に応じた状況判断ができるようになる技術のことを指しています。

リンゴのわずかなシミの有無を見分けて品質管理に応用したり、人間の顔の区別ができるようになることで、本人確認をスムーズに行えるといった活用方法が挙げられます。

半世紀近い研究の歴史がある画像認識ですが、人工知能の登場により、今大きな進化を遂げようとしています。

画像認識の仕組み

人間が写真に写っているものを判断する際、視覚と脳が瞬時にリンクして「これはネコだ」といったような判断を下すことができます。

しかし、コンピューターによる画像の判断は、もう少し複雑なプロセスを必要とします。

コンピューターが画像を認識するためには、まず画像処理、および抽出の工程を挟みます。

この段階では画像に加工を施し、コンピューターが読み込みやすいよう画像のノイズや歪みを除去し、ピクセル単位で情報の抽出を行います。

画像情報の最小単位を求めると、小さなピクセルにたどり着きます。

コンピューターはピクセル単位で画像を捉え、その集合体がどのような形状をしているかによって、その画像が何であるかを予測しようとします。

そして、抽出した画像が何なのかの判断を促すのが、事前に学習させてきた情報の数々です。

「赤くて丸いものはリンゴ」「オレンジ色はみかん」といったように、あらかじめ答えをコンピューターにできるだけ学習させておくことで、新しい画像データに触れた場合でも、適切な判断を下せるようになります。

画像認識技術が抱えてきた課題

高いポテンシャルを秘めている画像認識技術ですが、実際に実用的なモデルを構築するとなると、困難の多い技術でもありました。

例えば、AI登場以前も画像の正誤判定をコンピューターは行うことができましたが、このためには人間が自らピクセル値を指定し、そこに当てはまるものはすべて正、当てはまらないものは誤といったように、融通の利かない仕様しか達成することができなかったのです。

人間は経験から人の顔か、そうでないかを容易に判断できますが、AIのないコンピューターは経験を蓄積できず自ら判断を下すことができません。

コンピューターはあらかじめ得られたデータにぴったり合致するものしか、認識することはできなかったのです。

しかし、AIが発達したことにより、コンピューターは多様な画像データに触れ、正しく正解を導けるようになってきました。

人間のように融通の利く判断ができるようになったため、人が数値を指定しなくとも、自らこれは正解か否かを把握できるようになっています。

まだまだ精度は完璧であるとは言えませんが、十分にビジネスレベルで広く活躍できるレベルには達していると言えるでしょう。

画像認識とディープラーニングの関係性

画像認識の精度を大幅に向上させることになったのが、「ディープラーニング」と呼ばれる技術です。

深層学習とも呼ばれるこの技術は、AIと画像認識の可能性を大幅に引き上げてくれることとなりました。

精度の大幅な向上に貢献するディープラーニング

画像認識におけるディープラーニングの有用性が証明されたのは、ほんの数年前の話です。

定期開催されている最大級の画像認識協議会「ILSVRC」で、カナダのトロント大学のチームがはじめてディープラーニングを同大会で活用し、画像認識の精度を飛躍的に高めることに成功したことに端を発します。

他のチームがエラー率26％前後のところ、エラー率17％弱と驚異的な認識率をマークし、人工知能や画像認識に対する注目度は右肩上がりとなっていきました。

研究だけでなくビジネスへの応用も進展

一般的な人工知能の機械学習ではたどり着けないスピードで学習を進めていくことができるディープラーニングは、これ以降世界中で研究が進められ、今では先端技術として各企業でも利活用に向けた動きが進められています。

画像認識だけでなく、ディープラーニングはさまざまな分野に応用することができます。

例えば、自然言語処理分野、いわゆる機械翻訳の例を見てみると、大幅な進化を遂げている様子がわかります。

機械翻訳サービスは、私たちの生活においてもよく利用されるサービスの一つですが、課題として自然な翻訳が実現しないということが挙げられてきました。

人間のように文脈を理解して言語を翻訳することができなかったため、従来の機械翻訳は文字通り単語ごとに適当な言葉へ翻訳し、そこからユーザーがなんとなく意味を理解する他ありませんでした。

しかし、ディープラーニングを駆使して開発したという新しい機械翻訳サービス「DeepL」では、まるで人間が翻訳しているかのような、非常に滑らかな翻訳処理を行うことに成功しています。

人間にしかできないと考えられてきた頭脳労働も、ディープラーニングによって機械に代替することが可能になりつつあるのです。

ディープラーニングによる画像認識の仕組み

そんな高い精度を誇るディープラーニングですが、画像認識で活用する場合、どのような仕組みで活躍しているのでしょうか？

ディープラーニング（深層学習）の仕組み

そもそも、ディープラーニングというのは、これまでAIの開発においても盛んに活用されてきた機械学習の一種であるとされています。

機械学習というのは、あらかじめ大量のデータをコンピューターに読み込ませることによって、答えを自律的に導き出すことができるよう教育を行うプロセスです。

ディープラーニングもまた、機械学習のプロセスを踏襲しています。

大量のデータを読み込ませ、自らデータの規則性を発見できるようになることが目的ですが、通常の機械学習と異なるのは、ニューラルネットワークを活用している点にあります。

ニューラルネットワークというのは、人間や動物が持つ脳神経の回路をコンピューター向けに設計し、自らパターンを多層化させることで、物事の結びつきについての理解をより深めることができる仕組みです。

これまでの機械学習において、コンピューターはインプットする情報を別個に判断することしかできませんでした。

しかし、ニューラルネットワークを活用することにより、これまでに学習した情報の結びつきが強固になり、正誤判定の精度向上につながる規則性を発見しやすくなったのです。

ディープラーニングが画像認識に貢献している部分

画像認識において、もう少し具体的にディープラーニングが貢献している部分を噛み砕いておくと、画像情報を加工し、必要なデータを抽出した次の段階での役割が重要です。

画像認識を行う際、コンピューターはこれまで学習してきたデータから、その画像が何の画像なのかを導くことになります。

通常の機械学習で画像認識を進めていく場合、正しく回答を導くためには膨大なデータを必要としますが、無数のデータを読み込ませても期待していたような精度を実現できるとは限りません。

しかし、ディープラーニングが可能な人工知能であれば、同じ量のデータでも、その精度の差は歴然です。

ディープラーニングでは、インプットした情報を層として認識し、入力した情報のすべてをネットワークで関連付けながら学習していくため、規則性を見つけやすく、なおかつ優れた精度で獲得しやすくなっているのです。

そのため、同じ量を学習した場合でも、その結果には大きな差が生まれることになります。

これまでは不十分な量とされてきたデータ量でも、ディープラーニングを採用することで望み通りのパフォーマンスを発揮することができるようになるかもしれません。

ディープラーニングの学習方法

ディープラーニングの具体的な学習方法については、いくつかの種類があります。

最も一般的なのが、ディープニューラルネットワーク（Deep Neural Network）、通称DNNと呼ばれるものです。

一般的なニューラルネットワークは「入力層」「隠れ層」「出力層」が各1層ずつ、合計3層の構成となっています。

しかし、ディープニューラルネットワークにおいては、隠れ層が2層以上、つまり合計4層以上にもなる構成となっており、より優れた学習能力を獲得することができるようになっています。

これまでは、ニューラルネットワークを4層以上にしてしまうと、精度をコントロールすることができなくなると考えられてきたため、あまり使われてこなかった技術です。

しかし、コンピューターの性能が向上し、ビッグデータの活用にも注目が集まったことで、ディープニューラルネットワークを実用的に使えるよう環境も変化してきました。

ディープラーニングは、ハードウェアの性能が向上したことで実現した技術であるとも言えます。

画像認識に役立つ「畳み込みニューラルネットワーク（CNN）」

そして、画像認識において活躍している学習方法が、畳み込みニューラルネットワーク（Convolutional Neural Network）、通称CNNと呼ばれる手法です。

畳み込みニューラルネットワークは、画像の中にある特徴を学習していく「畳み込み」と呼ばれる作業と、画像群から抽出した特徴を貯め込み、そこから最も特徴の値が大きな情報を選別する「プーリング」と呼ばれる技術から成立しています。

画像の中からコンピューターが適切な情報を選び、認識を行うためには、画像から規則性を導き出す能力が必要になります。

CNNは、この規則性を導く上で重要な役割を果たすのです。

CNNは、人間が理解することができないレベルの特徴をも判別し、規則性を発見するのに役立てることができます。

CNNの導入によって、ディープラーニングを用いた画像認識の精度は飛躍的に向上してくこととなりました。

画像認識の将来

ディープラーニングの力で画像認識技術が向上することにより、研究にとどまらず、さらなる社会での活躍も進んでいくでしょう。

画像認識の市場規模

画像認識は、ビジネスにおける注目度がすでに高まっており、実践投入も世界中で進んでいます。

リサーチ会社であるミック研究所の調査によると、AIおよびディープラーニングを活用した画像認識ソリューション市場は、右肩上がりの成長を今後数年は継続していくと考えられています。

2018年度の同市場は53億円程度であったのが、2019年には115.7億円と、2倍以上の成長を遂げています。

わずか1年で倍の規模まで大きくなる分野はそうあるものではなく、いかにAI市場が急成長しているかがわかる数字です。

また、以降も年間平均95%近い数字で成長を続け、2023年度には1,500億円の市場に達すると見込まれており、2020年代はAIの10年になることが期待されます。

画像認識だけでこれだけの市場を形成するということですから、それ以外のAI活用も含めると、その市場規模は膨大なものとなります。

向こう10年の間で、世の中のAI化は一気に進んでいくことになるかもしれません。

あらゆる業界で活躍する画像認識

AIおよびディープラーニングを活用した画像認識の技術は、さまざまな分野で活躍することが期待されています。

先ほどの調査結果を参考にしてみると、まず運用が進められていくと期待されているのが、検品や検査といった品質管理の分野です。

これまでは手動で行なっていた検品作業も、AI画像認識の力で無人化することができるため、大きなコスト削減効果が見込めます。

また、コンピューターに検品作業を任せてしまうことで、ヒューマンエラーの可能性も大きく低下させることができます。

24時間365日、常に同じパフォーマンスを発揮することができるため、検品漏れが発生してしまう心配もありません。

次に成長すると予想されているのが、測定や探索といった、リサーチ関連の分野での活躍です。

画像を読み込むことで、物体や空間の適切な測量を行うことが実現したり、行方不明者を画像から探索したりなど、さまざまな活用方法が期待できます。

あるいは、セキュリティ分野での活用もポピュラーなものとなるでしょう。

すでにスマートフォンなどでは顔認証によるロック解除が導入されており、私たちにとって最もポピュラーな運用方法の一つとなってきています。

税関や入国許可など、厳重な本人確認が大切な場所においても、すでに画像認識技術は採用されています。

これまでは、人が直接一人ひとりの旅行者をチェックしていたのが、機械による読み取り式の認証が導入されたことで、無人化に成功しています。

今後も活用事例が増えていけば、さらに新しい運用方法が生まれてくることにも期待できます。

マーケティングや流通における物品管理など、多くの分野で活躍することになりそうです。

画像認識の活用事例

最後に、実際の画像認識とディープラーニングが活用されている事例について、具体的に確認していきましょう。

製造業

製造業における画像認識の活用方法としては、検品作業の効率化に期待がかかります。

システム計画研究所が開発したgLupe® Version.2は、AI活用してわずか数十枚の良品データをインプットするだけで、人の目に頼らない外観検査を実現するソフトウェアとなっています。

これまで、画像認識機能を活用するためには、大量の良品データを読み込ませ、何が正しく、どれが誤りなのかを細かく学習させる必要がありました。

この学習のためには、各社が製品に合わせてビッグデータを用意しなければならなかったため、利便性が高いとは言え大いに手間のかかる作業であったのです。

しかし、gLupe® Version.2においては、わずか数十枚のデータで画像認識が行えるということで、優れた学習能力を備えた製品として、期待することができます。

金属表面の傷や凹み、ネジの緩みや木目の汚れなど、人の目でも確認が大変な検品作業を、わずかな時間で大量に行うことを実現してくれるでしょう。

セキュリティ

画像認識の技術を活用することで、不審者の検知などの防犯対策の向上も期待することができます。

丸紅ネットワークソリューションズが提供する「TRASCOPE-AI（トラスコープエーアイ）」では、防犯カメラにAIを導入し、人やモノを区別して検知することはもちろん、個人の顔までもを認識できるようになります。

従来の防犯カメラの役割は、あくまで映像を記録しておくことであり、何らかのトラブルや犯罪が発生した際、証拠として残しておくことができる能力しか持ち合わせていませんでした。

24時間即時対応ができるような環境を整えるためには、警備員を24時間常駐させておく必要もあり、大きな負担になることから、気軽に導入できるものではなかったのです。

しかし、トラスコープエーアイを導入することによって、不審人物が現れたときや不足の事態が発生したときにのみ、警備会社やオーナーに通知し、緊急事態であることを通知することが可能になります。

防犯カメラ自身が警備員となって現場を監視してくれるため、人間が常に監視場所へ張り付いておく必要はなくなります。

また、人の目では見逃してしまいがちな些細な問題もしっかりと捉えることができるため、防犯性能の向上にも期待することができます。

マーケティング

画像認識技術を応用することで、マーケティング分野での活躍も進んでいくかもしれません。

日本防犯システムが提供する画像認識プラットフォームのAIZE（アイズ）は、防犯カメラにインストールすることにより、AIによって顧客情報の収集、および分析を行うことができます。

アイズを導入すれば、店舗に設置したカメラを通じて、来店者の情報を顔認識や服装認識からリアルタイムで把握できます。

訪問した人はリピート顧客なのか、購買意欲が高い来店者なのかなどを判断し、最適な接客対応を実現するという仕組みです。

不審者の検知システムも兼ねているため、防犯対策と集客効果向上の両立を実現できるでしょう。

まとめ

ディープラーニングを駆使した画像認識技術の仕組みや具体的な活用事例、今後の展望について紹介しました。

画像認識技術の精度は飛躍的に向上しており、それだけ活用方法も多彩になってきています。

今後10年でこの技術はますます成長し、私たちの生活へ浸透していくことになるはずです。