ImageNetは、画像認識AIの学習と評価に用いられる、1400万枚以上の画像からなる大規模なデータセットです。ImageNetは「大規模画像認識チャレンジ」というコンテストを開催しました。アルゴリズムに大量の画像データを見せて、それが犬なのか猫なのか、あるいは自動車なのか分類させるというものです。
人間は、ImageNetで猫の画像100枚のうち95枚を正しく識別できます。2010年に、当時の高性能なアルゴリズムの正答率は72%でした。2011年になると、正答率は75%まで上がりました2012年の大規模画像認識チャレンジでは、AlexNetのアルゴリズムが85%の正答率を叩き出しました。
AlexNetは、コンピューター科学の専門家、ジェフリー・ヒントンの研究室のAlex Krizhevskyらによって開発された画像認識モデルです。2012年、AlexNetが大規模画像認識チャレンジで圧勝したことは、世間一般ではほとんど話題にはなりませんでしたが、AI業界には大きな衝撃を与えました。この勝利は、ディープラーニング技術が画像認識の分野で大きく注目されるきっかけとなりました。
2015年になると、マイクロソフトのアルゴリズムが96%の正答率を達成し、人間が猫の画像を識別する能力を抜き去りました。猫の画像を正確に識別できること自体は、実社会であまり役立たないかもしれません。しかしその技術を他の画像に応用できれば、大きなメリットが生じます。
人間の顔認証は、20年ほど前はエラー率が20%ほどでした。5回に1回は間違うということで、これでは実用性に乏しいといえるでしょう。2018年に行われた顔認証テスト「FRVT2018」では、NECがエラー率0.5%を記録し、第1位を獲得しました。現在では、最適な条件下ではエラー率0.03%という極めて高精度な顔認証システムもあります。
画像認識で大事なのが、どれだけ大量のデータを集められるかです。もちろん、効率的に学習させるノウハウも大事ですが、それも大量のデータがあるという前提条件があります。100人分の画像データしかなければ、どれだけ優秀なアルゴリズムを用いても、正確な顔認証はできないでしょう。
大量の画像データを収集するのは、当然人の手だけでは不可能です。効率的に画像データを収集するシステムを用意する必要があります。また、それだけ大量のデータを保管できるだけのストレージも必要になります。つまり、巨大資本がなければ優秀なアルゴリズムを作ることは難しい時代になってきているようです。