ICMLミニ出張報告:革命は「教師あり学習」されない

  • 2019/8/20

こんにちは、AI技術部の古林です。

機械学習系の国際会議として最も有力とされるものが2つあります。
ひとつはNIPS改めNeurIPS、そしてもうひとつが今回私が参加したICMLです。

ICMLへの参加を通じて、機械学習の中でも非常に幅広いトピックについて情報収集をすることができました。
その中でも特に面白いと思ったのが今回ご紹介する「自己教師あり学習(Self-Supervised Learning)」という技術です。

ICMLミニ出張報告:革命は「教師あり学習」されない

機械学習と教師データ

「教師あり学習(Supervised Learning)」は、入力データと、それに対する「正解」である教師ラベルをコンピュータに教えることで学習を進める手法です。
近年のディープラーニングの発展により、入力と正解の組を大量に与えることで、複雑なタスクをこなすAIをより簡単に構築できるようになりました。

教師あり学習の困ったところは、この「入力と正解の組」を大量に準備するのが大変であることです。とくに「正解」たる教師ラベルは機械的に収集することが難しいため、AI作成のハードルを高める大きな要因になっています。
そこで、「より少ないデータで優れたAIを得る」ための様々な技術が研究されています。

教師ラベルのいらない学習!?

「自己教師あり学習(Self-Supervised Learning)」は、入力データに対して自動生成できる情報を教師ラベルとして学習を行うテクニックです。

例えば、画像データをランダムに回転したものを入力データとし、「入力画像が何度回転されたものか」を教師ラベルとすれば、それぞれ画像の中身について全く知らなくても機械学習の実行が可能です。

また他に、入力画像から2つの領域を切り出して、面像内での相対位置(上下左右+斜めの8方向)を教師ラベルとして学習するというパターンもよく知られています。

このように、入力データさえ集めれば、人間が教師ラベルを付与する必要なくどんどん学習ができるというのが自己教師あり学習の良いところです。

ただ上記の説明を見ると「回転角度がわかるモデルや相対位置がわかるモデルが得られたところで、それをどうすればいいの?」という疑問も生まれることと思います。
自己教師あり学習の課題はまさにそこで、教師ラベルが自動生成できるモデルでなければならないという制約が付くため、「何にでもは使えない」という難しさがあります。

表現学習としての自己教師あり学習

「回転角度がわかるモデルが何の役に立つの?」という疑問へのひとつの答えは「それ自体は何の役にも立たない」です。

一般的に、ディープラーニングモデルの中には以下の2つの作用が潜んでいると考えられています:

  1. 入力データの特徴を抽出してうまく数値に変換する作用
  2. その数値をもとに「正解」を導く作用

上記(1)で言及している「入力データの特徴を抽出した数値」のことを「特徴量」と呼びます。
たとえば画像を犬と猫に分類するディープラーニングモデルの内部では、まず入力画像を特徴量に変換し、それをもとに犬か猫かを判断する、という2つの作用が働いていると考えられています。

そしてこれら2つの作用は、ある程度独立して動いていることが知られています。
つまり、ある学習済みモデルの特徴量抽出を行っている部分だけを違うモデルに流用することが可能で、それによりゼロから学習を行うよりも精度が上がったり、必要な学習データ量が減ったりすることが確認されています。
イメージとしては、学習済みの犬と猫の分類モデルを流用すれば、チワワとダックスフンドと柴犬を分類するモデルが効率的に学習できるといったような話です。

特徴量抽出部分を得ることを目的とした学習を「表現学習」と呼び、この表現学習が自己教師あり学習の主要な使いみちのひとつです。
なにしろ入力データを集めれば集めただけ投入できるわけですから、教師ラベルを必要とする限られたデータによる学習よりも、多様な入力データに対応できる良質な特徴量抽出メカニズムが得られることが期待できます。
その後、入力データの一部に対して本当に得たい「正解」を教師ラベルとして付与し、自己教師あり学習済みのモデルを流用して、改めて学習を行うというわけです。

例えば人間の顔画像から年齢を推定するモデルを作りたい場合、入力データと教師ラベルとして顔画像と年齢の組を人間が頑張って作成する作業から完全に逃れられるわけではありません。
しかし、検索エンジンなどを利用して人間の顔画像を機械的に収集し、自己教師あり学習を行ったモデルを流用することで、本来ならば1万件必要であった教師ラベルが1000件で済ませられるといったことが期待できるようになるのです。

自己教師あり学習のみで有用なモデルをつくる

それでは、自己教師あり学習は他の学習の前座でしかないのかというと、そんなことはありません。

ICMLで発表された研究の中には、学習の対象をうまく設計することで、自己教師あり学習のみで有用なモデルを得ることに成功したものがいくつかありました。
ここではそのうちのひとつ、自己教師あり学習のみを用いて画像の奥行き推定に成功した研究をご紹介します。

自動運転車の実現にあたり、付近に存在する物体との距離は非常に重要な情報です。特別なデバイス(レーザーを利用するLIDARや赤外線カメラ)を使用すれば距離を直接測定することはできますが、費用や運用上の手間の問題から、普通のカメラの画像から奥行きを推定する手法が盛んに研究されています。

この研究では普通のカメラ1つで撮影した動画を自己教師あり学習することで奥行きを推定しています。
以下の動画を再生していただくと、普通のカメラで撮影した動画に対して、この研究によって奥行き推定を行った結果を見ることができます。
上段がカメラの映像で、下段が奥行き推定の結果です。周囲の物体の奥行きをきちんと認識していることがわかります。
くどいようですが、この奥行き推定モデルは上段に見えるような普通のカメラの映像のみから学習されている(LIDARなどによる真の奥行きデータが必要ない)ことに留意してください。

学習のメカニズムとしては、入力動画から連続する3コマを取り出し、

  • 2コマ目を見て奥行きを推定する
  • 1コマ目・2コマ目・3コマ目を見て、外界に対してカメラがどう動いているかを推定する
  • 1コマ目・3コマ目の画面と、奥行き・動きの推定結果を総合し、2コマ目の画面を推定する。これを実際の2コマ目の画面と比較する。

という3種類のモデルを学習します。全体で見れば、入力が連続する3コマ、教師ラベルがその2コマ目という自己教師あり学習になっています。
教師ラベルや特別なデバイスが不要なので、動画をとにかく大量に集めてガンガン学習に投入することができ、それにより高い精度を得ることに成功しています。

革命は「教師あり学習」されない

ICMLの自己教師あり学習ワークショップの締めくくりとして、カリフォルニア大学バークレー校のAlexei Efros教授による「Revolution will not be supervised」というタイトルの講演がありました。
意味としては「AIの未来は、人間が正解を与える教師あり学習(Supervised Learning)ではない方法によって実現されるはすだ」というところでしょうか。本記事と本節のタイトルは、これをあえて直訳調に訳したものです。

講演で印象に残っているのが、現代のディープラーニングによるAIがいまいち微妙な挙動をするのは人間が選りすぐった限られた量の学習データのみを見ているからで、この世界が生成する膨大な情報をどうにかして学習に結びつけることができれば、AIの知性は飛躍的に向上するはずだ、という言葉です。

ディープラーニングは強力な手法ですが、教師ラベルを準備することの大変さと、学習段階で経験していないデータ入力に対する脆さが課題としてよく指摘されます。
しかし、もし人間による教師ラベルの生成というボトルネックを機械学習のプロセスから取り除くことができれば、確かにこれらの課題は解決可能であるように感じます。
そのためには、自己教師あり学習を始めとする、教師ラベルを必要としない機械学習手法が今後非常に重要になってくると言えそうです。

PAGE TOP