麻生英樹顧問「AIとは何だろうか？」

SCSK株式会社技術戦略本部顧問　麻生英樹1981年東京大学工学部計数工学科卒業。1983年同大学院工学系研究科情報工学専攻修士課程修了。同年通商産業省工業技術院電子技術総合研究所入所。1993年から1994年ドイツ国立情報処理研究センター客員研究員。
2015年度から国立研究開発法人産業技術総合研究所・人工知能研究センター副研究センター長。現在、国立研究開発法人産業技術総合研究所人工知能研究センター招聘研究員。経験から学習する能力を持つ知的情報処理システムの研究に従事。2019年9月よりSCSK（株）の顧問就任。

日常生活に浸透しつつある「AI」

こんにち我々の生活のいたるところに「AI」がしみこみつつあります。
たとえば、身近な暮らしを見渡しただけでも、スマートフォンやスマートスピーカーに今日の天気や予定、興味を持ったことについて尋ねたり、目的の場所までどのように移動するのが良いかを調べて、その途中のレストランやそこで食べたいものをおすすめしてもらったり、撮った写真を整理してすぐに探せるようにしてもらったり、ゲームの相手をしてもらったり、さらには、友達や結婚相手、保育所、学校、仕事を紹介してもらったり、投資のアドバイスをしてもらったり、といった具合に、気の利いたアプリやサービスが多くの人に使われ始めています。

そうしたサービスをうまく組み合わせれば、自分のためのエージェントが、何も指示しなくても、自分に関するいろいろなデータに基づいて一日のスケジュールをきめ細かく作り、次はどの電車に乗ってどこにいって誰に会い何を話して、どのお店にいってどの売り場で何を買って、どの病院にいって・・・ということをおすすめしてくれる、というような、一昔前にはおとぎ話として語られていたことも不可能ではなさそうです。そして、そのサービスを利用した結果がまた、自分についてのデータになり、自分や自分とよく似た誰かのために使われるのです。

学習して能力を高めていくIT技術

それでは、そんなにいろいろなものに使われている「AI」というものはいったい何なのでしょうか？
これまでの「IT」とはどう違うのでしょうか？「AI」の組み込まれたシステムを形容する言葉として、たとえば、レディーメードに対してオーダーメード、大量生産に対して多品種少量生産や変種変量生産、マスプロダクションに対してマスカスタマイゼーションやパーソナライゼーション、自動に対して自律、などが思い浮かびます。一言で言えば、対象や状況をよりよく見て、認識して、それに合わせてきめ細かく動作する、ということになると思います。

そのために、「AI」は、たくさんのデータ、たとえば、ユーザの購買や検索などの行動履歴や移動履歴、過去の天気や経済などに関する観測時系列データ、そして、画像、音声、テキスト、など多種多様な情報を組み合わせて利用します。

こうしたデータの特徴は、多くの情報が集まって全体として「意味」を持つ、ということです。代表的な例として画像を考えると、一枚の画像はたくさんの画素の集まりです。最近の高級なデジタルカメラでは 1,000万画素を超えるものも少なくありません。そして、個々の画素を見ても画像の内容はわかりませんが、全体を見ると、犬が写っている、家族の記念写真である、川があって水が流れている、などがわかります。

こうした情報は広く「パターン情報」と呼ばれます。音声も時々刻々と変化する空気の圧力の値が集まって「意味」を成しますし、テキストも、単語が集まって「意味」を成すということでは「パターン情報」の一種です。

コンピュータに「パターン情報」を扱わせることは難しいことでした。原理的に出現し得る情報の組み合わせは莫大で、それぞれについての対処法を事前に「プログラム」することができないのです。しかも、いくつかの変数から計算された値だけに基づく簡単なルールでパターン情報の「意味」が決まるわけではありません。そこで、「AI」を作るために、データから「学習」させるという方法が取られるようになりました。

「学習プログラム」は「メタプログラム」の一種と言われます。プログラムを書くのではなく、プログラムを作るプログラムを書く、というような意味です。そして、プログラムを作るために、データすなわち「事例」を利用します。データからそこに潜んでいる複雑なルールを帰納してプログラムにするのです。

「学習」は人間のお家芸です。人間ほど生まれた後にたくさんのことを学習する動物はいないと言われています。その結果として、人間は、多様な環境に適応することができ、弱い身体にも関わらず、地球上で繁栄しています。進化が生み出した「経験から学習する」という戦略が人の「知性」を生んだのです。

人間と同じく、学習することで能力を高めることが、現在の「AI」の繁栄の元になっています。それは、コンピュータにデータから学習させる技術、すなわち「機械学習」の技術の発達（技術の基本的なアイデアは「AI」と同じく 1950年代頃に遡ります）とともに、インターネットの利用が進み、テキストや画像など大量の学習用のデータが使えるようになったこと、そうしたデータを扱うための計算機が安く手に入るようになったことがうまく重なった結果です。それでは、こうして社会で使われるようになった「AI」は今後どうなってゆくのでしょうか？

CPS社会で期待される役割

コンピュータのネットワークであったインターネットがモノのネットワーク「IoT（Internet of Things）」になり、接続されるセンサやデバイスの数が爆発的に増えています。それによって得られるデータも飛躍的に増大しています。それらをつなぐネットワークの技術（5G）や、ブロックチェーンなどの流通するデータを守る技術、そして、データ処理するための計算機の技術もそれぞれ進んでいます。

実（フィジカル）世界に埋め込まれた大量のセンサから莫大なデータが時々刻々サイバー空間へと送られ、そこで解析されて、ロボットなども含むアクチュエータによって実世界に働きかける。

そしてその結果がまたセンシングされる、という「サイバーフィジカルシステム（CPS）」が、社会のいろいろな分野で整備され、サイバー空間には、欠測や雑音を補正しつつリアルタイムに近い速さで更新される実世界のモデル（デジタルツイン）が維持され、それを用いて未来を予測し、計画を立てることで、社会全体での最適化が進む、といったことが予想されています。

たとえば、交通信号の制御なども、さらに賢いものになる可能性があります。そうした最適化やそれを支える機械学習のために「量子コンピュータ」も使われるようになるかもしれません。

CPSは、私たちの身体と脳の関係とよく似ています。私たちの身体には、視覚、聴覚のみならず、触覚や温覚、筋肉の伸縮、など無数のセンサが埋め込まれ、そこから大量の情報が時々刻々と脳に送られています。脳はそれを上手に処理して、身体にフィードバックし体を動かすだけでなく、様々な身体機能を調節しています。

身体と脳は CPS を形作っていると言えそうです。したがって、社会が CPS 化してゆくときに、そこで必要とされる情報処理が、脳の情報処理と似た方向のものになることは自然なのかもしれません。

ここまで、「AI」について書いてきましたが、この原稿の残りの部分では、こうした全体的な動向を踏まえつつ、私の専門でもある「機械学習」の技術について、今考えられている発展の方向について少し書いてみたいと思います。

「機械学習」技術の３つの方向性

「AI」は機械学習によって性能を向上させ、世の中で使われる場面が増えていますが、その学習能力はまだ初歩的なものと言えるでしょう。たとえば、ケプラーはティコ・ブラーエの残した莫大な天文観測データから、惑星の運動に関するケプラーの法則を発見したと言われていますが、そうした、高度に抽象化された「法則発見」の力は、まだ人間には及びません。学習に莫大な量のデータと計算が必要な点も同様です。

このほかにも、現在の機械学習の課題としては、学習結果や推論結果の説明可能性や解釈可能性が低いこと、信頼度の評価や性能の保証が難しいこと、などが指摘され、それらを解決するための研究が進められていますが、ここでは、深層学習で一段階発達した機械学習の能力を、さらに向上させるための技術的な方向性の中から重要と思われる、 ①「自己教師あり学習」による「埋め込み」に代表される「特徴表現学習」の高度化、②「機械学習の自動化」と「メタ学習」、そして、③「意識」と「無意識」の統合、の３つと、それらの間の関係について少し説明したいと思います。

「機械学習」の性能を向上させる「特徴表現学習」

まず「特徴表現学習」の高度化です。「特徴表現学習」は、深層学習による機械学習性能の大幅向上の中核をなすものであることはよく知られています。たとえば、深層学習以前の機械学習を使った画像認識のシステムでは、生の画像データから人が設計した特徴ベクトルを計算した後に、それを入力として識別を学習させていました。

しかし、大量の学習データを使った深層学習によって、課題にあわせた特徴ベクトルもデータから学習することが可能になりました。テキスト処理の分野では、単語などの要素単位をベクトル空間に「埋め込む」形で特徴表現を学習させることが行われて、機械翻訳などの性能向上につながっていることはよく知られているとおりです。

しかし、現在の埋め込みで捉えられている情報は限られたものです。単語の埋め込みの研究では、「王」の埋め込み表現から「男」の表現を引いて「女」の表現を足すと、「女王」の埋め込み表現に近いものが得られる、などが話題になりましたが、そうした埋め込み空間での演算で、どこまで複雑な論理的推論などができるのかは明らかではありません。

機械翻訳の性能も、以前に較べると大幅に向上していますが、まだ人間並みにはなっていません。言葉の意味を捉えて推論したりするためには、単なる数値のベクトルではなく、もっと複雑な構造を持った埋め込み表現が必要なのではないか、という意見もあります。テキスト以外でも、たとえば医療における薬の組み合わせのようなものも埋め込みを使った特徴抽出をすることが考えられますが、どのように埋め込めばよいのかはよくわかっていないと思います。

「特徴表現学習」を進化させる「自己教師あり学習」

埋め込みによる特徴表現学習のために、最近「自己教師あり学習」という種類の学習がよく研究されています。たとえば画像の認識を学習させようとするときには、画像とそこに写っている「犬」などの正解ラベル＝教師信号のペアをたくさん用意するのが普通です。しかし、それには人手がかかるため、できるだけ少ない教師データから学習できると嬉しいわけです。実際、人間の子供は、驚くほど少ない例から、言葉の意味を獲得しているとされています。

そこで、人手で教師信号をつけるのではなく、たとえば画像や文章の一部を隠してそれを補間的に推測する、といった自動的に教師信号を作れるような学習課題を設定して、それを大規模に学習させることで、特徴表現学習をさせることが行われています。そうして学習された「事前学習済みモデル」が計算する特徴表現を使うことで、個別の識別などの課題を、より少ない学習データで学習することができるようになるのです。

自然言語処理の分野で最近話題になっている BERT などの「事前学習済みモデル」も、こうした「自己教師あり学習」によって作られています。また、人の脳でも、脳の中の世界のモデルは、情報が欠けている部分が自動的に補間され、安定性を保つように維持されていると考えられています。

「自己教師あり学習」の代表的なものが予測です。予測は、次の瞬間には正解が得られるため、正解ラベルを作る必要なく学習し続けることができます。私たちの知能は、予測をより正確にするために発達したと言っても過言ではないと思いますし、脳の情報処理の研究でも、予測符号化（Predictive Coding）などの名前で、予測にもとづく特徴表現学習が研究されています。

急速に発展する「機械学習の自動化（AutoML）」

二つ目の「機械学習の自動化」、「メタ学習」も、研究が盛んになっているものです。
機械学習をするためには、学習の進め方に関するパラメータなど、いろいろな学習の設定を決める必要があります。学習の進め方以外にも、たとえば、学習に使う深層ニューラルネットワークの構造や、入力として使う変数の選択など、学習全体にかかわる選択肢を決めなくてはならず、それによって同じ学習データを使った場合でも、学習の性能が変わります。

こうした選択肢は、学習によってチューニングするパラメータに対して、学習過程を調整するものであることから、超パラメータと呼ばれます。

これまで超パラメータは、試行錯誤によって決められてきましたが、組み合わせ最適化技術などを使って自動的に最適なパラメータを選べるようにする技術が「機械学習の自動化（AutoML）」です。この最適化を、一つの問題だけでなく、いろいろな学習課題に対する経験を利用して解いて行くことは、学習法についての学習とも言えるので「メタ学習」とも呼ばれます。効率的にメタ学習するための、複数の課題に有効な特徴表現の学習なども必要になるかもしれません。

こうした技術は急速に発展していて、たとえば、Google のAutoML など、既に、いくつかのサービスも生まれていますが、技術はまだ断片的で、発展の余地が多く残されていると思います。

人間との共存へ　～「意識」と「無意識」の統合

最後の、「意識」と「無意識」の統合は、人工知能研究の長年の課題です。
人の情報処理には、無意識のうちに瞬時に進む「ファスト」な処理と、意識を集中してゆっくり進む「スロー」な処理があると言われています。

たとえば、文字の認識や顔認識、音声認識、などは「ファスト」な処理です。一方、長い文章を読解したり、計算をしたり、将棋や囲碁の先読みをするような処理は、「スロー」な処理です。

これに対応するように、人工知能の研究でも、パターン情報の認識のような「ファスト」な処理と、論理的推論、記号的推論のような「スロー」な処理がそれぞれ独立に研究され、それぞれ性能を向上させてきました。しかし、たとえば、言葉の意味を人のように理解するためには、二つの処理をより緊密に結合することが必要と考えられています。人は、画像から文章を作ることもできますが、逆に文章から画像を作ることもできます。

機械学習の世界でも、画像などのパターン情報を認識するだけでなく、その逆に画像を生成する研究（「生成モデル」の学習）が盛んになっています。特に、敵対的学習と呼ばれる方法は、データの分布を学習してそこからのサンプルを生成するために有効です。

この二つの処理を上手に統合して、高度な特徴表現を使ってデータの世界と記号の世界を自由に往来しながら、「自己教師あり学習」や「メタ学習」も使いつつ、世界のモデルを効率よく学習し推論することができれば、たとえば、人工知能が大量のデータから学んだことを、人にわかりやすい形で説明することで専門家を助けたり、逆に人が長い歴史にわたって蓄積してきた科学的な知識を人工知能が活用して、多くのことをすばやく学習したりすることにつながるかもしれません。

そうして、人間と人工知能が共に向上してゆくことで、社会全体に蓄積されるデータと知識が増殖してゆけば、社会全体の生産性や創造性を高めることになるでしょう。それは、科学や工学といった、現在の人の「知」の姿や社会の姿を変えることにもつながってゆく可能性があります。

より良い社会に貢献するために

「AI」とは何だろうか、という問いから出発して、あれこれと書いてきました。
最後は楽観的になりすぎたかもしれませんが、「AI」は、増え続けるデータに支えられて、組織や社会の生産性、創造性を高め、競争力と直結する汎用基盤技術としてさらに発展し、実世界のより多くの場面で使われるようになってゆくでしょう。その中で「AI」自体も姿を変えて、名前も変わってゆくかもしれません。

社会に大きな影響を及ぼす「AI」によって、科学と同様に、様々な問題が生じることもあるでしょう。しかし、後戻りすることはできません。「AI」は名前にすぎませんから、それが何であるかを考えるだけでなく、その背後で起こっていること、すなわち増え続けるデータと、それを使うための道具である「AI」を使って、より良い社会をどう作るかを、みんなで考え続けてゆくことが重要です。

また、昔からの人工知能の研究者としては、それを通じて、人間の知能の仕組み、情報処理も解明されてゆき、人間が自分自身をより深く理解できるようになるとさらに良いと思います。

この小文が、そのために何かのヒントになれば幸いです。

麻生英樹顧問 「AIとは何だろうか？」