麻生英樹顧問「生成系 AI の進化、変わる知的生産」

SCSK株式会社技術戦略本部顧問　麻生英樹1981年東京大学工学部計数工学科卒業。1983年同大学院工学系研究科情報工学専攻修士課程修了。同年通商産業省工業技術院電子技術総合研究所入所。1993年から1994年ドイツ国立情報処理研究センター客員研究員。
2015年度から国立研究開発法人産業技術総合研究所・人工知能研究センター副研究センター長。現在、国立研究開発法人産業技術総合研究所人工知能研究センター招聘研究員。経験から学習する能力を持つ知的情報処理システムの研究に従事。2019年9月よりSCSK（株）の顧問就任。

生成系 AI の進化

2022年の11月末に OpenAI が公開した ChatGPT の性能の高さが社会的に大きな話題になっています。自然言語処理の他にも、昨年夏以来、Stable Diffusion や Midjourney といった、文章からそれにあった画像や動画を生成する AI を始めとして、音楽を生成する AI、プログラムを生成する AI など、「生成系 AI（Generative AI、生成 AI、生成的 AI などとも訳されている）」の性能進歩が一般にも試しやすい形で発表され、AI の話題が SNS や動画投稿サイト、ニュースをにぎわせる状態が続いているとともに、それらを利用した新しいアプリケーションも次々と開発されています。

こうした動きによって、人間の知能を超えた汎用 AI への期待、あるいは、人間に対する脅威や、こうした AI が少数の企業や国家によって寡占されることへの危機感などもまた語られるようになってきています。2012年の畳み込みネットワークによる画像認識の性能向上を深層学習のファーストインパクト、2015年のAlphaGo が引き起こした AI への期待と研究開発の盛り上がりをセカンドインパクトとすると、サードインパクトのような状況です。以下では、その震源の一つになっている ChatGPT のような「大規模言語モデル」と呼ばれる深層ニューラルネットワークを用いた生成系 AI について、技術的な側面を中心に、その可能性や限界、そうした AI とのつきあい方について考えてみたいと思います。

※2023年3月15日には、OpenAI からさらに強化された GPT-4 が公開されるなど、日々新しい進展がありますが、以下の原稿は2023年3月10日までの情報に基づいています。

生成系 AI とは

はじめに、生成系 AI とは何かを簡単に振り返っておきます。 AI が得意な問題として認識がよく挙げられます。たとえば画像認識をする AI は、写真や絵などの画像を入力として受け取り、そこに映っている／描かれているもののラベル（車、犬、猫、など）を出力します。文章分類をする AI は、文章を入力として受け取り、たとえば、それがいいことを言っているのか、悪口なのかを出力します。これに対して、生成系 AI は、入力となるデータである、画像や文章を出力します。もう少しだけきちんというと、入力された情報を条件として、その条件の下で現れる確率が高そうな画像や文章を出力する（生成する）、ということになります。以下では、ChatGPT のように、質問の文章を入力して回答の文章を生成するような生成系 AI の進化の元となった技術を見てゆきます。

第１の技術：アテンション

大規模言語モデルの研究開発の盛り上がりの源の一つは、「アテンション」と呼ばれるメカニズムです。アテンションは、その名前のとおりたくさんの情報の中の必要な部分に「注意」を向けるためのものです。世の中は情報に溢れていて、すべての情報を処理することは現実的ではないため、取捨選択がとても重要です。人間もよく「注意を怠ったためのミス」などと言われるように、その時々の状況に応じて重要な情報に注意を向けなければなりません。

画像を認識する場合には、畳み込みニューラルネットワークと呼ばれる構造のネットワークが有効でしたが、畳み込みニューラルネットワークの中の１つのニューロンは入力画像の狭い範囲（パッチ）だけから情報を受け取るのに対して、アテンションネットワークのニューロンはすべての入力情報を受け取ります。そして、現在の入力に応じて、それを処理するために重要な部分に注意を向けられる仕組みになっています。

画像の場合、情報の性質上、近接した場所（画素）の情報の関連度が高いのですが、文章のような情報の場合には、ある単語の解釈に、遠く離れた単語の解釈が重要な影響を持つことがよくあります。たとえば、「太郎は花子の父の叔父の息子が立てたビルの隣の家に住んでいる。」というような文では、最後の「住んでいる」の主語は「太郎」なので、文末の単語「住んでいる」の意味を処理しているときには、遠く離れた文頭にある単語「太郎」を覚えていないといけません。しかも、その間の単語の数はいくらでも増やすことができます。

この「どこに注意を向けるべきか」は知的な情報処理をするシステムにとってとても重要な問題で、人工知能の世界では昔から「フレーム問題」（参考1）として知られていました。時限爆弾を処理するロボットが爆弾を移動させる前に、その結果何が起るか、すべての可能性を逐一検証しているうちに爆弾が爆発してしまった、というエピソード（元のものはもう少し詳細です）の形で語られることが多い問題ですが、その要点の一つは、現実世界の無限に近い情報を平等に処理することはできず、状況に応じて、そのときどきに必要な情報にだけ注意を向けて処理する必要がある、ということです。

人間でも、たとえば自動車を運転するときに、初心者のうちは、どこに注意すべきかがわからず、眼に入る情報をすべて処理しようとして、逆に標識などの重要な情報を見落としたりしますが、熟練してくると、必要な情報や危なそうなところにだけ、自然に眼や意識が向くようになります。もちろん、それでも思いがけないところから人が飛び出してくるような場合もあるなど、フレーム問題は根本的には解決不可能なのですが、ある程度まで解決することによって、実用的なレベルに事故を減らすことができるわけです。アテンションは、このフレーム問題を、人間と同じように学習、習熟によってある程度まで解決するための仕組みといえます。

ニューラルネットワークに注意を組み込むというアイデアは以前からありましたが、2017年に提案された Transformer という深層ニューラルネットワークで、その概念がシンプルで使いやすいモジュール構造の形で組み込まれ、翻訳の性能の大幅な向上につながることが示されました。さらにその直後に発表された BERT と呼ばれるネットワークでは、Transformer の前半部分だけを用いて、自然言語の文を文の意味の表現に変換することで、翻訳以外の意味を理解しないと解けないような多くの課題でも性能向上が得られることがわかったため、その後の言語モデルではすべて使われるようになっていますし、最近は、言語以外の画像や動画、時系列データの処理でも使われるようになっています。

第２の技術：予測型の自己教師あり学習とプロンプト・チューニング

翻訳の場合には、入力される文章（たとえば日本語）を受け取って、翻訳された文章（たとえば英語）を出力するため、翻訳ペアと呼ばれる、日本語文とその文を翻訳した英語文（正解）のペアを使って教師ありの学習をすることができます。しかし、文章から意味表現を作る場合には、正解の意味表現を作ることは難しいため、教師ありの学習はできません。そこで使われたのが、自己教師あり学習（Self-Supervised Learning）と呼ばれる方法です。

自己教師あり学習では、たとえば、入力された文章の一部の単語を隠して（マスクして）、その単語が何であるかを当てるように学習をさせます。自分で問題を作ってそれに答えることで学習をすることができるのです。BERT では、文の中の任意の単語を隠すことが行われましたが、文章を途中まで入力して、それに続く単語を予測するというやり方で自己教師あり学習をすることもできます。このような方法を予測型（自己回帰型とも呼びます）の自己教師あり学習といいます。

予測型の自己教師あり学習を採用した大規模言語モデルとしては、OpenAI のGPT（Generative Pretrained Transformer）が有名です。このタイプの言語モデルは、次の単語を予測させることを繰り返すことで、入力した文に続く文章を次々と作ってゆくことができます。さらに驚くことに、最初に入力する文（プロンプトと呼ばれます）に問題と答えの例を含めるなどの工夫をすることで、同じ言語モデルに複数の異なった課題を行わせることができることもわかりました（プロンプト・チューニング、in context learning などと呼ばれます）。たとえば、「英語に翻訳してください。おいしい」と入力すれば、「delicious」が出力され、「反対語にしてください。おいしい」と入力すれば「まずい」が出力される、という具合です。

このことは、Web上の大量の文章で学習した大規模言語モデルが、単に次の単語を予測するだけでなく、文章で書かれた知識をも学習しているとみなせることを意味しています。つまり、言語のモデルとして作ったものが知識のモデルでもあり、それに対して上手に質問することでいろいろな問題に答えさせられるということがわかったのです。

第３の技術：人間のフィードバックを使った教育

GPT はネットワークと学習用のデータを年々大規模化させてゆき、GPT-3 では、最大で 1750億個のパラメータ（ニューラルネットワークの結合の重み）を持つモデルになりました。それに伴って性能も向上し、人間が書いた文章と見間違うような文章も生成できるようになり、話題になりました。しかし、実際には、入力したプロンプトに合わない文章を生成することや、さらに良くないことには、社会的に問題のある文章を生成してしまうことも多くありました。

そこで、GPT のような大規模言語モデルを教育して、人間の意図や社会的な規範に合った文章を生成するようにすることが試みられました。具体的には、入力したプロンプトへの正解を人間が教える教師あり学習や、入力したプロンプトに対する出力（GPT-3 のような言語モデルは、単語の出力を確率的に行うため、実行するたびに異なる文章が生成されます）を複数出力させて、人間が良いと思う順に報酬を与えて、できるだけ報酬がたくさん取れるように学習（強化学習と呼ばれる方法です）をさせた結果、ChatGPT では、最初から適切な回答出力が得られる確率が非常に高くなったのです。

このような技術の積み重ねを背景として、2022年の11月30日に OpenAI が無償のアプリケーションとして公開した ChatGPT は、あっという間に全世界的に大きな話題となり、3日間で 100万人、２か月間で１億人がユーザ登録したと言われています。もちろん、ユーザ登録したといっても、業務に利用しているわけではなく、ほとんどは興味本位のお試しですが、この原稿を書いている時点では、マイクロソフトがその技術を自社の検索エンジンである Bing と組み合わせるなど、実用化の取組みが進められているところです。

現在の技術の限界と可能性

ChatGPT は、その回答の妥当性や流暢さで多くの人を驚かせ、はじめにも書いたように、それまでに発表された画像生成 AI などとあわせて、AI の可能性を改めて世の中に印象づけることになりました。実際、試しに使ってみると、いろいろな問題にすらすらと解答することに驚かされます。

しかし、既に多くの人が指摘しているように、実際に使用するには注意が必要です。ChatGPT の回答はしばしば間違っています。自分がよく知っている事柄について質問するとよくわかるのですが、ちょうど、うろ覚えの知識をもった人間が口から出まかせで答えているような印象があります。また、ChatGPT は、2019年までのデータで学習されているため、それ以降の事柄については答えることができません。

さらに、忘れてはならないことは、こうした大規模言語モデルは、次の単語を統計的に予測するように学習しているだけだということです。それは、人間のような汎用的な知能を持つ汎用 AI に近づいていますが、そこまでにはまだまだ距離がありますし、言葉の使用だけに限っても、人間のように「理解」したり、言語を使って「思考」したりしているわけではない、ましてや、「意識」を持ったりしているわけではない、ということです。

「言葉を理解している」とはどういうことか？というのは哲学的な問題で、身体がなく、「経験する」ことを決定的に欠いている大規模言語モデルには言葉は理解できない、という人もいます。いずれにしても、現状の言語モデルは、莫大な文章とそこに含まれる知識の記憶を使って、あたかも「賢い人間のように」振舞っている「門前の小僧、習わぬ経を読む」状態であると考えるのが妥当と思います。

1980年頃、哲学者のジョン・サールは、「中国語の部屋」（参考2）という喩えを使って、チューリング・テストの妥当性や人工知能による言語の理解について議論しました。中国語の部屋とは、簡単にいうと、中国語で質問を投げ込むと、中国語で答えが返ってくる小部屋で、質問とそれに対する答えだけを見た人には、中国語を理解して答えているように見えるのですが、部屋の中には、中国語がまったくわからない人がいて、中国語で書かれた質問を受け取ると、質問と回答の対応表を見て対応する中国語の答えを返すという作業をしている、というものです。この部屋は中国語を理解していると言えるのでしょうか？

現在の大規模言語モデルがやっていることは、こうしたマニュアルを内部に持っていて、与えられた質問に答えていることに近いと考えられます。もちろん、問いかけられる可能性のある質問はとても多様で、それに対応できるマニュアルを作ることはとうてい不可能と考えられていましたが、莫大な Web上の言語情報を網羅的に学習することで、それに近いことが可能になったということです。

別の言い方をすると、生成系 AI の成功が明らかにしたことは、広大な情報の空間の中で、この世界で実際に出現したり、人間が使っていたりする部分はかなり限られている、ということです。深層ニューラルネットワークによってその限られた部分の空間（潜在表現空間）を上手に抽出して情報処理することで、非常に複雑で多様に思える自然画像や自然言語の文章を生成するモデルが作れてしまったということが大きな驚きにつながっています。

このことは逆に「人間と同じように理解する」ことは必要なのか？という問いにもつながります。今後もしも ChatGPT のような AI の誤りが減ってゆき、最近のことがらも含めて瞬時にほぼ正しく回答できるようになったとすれば、様々な場面で役に立つでしょう。具体的には、今よりもずっと多くの作業を自然言語で対話的に行うことができるようになります。検索を駆使して調査報告書を作るような仕事はもちろん、必要なら人間へのインタビューもできるかもしれません。次のステップとして、言語以外の情報、視覚情報や触覚、味覚情報などとも結びつけられるようになると考えられます。

実際、マイクロソフトを筆頭として、こうした実用化の動きが急速に進展しています。既に希望するユーザに公開されている新しい検索システムでは、最近の事柄についても答えられるようになるとともに、回答の根拠となる Webページを示すようになっていますし、こうした対話機能は近日中に Windows11 のアップデートにも取り入れられると言われています（もともと、Windows にはコルタナと呼ばれる AI エージェントが入っているのですが、その機能が大幅に強化されるかもしれません）。

Google、メタ、アマゾンも次々と対応を発表しています。その他のアプリケーションやシステム、たとえば、電卓、数式処理システム、各種のデータベース、あるいは他の種類の AI システムなどとの組み合わせが進められていますし、回答を人間の意図や嗜好に合わせるための効率の良い教育の方法も研究されています。さらに、FlexGen と呼ばれる技術のように、高性能な GPU を持たないシステム環境でのスタンドアロンの利用を可能にする技術も進展していて、応用範囲はさらに広がってゆく可能性があります。

変わる知的生産

「文明の生態史観」や「情報の文明学」といった著作で有名な梅棹忠夫さんが1969年に出版した「知的生産の技術」では、1963年にいち早く発表した「情報産業論」を踏まえて、情報の生産、処理、伝達、変換などをまとめた情報産業が、工業の時代につづく次の時代のもっとも主要な産業となるとされ、その情報産業のなかでも、知的情報の生産が非常に大切である、と書かれています。データベース、ワードプロセッサ、検索エンジンなどの道具は、知的情報の生産性を飛躍的に向上させてきましたが、生成系 AI もそうした知的生産のための強力な道具と考えられます。

それが人間に対する脅威であるという意見もありますし、悪用される、あるいは、善意で使われた場合でも、AI が生成した質の悪い情報が質の良い情報を覆い隠してしまう、といった負の側面は常にあります。個人的には、AI に頼り過ぎて、自分で考えなくなってしまう人が増えるのが心配です。しかし、だからといって優れた道具を使わなければ、それを使う人たちとの格差はどんどん大きくなってしまいます。社会全体でこうした AI を上手に使いこなして、情報生産の効率を上げるとともに、今まで作れなかったような情報を生産してゆくことがとても大切になると思います。

たとえば、知的生産の道具として最近話題になっている Notion は、いち早く対話型の AI を使ったサービスの提供を開始しています。マイクロソフトの Office のようなアプリに組み込まれることも容易に予想されます。こうした知的生産の道具が整備されることで、誰もがお抱えのリサーチャー、コンサルタント、プログラマ、デザイナ、翻訳者、校閲者、などなどを雇っているかのように、自然言語でいろいろな作業の依頼が可能になり、事務的な処理やプログラミングだけでなく、科学技術研究の加速も含む、様々な情報生産業務の大幅な効率化につながる可能性があります。検索ワードとマウスのクリックで「ググる」時代は、思いがけない形で終わってゆくのかもしれません。こうした新しい道具を使って、教育や働き方を含めて、組織や社会をどのように変えてゆくのか、誰もが自分のこととして考えてゆくことが大切です。

【参考】
（1）人工知能学会 AIトピックス：フレーム問題
https://www.ai-gakkai.or.jp/whatsai/AItopics1.html
（2）人工知能学会 AIトピックス：チューリングテストと中国語の部屋
https://www.ai-gakkai.or.jp/whatsai/AItopics3.html