麻生英樹顧問「生成AI が変えるシステムインテグレーション」

SCSK株式会社技術戦略本部顧問　麻生英樹1981年東京大学工学部計数工学科卒業。1983年同大学院工学系研究科情報工学専攻修士課程修了。同年通商産業省工業技術院電子技術総合研究所入所。1993年から1994年ドイツ国立情報処理研究センター客員研究員。
2015年度から国立研究開発法人産業技術総合研究所・人工知能研究センター副研究センター長。現在、国立研究開発法人産業技術総合研究所人工知能研究センター招聘研究員。経験から学習する能力を持つ知的情報処理システムの研究に従事。2019年9月よりSCSK（株）の顧問就任。

2022年頃から広く使われるようになった生成AIは、その後も急速に発展を続け、社会に浸透しつつあります。たとえば、言語生成AIであるOpenAIのChatGPTは、画像入力を可能にしたGPT-4Vや、画像生成AIのDALL-E3と統合されて、視覚情報と言語情報を入出力できるようになりました。また、ユーザが ChatGPT を使った独自のアプリケーション（GPTs）を容易に作成するための環境と、作成したアプリを流通させるためのGPTストアのサービスも開始されています。OpenAIと密接に連携するMicrosoftも、クラウドサービスAzure上の機械学習プラットフォームやGitHub、Windows、Teamsなどのプラットフォームと生成 AI の統合を進めています。

Googleも、様々な利用形態を想定したマルチモーダル生成 AI であるGemini を提供していますし、Amazonもクラウドサービス上で生成AIの活用環境を提供、また、Meta を中心としたオープンソースの大規模言語モデル（Large Language Model, LLM）の構築と公開も進展しています。

日本でも、たとえば、東工大と産総研が、Meta が公開したオープンソースの言語モデル Llama2 を日本語データで追加学習した言語モデルSwallowを構築・公開していますし、LLMスタートアップのELYZAなども同様のモデルを構築・公開しています（2024年1月31日現在）。政府も大規模な生成モデル構築に関する支援策を打ち出しており、生成AIへの社会的な関心や期待が大きくなっています。

このように、急速に発展している生成 AI をコアとして、業務効率をあげたり、新しいサービスを創出したりすることが企業活動にとって非常に重要になると考えられており、CES 2024 等のイベントでも多くの企業が事例を発表しています。前回の寄稿では、生成 AI の概要とそこで使われている技術、生成 AI による知的生産の変革の可能性について述べましたが、今回は具体的な領域としてシステムインテグレーションを例にとって、生成AI、特に言語生成 AI がシステムインテグレーションにどのように活用され、どのような変化をもたらすかについて考えてみたいと思います。

生成 AI のシステムインテグレーションへの応用と波及効果

言語生成 AI によってシステムインテグレーションのプロセスが大きく変わる可能性があるということは、既に多くの方々によって指摘されています。コーディングはもとより、より上流のシステムの企画や要件定義での壁打ちの相手、詳細設計での抜け漏れのチェック、実装後のテストの自動化、運用やメンテナンスの支援などまでも含めて、生成 AI の利用が試みられていますし、昨年9月に発表されたGitHub Copilotのように、工程の主要な部分を自動化するサービスの提供も始まっています。

2024年度のリリースが予告されている GitHub Copilot Workspace では、プロジェクトの issue をテキストで入力すると、AI が人間の開発者と同様に自動的にコードを修正・追加して、ビルドするようになると言われています。

こうした状況を受けて、「SIer の役割が AI にとってかわられる」、「ユーザは SIer に頼らずにアプリやサービスを内製するようになる」、といった意見もあるようですが、単純にそうとは言えない面があると思います。たしかに、これまでのSIerが扱う領域のひとつはコーディングでしたし生成 AI によってその部分のハードルや労力が劇的に削減されたことで、アプリケーションの内製は増えるでしょう。

しかし、コーディングはシステム構築のための手段ですから、その部分の労力が減れば、SIer はより上流の「インテグレーション」により多くのリソースを注ぐことが可能になります。また、コーディングやコードのメンテナンスの労力が削減されることによって、インテグレーションに関する試行錯誤も容易になります。したがって、従来では不可能だった、より大規模で高度なシステムや多岐にわたるシステムを、現実的な時間や労力で構築、アップデートすることが可能になると考えられます。

こうした状況の下で、比較的簡単なアプリケーションの構築は AIに任せて、SIer の役割は、生成 AI 等も利用しつつ、顧客のニーズにあわせて、日々現れる新しい技術やサービスを組み合わせて、より大規模で高度なシステムを効率よく構築する「インテグレーション」と「新しいユーザ価値、ユーザ経験の生成」を中心とする方向に発展してゆくでしょう。そこにおけるエキスパートとしての経験とノウハウが SIer のコアコンピタンスの一つになってゆくと思われます。

ある業務やタスクを AI が実行できるようになると、その業務を主に担当していた人は、従来よりも少し上のレベルの業務内容を担当する時間が生まれます。その結果、その上のレベルの仕事をしていた人がさらに少し上のレベルの仕事をする、ということが積み重なって、みんなが少しずつ担当タスクを変化させてゆくことで、社会全体としてニーズに寄り添ったより高度な価値創造が可能になる、という変化のシナリオは、「AI が仕事を奪う」と言われている領域に共通する現象です。

こうした変化に対応するためには、自社のサービスを効率化するだけでなく、様々な試行錯誤を容易にするためのプラットフォームを整備して、個々のエンジニアがより価値の高い業務に取り組めるようにする必要があります。非常に変化の激しい状況の中で環境に適切な投資をして整備・維持するためには技術戦略が重要です。そして、ここにおいても生成 AI は重要なツールになってゆくでしょう。生成 AI をツールとして、自社や連携する組織のナレッジとそれが組み込まれたインフラを成長させることができるかどうかが鍵となると思われます。

生成 AI を中核としたシステムと生成 AI のチューニング

システム構築やマネジメントのツール、アシスタントとして生成 AI を使うだけでなく、そうした高度なシステムの中核に生成 AI がモジュールの一つとして使われることも増えています。あたかも、これまで人間がいろいろなアプリケーションを使いこなしていたように、センサからの観測データ、他のモジュールの出力データ、人間からのテキストなどを入力として受け取り、他のモジュールや人間への入力となるテキストやプログラムを生成できる AI が、人間も含む多数のモジュールの間をつないでオーケストレーションするようなシステムが作られてゆくことは想像に難くありません。

こうした場合に、生成 AI の振る舞いのチューニングやプログラミングが一つの課題になります。生成 AI の本体は巨大な機械学習モデルであるため、その構築には大量のデータと高い計算コストがかかります。機械学習モデルの「蒸留」と呼ばれる方法などによって、大きなモデルからより軽量なモデルを構築することも行われていますが、そうした場合も含めて、最初から全体を構築するよりも、既存のものをチューニングして使うことが必要な場面が多いと思われます。

GPT-4 のような生成 AI の振る舞いをチューニングする方法としては、大きく、１）追加学習によるファインチューニング、２）プロンプトによるチューニング、３）外部のデータベースや情報源を使う方法、４）複数のLLMの組み合わせ、５）人間のフィードバックを使ったアライメント、があります。順番に技術の動向を簡単に見ておきます。

１）追加学習によるファインチューニング

タスクやニーズに応じた追加データでの学習に関しては、モデルの本体のパラメータを追加学習する方法以外に、Low-Rank Adaptation（LoRA）に代表されるように、アダプタと呼ばれる小さな補助ネットワークを追加して、その部分だけを追加学習することで学習のコストを下げる方法が使われています。こうした手法は、Parameter Efficient Fine Tuning（PEFT）とも呼ばれています。タスクによってアダプタを切り替えることも可能です。追加学習の際には、事前学習の性能が劣化しないように気をつける必要もあります。たとえば、東工大・産総研によるSwallow の日本語データでの追加学習では、英語での性能の低下を防ぐために追加学習用データに英語のデータも含めていることが報告されています。

２）プロンプトによるチューニング

プロンプト（入力文）によるチューニングについても様々なコツや工夫が提案されています。代表的なものを挙げると、１）何をしてほしいかをわかりやすく伝える、２）「あなたは優秀な教師です」などのように、役割を指定する、３）「箇条書きで答えて」、「表にまとめて」のように出力形式を指定する、あるいは、変数やタグ、マークダウン記法などを使って質問－回答の例や参照情報を示す、４）「ステップごとに出力してください」、「●●に注意して答えてください」などのように回答時の注意事項を指示する、５）１度で答えてもらおうとせずに、質問を分けて対話的に進める、前の答えを利用して次の質問をする、前の答えの間違いを指摘して修正させる、前の答え以外の答えを要求する、自分の回答を自己評価してブラッシュアップさせる、などがあります。

また、テンプレートやルールに基づいてデータからプロンプトを自動生成する方法やそのためのプログラミング言語、プロンプトの生成や出力の評価に別のLLM を用いて、その LLM をチューニングする、タスクごとの最適なプロンプトやプロンプトの埋め込みベクトルを学習させる、といった方法、複数のステップにわたる処理を探索的に実行させるための手法なども研究されています。こうした技術がシステムに組み込まれることによって、ユーザがプロンプトに直接的な工夫をこらす必要は少なくなってゆくことが予想されます。

３）外部のデータベースや情報源を使う方法

外部データベースを利用する方法は、検索補助生成（Retreval Augmented Generation: RAG）と呼ばれて、既に、たとえば社内の規則や FAQ を参照して回答する、といった用途に利用されています。汎用の検索エンジンを利用する方法以外にも、LLM に参照して欲しい文書を分割して埋め込みベクトル化して、ベクトル DB に蓄積して利用する方法もよく使われています。ベクトルDB は高速な類似検索ができるため、入力された質問文の埋め込みベクトルと関連する文書部分を抽出し、質問文とあわせてプロンプトとして利用することで、FAQ やマニュアルなどの文書を参照した回答を得ることができます。

また、LLM にSQL文を出力させて業務用の関係データベースを参照させる、SPARQLを使って知識グラフやLinked Open Data などのグラフデータベースの情報を参照させる、なども行われています。さらに、LLM 自身に外部データベースにデータや知識を追加させてゆくことも可能です。こうした外部データベースや知識ベースの利用によって、生成 AI の誤った生成（ハルシネーション（Hullcination））を低減させることも試みられています。

４）複数のLLMの組み合わせ

複数の LLM を組み合わせて利用することで、たとえば、ある LLM の出力を別の LLM で評価したり、批判的に修正したりすることが可能になります。これによって、途中の出力を評価しつつ多段階の推論を進めて、バックトラックなどもしつつ、よりよい出力を探索的に生成することが試みられています。また、一つあるいは複数のLLM に、異なる役割を割り振ってカンファレンスをさせるという使い方も有望です。さらに、LangChain に代表される、こうした複数の LLM や他のシステムを組み合わせて利用するためのスクリプト言語やフレームワークの開発も進んでいます。

５）人間のフィードバックを使ったアライメント

LLM の回答を質問の意図や社会的規範に沿ったものにするアライメント（LLM のしつけ）についても、コスト削減が課題です。特に、生成された回答について人間からのフィードバックを与える部分のコストが高いため、その部分をできるだけ効率化することや、ルールや（他のより大きな）LLM で代替させることが検討されています。

こうしたチューニング技術を組み合わせて、生成 AI の回答の精度や倫理性を向上させ、攻撃に対する耐性を上げたり安定した動作を実現したりすることは、今後ますます重要になるでしょう。専門性を高めた比較的小規模なモデルを複数用意するアプローチと、汎用性の高い大きなモデルに集約してゆくアプローチと、どちらのアプローチが有効かについても検討が続けられています。

「システム」の未来に向けて

「一般システム理論」や「サイバネティクス」などの文脈において、「システム」という言葉が、生きているものが世界の不確実性に対処しつつ常に適応、学習、進化してゆく姿を捉えるために使われるようになってから、半世紀以上が経ちました。その間に多くのシステムが構築され、様々なサービスが提供されてきました。しかし、まだまだシステム化やシステム間の連携が不十分と感じる場面は無数にあります。

生成 AI がサービス化されて普及が進むにつれて、誤情報の弊害、偽情報の作成、犯罪関連情報の生成など、生成 AI を誤用・悪用する事例も報道されるようになっていますが、進化したAI の力によって、人間を含む大規模なサイバーフィジカルシステムが構築可能になっている現在ほど、人間を含む社会システム全体の大きなイノベーションが強く求められ、急激に進んでいる時代はありません。

生成AI を含む AIの安心、安全な利用、人間との共存が進み、物質と情報の生産、移動、消費を統合するスマートシティ・システム、環境も含めて人間の身体、生活、社会をデザインするヘルスケア・システム、などのサイバー空間（仮想空間）とフィジカル空間（現実空間）を高度に融合させたシステムが、次の時代の社会の根幹となり、世界の多くの社会課題を解決し、レジリエントで持続可能なより良い世界の実現につながることが期待されています。そうした中で、システムインテグレーション、システムイノベーションのエキスパート集団としての SIer の果たす役割は、その姿をかえつつ、ますます大きなものになってゆくでしょう。