自然言語処理における未知語学習の効率化研究開発~学習効率を大幅に向上し特許を取得~

自然言語処理は人が日常的に使っているテキストデータをAIが分析する技術です。近年、ディープラーニング(深層学習)の活用によって大きなブレイクスルーがありました。
ここでは、自然言語処理が社会やビジネスにもたらす可能性や、現状課題とSCSKの取り組みについて解説します。

自然言語処理とは何か?

自然言語処理とは人間が日常的に使っている書き言葉や話し言葉(日本語や英語)の持つ意味をコンピュータに処理させる一連の技術です。自然言語処理はルールベースと統計ベースがあり、現在は深層学習を用いた統計ベースの手法が主流です。

特に2018年、Googleによって開発された自然言語処理の深層学習モデルであるBERTの発表により、それまで文章の単語単位でしか処理できなかったものが、文脈情報まで扱えるようになりました。これにより高精度な言語モデルを作成できるようになりました。

また、世の中にあるモノの概念や関係性をグラフにして表す技術である「ナレッジグラフ」へ自然言語処理を適用することにより、意味理解の精度向上を図ることが期待されています。

自然言語処理が
もたらす可能性

それでは、自然言語処理を活用することで、どのような可能性が考えられるのでしょうか。
近年目覚ましい拡大をとげるAI市場の中でも、自然言語処理は特に大きな領域を占めています(下図の枠線内)。社会のデジタル化が加速する中で、画像認識(文字認識)や音声認識の精度が向上した事で、これまでデータ化されてこなかった文書や音声からも膨大なテキストデータが蓄積される事になりました。これらのテキストデータは「宝の山」でもあり、自然言語処理を通して有効活用する事で、ビジネスの高度化や生活の利便性の向上、ひいては社会課題の解決への期待が高まっています。


出典:ITR 「ITR Market View:AI市場2022」 AI主要8市場規模推移および予測:分野別(2020~2026年度・売上金額)を基にSCSK株式会社が作成

顧客の声からのニーズ・課題分析
有人対応が必要となる複雑な問い合わせや他サービスの業務実行などを、シームレスに実行できるAIチャットボットは、自然言語処理を用いて顧客との会話データを学習したり、顧客からのニーズや課題を分析することで、AIの精度を継続的に向上していくことができます。

金融機関におけるテキストチェック
投資信託や保険など元本割れリスクのある金融商品の勧誘・販売にあたっては、コンプライアンスや顧客保護の観点から、どのような案内、説明をしたかなどを記載した応接資料が作成されます。役職者はそれを読み込み、投資経験などに応じた十分な説明であるか、不十分な理解や誤った理解が疑われる発言はないか、など様々チェックします。言語解析のAIを使用することで、問題のチェックのために読むべき文書を絞り込むことができ、業務の大幅な効率化が図れます。

SCSKの研究開発

未知語学習の効率化

今後、自然言語処理の活用を拡大していくためには、モデルの更なる処理精度向上が必要となります。モデルの精度向上には業界特有のキーワードや言い回しを含んだ文章を学習することが効果的ですが、業界特有の新しい単語(未知語)を学習する際の処理時間が課題となってきています。
この課題に対して当社は未知語を効率的に学習するためのアルゴリズムの研究開発を行っております。

自然言語処理におけるブレイクスルーをもたらしたBERTは、日本語や英語などの言語を理解する為の言語AIモデルです。BERTを活用することで、翻訳・感情分析・文章分類など様々な自然言語処理タスクへ適用し精度向上を図ることができます。

業界特有のキーワードや言い回しなど、特定のドメイン(業界)にBERTを適用させるにはゼロからBERTを学習させる方法が一般的ですが、この場合、大量の学習データを時間をかけて学習させる必要があります。


当社が考案したアルゴリズムでは、既存の事前学習モデルに対して「未知語」を抽出し、「未知語」を加えた辞書を用いて「未知語学習」を行います。本アルゴリズムでは既存の事前学習モデルに少量の学習データを与え再学習を行うため、本来約30日を要する未知語の学習を約1日に短縮する事ができました。また、未知語学習を行ったBERTモデルを適用する事で、ニュースサイトの記事をカテゴリ分類するような「文章分類タスク」において、精度を向上させる事ができました。

学習データ3GB・辞書の語彙数32,000のBERT事前学習モデルに、学習データ500MB・辞書の語彙数4,000を、GPUを用いて再事前学習。

本研究に関しては、2021年8月30日に特許権を取得しました。
詳しくは下記をご参照ください。
・特許番号:特許第6936370号
・発明の名称:情報処理システム、及び情報処理プログラム
・登録日:2021年8月30日
・J-PlatPat(特許情報プラットフォーム)
https://www.j-platpat.inpit.go.jp/c1800/PU/JP-6936370/E186F59607D6EA8989E680194D99B000B2B715E31E8E05D2F6B26EB7378E616F/15/ja

プレスリリース:言語AIにおける未知語学習の処理精度向上に関する特許権を取得~学習処理時間の軽減およびコスト削減に寄与~

本研究に関連する過去の研究はこちら
「汎用言語分散表現モデル「BERT」を使用した要約モデルの研究 ~自然言語解析の高度化~」

Right Menu Icon