ユースケースから理解する LLM (1/3) ユースケースによる AI の再整理

Filed under:

2023/10/24

Blog

はじめに

近年の AI に関する技術の発展はすさまじく、世間の注目を集めています。とくに、LLM (Large Language Model; 大規模言語モデル) や生成モデルの与える影響はとても大きく、予想以上にさまざまな方が AI の活用方法やその社会的な影響について関心を持っています。

専門家や技術者は、以前からそのような技術について興味関心を持っている方が多いのですが、機械学習やソフトウェア技術についてまったく詳しくない方も関心を持たれているようです。

とくに、最近は一般の方から改めて「AI で何ができるの」「AI はどういうものなの」とご質問いただくことが多々ありました。そこで、一歩踏み込んでご質問いただいた理由を伺ってみたところ、「何ができるのか興味は持っているものの、AI について知識を深めることが難しい」という意見をいただきました。

そこで、このシリーズでは AI が用いられる身近な事例を述べていきます。記事の中では技術的な背景や理論については触れずに、ユースケースのご紹介に注力します。とくに、学習の詳細についてはできるだけ触れず、できるだけ想像しやすいような内容になるよう努めます。

シリーズの内容は次を予定しています。

ユースケースによる AI の再整理
文章を扱う LLM の代表的なユースケース
文章と画像を扱う LLM の代表的なユースケース

まず、最初の記事である本記事では、ユースケースによる AI の再整理を行います。AI と呼ばれる技術は急速にユースケースを拡大しており、「AI」という言葉の指す範囲が曖昧になりつつあるように思います。そこで身近なユースケースに着目し、あらためて AI の代表的なユースケースや、近年急速に発展しつつある LLM や生成モデルが活用されるユースケースについて確認します。

次の記事では、文章を扱う LLM の代表的なユースケースについて確認します。LLM を活用したアプリケーションとしてもっとも有名なもののひとつである ChatGPT や、一般の LLM の代表的なユースケースについて、具体例をもとに確認します。

最後の記事では、文章と画像を扱う LLM の代表的なユースケースについて確認します。LLM は「言語モデル」という名称を超えて、言語だけではなく画像を扱うことができるものもあります。この記事では、画像と言語を両方扱うことで可能になる事柄について確認します。

以降では、ユースケースによる AI の再整理を行います。身の回りにある「AI」について、改めて確認してみましょう。

ユースケースによる AI の再整理

身の回りの AI について改めて確認しましょう。業務で触れるものを除外して考えた場合、身の回りにある AI はおおむね次の3通りになると思います。

ゲームの AI
コンテンツの推薦システム
画像や文章を生成する AI

ここでの AI は何らかの身の回りのアプリケーションやサービスに組み込まれているものを想定しています。一方、業務利用される AI は少し趣が変わっており、何らかの予測を行ってユーザーに情報提供を行うものが多いです。このタイプの AI の多くは、天気予報や渋滞予想のように、何らかのスコアを予測することで専門家向けに情報を提供します。具体例や活用する上での課題については以前記事にしていますので、そちらをご参照ください。

では、ゲームのAI、コンテンツの推薦システム、画像や文章を生成する AI について、それぞれ具体例、入力元と出力先、評価方法について確認していきましょう。

ゲームの AI

最初のタイプの AI は「ゲームのCPU」です。これはシミュレーターやゲームの上で動く AI で、ゲーム内のキャラクターや敵の行動を制御する AI です。具体例は囲碁や将棋を行う AIや、ゲームの NPC が該当するでしょう。

これらの AI は、ゲームから得られるさまざまな情報をもとに、ゲーム内のキャラクターや敵のプレイヤーの戦略や行動を決定します。将棋や囲碁などのボードゲームであれば、盤面の情報やこれまでの打ち筋、ゲームの CPU であれば、ゲーム内の世界の情報を入力とします。

これらの AI の出力はシミュレーターやゲームによって利用され、キャラクターやCPUの行動を決定します。

これらの AI の評価はシミュレーターやゲームのルールに則って行われます。囲碁や将棋などのボードゲームであれば勝敗判定や得られたスコアの高低が評価値として用いられるでしょう。

また、現実のシミュレーションが高精度に可能な場合も同様の AI として理解できます。このような AI の例として、自動運転が挙げられます。

自動運転では、走行車から得られた LiDAR などの情報を元に、シミュレーターの中で現実の交通状況を再現し、AI がシミュレーターの中で車を運転することで実際の車の運転方法を学んでいきます。この場合、評価値としてはドライバーの運転との一致度や事故を起こさずに走行できた距離などが用いられるでしょう。

コンテンツの推薦システム

コンテンツの推薦システムは、動画や商品などの中からユーザーにオススメのコンテンツを選び出して提示する　AI です。典型的な例としては Amazon や Youtube といったサービスにおけるリコメンドが挙げられます。

これらの AI はサービス内のデータを入力とします。用いられるデータは、コンテンツに関するデータとユーザーに関するデータに大別されます。コンテンツに関するデータの具体例には、動画の再生回数や、商品の購入回数が挙げられます。ユーザーに関するデータの具体例には、ログイン回数や、総再生時間、ジャンル別の閲覧回数などが挙げられます。

これらの AI はシステム内でコンテンツのオススメ具合を示すスコアを予測します。予測したスコアはシステムによって利用され、ユーザーに提示するアイテムのリストが作成され、提示されます。提示されたアイテムに対するユーザーの行動の結果 (購入した、再生した、など) は AI の評価に使われます。

少し話は変わりますが、これまでの深層学習も、基本的には出力自体は何らかのスコアとなっており、それをシステムが利用するようになっています。不良品検出などのアプリケーションでは人間がスコアを直接利用することもありますが、その場合は天気予報のようにスコアを人間が解釈できること、解釈した結果に基づいて行動できること、といった条件が必要です。

画像や文章を生成するAI

さいごに、画像や文章を生成する AI について確認していきましょう。最近、話題になっているのはこのタイプの AI で、LLM が用いられるのも主にこのユースケースです。

実はこれまでも、文章や画像を生成すること自体は以前から盛んに行われてきています。この分野はさまざまなブレイクスルーにより、汎用性が飛躍的に向上しました。

画像生成と文章生成では違った内容の (中には共通する内容の) ブレイクスルーがありましたが、昨今 ChatGPT を中心に話題となっている文章生成に関しては、ざっくりと「収集可能な限りの一般的なデータを学習させた」「流暢に話すように話すように高品質なデータでチューニングした」という2点が大切です。

このため、よくありがちな文章や問いかけに対する返答は得意です。一方、ゲームのプレイや、特定のルールに沿った論理的な思考は必ずしも得意ではありません。次の画像はこのブログ記事から DALL-E3 を用いて作成した画像です。

この画像はブログの要約としてはよく機能しており、AI を映像コンテンツの推薦に利用している様子が見て取れます。一方、画像中の単語を見てみると、”RECOMMENATIONS” や “STIO” という存在しない単語が生成されています。これは画像生成モデルが「英単語として実在する」というルールに適応できていないことを示しています。

この AI の入力はさきほど見たように文章や画像であり、これ自体は新規性のあるものではありません。しかし、出力を直接人間が見る手法については、さきほど述べたようにさまざまなブレイクスルーがありました。

これらの出力結果は人間が基本的には評価することになります。このため、他のユースケースと比較すると評価基準が曖昧になりがちで、評価が困難なことも珍しくありません。

大まかに、学習データに似た内容を出力させる技術や、莫大な量の画像・文章データを覚えさせる技術が発展してきました。このため、生成される画像は既存の画像や文章ではありませんが、既存の文章や画像に似てしまうこともあります。急激な技術発展に伴い、新たな問題や過去から存在する問題が再燃していることも事実です。