ユースケースから理解する LLM (2/3) 文章を扱う LLM の代表的なユースケース

Filed under:

2023/11/07

Blog

この記事では文章を扱う LLM の代表的なユースケースを確認します。より広く「AI に何ができるのか」から確認したい方は前回の記事で広く扱っていますので、そちらをご参照ください。

今回は、文章を入力として受け付け、出力を人間が利用するような AI を扱います。最近話題の ChatGPT はこのタイプの AI と位置づけられます。このような AI の代表的なユースケースを確認しましょう。

この記事では、代表的なユースケースとして次の 4 つを確認します。

検討初期の案出し
文章要約
応用的な検索
ツールボックス

検討初期の案出し

企画案の検討を行う際に、相談先として LLM を用いることができます。たとえば、「AIについてのブログ記事のテーマを検討」するために ChatGPT (GPT-4) を利用すると次のように案を提示してくれます。

このように、一般的な情報から初期の案を得るために LLM を利用できます。また、ラフに書いたアイデアの箇条書きを書き直させるのも有効です。一方、最新の情報を持っているわけではない点や、法律や業界のルールに従わない点には注意が必要でしょう。

文章要約

文章要約は LLM の応用先として有望なもののひとつです。

長大な文章や莫大な量の文章について、概要をまず知る用途で用いられます。技術文章や論文などを要約でふるい分けし、重要そうな文章のみを熟読できます。また、LLM の持つ多様な能力を利用して、要約と同時に翻訳することも有望です。たとえば前回の記事を Google Cloud が提供する Vertex AI の Language (text-bison) で要約した結果は次のようになります。

AIは急速にユースケースを拡大しており、「AI」という言葉の指す範囲が曖昧になりつつあるように思います。そこで身近なユースケースに着目し、あらためてAIの代表的なユースケースや、近年急速に発展しつつあるLLMや生成モデルが活用されるユースケースについて確認します。
身の回りにあるAIは、ゲームのAI、コンテンツの推薦システム、画像や文章を生成するAIの3つに大別できます。
それぞれのAIの具体例、入力元と出力先、評価方法について確認しました。

前回の記事は長いため単に「この記事を要約してください」という指示だけでは長大な要約を生成してしまいました。そこで「この記事を3センテンス程度で要約してください」とプロンプトで長さを指定したことで、上記の短い文章を作成しています。

また、要約を作成する際の指示を工夫することで、平易な言葉で説明させることもできるでしょう。たとえば、弊社で行ったハッカソンでは「5 才児にわかるように」といった指示を加えていますが、このようなテクニックが利用できるでしょう。

たとえば、先程の記事の要約において、プロンプトを「この記事を5さいのこどもにわかるように、3センテンス程度で要約してください」と変更すると次のような結果に変わります。

AI にはいろいろな種類があって、ゲームの AI、コンテンツの推薦システム、画像や文章を生成する AI などがあります。
ゲームの AI は、ゲームの中のキャラクターや敵の行動を制御する AI です。コンテンツの推薦システムは、動画や商品などの中からユーザーにオススメのコンテンツを選び出して提示する AI です。画像や文章を生成する AI は、画像や文章を生成する AI です。

あきらかに平易な言い方に変わったのがわかります。

一方、言語や分野によってLLMのパフォーマンスに差がある点は注意すべきでしょう。一般に、日本語よりは英語のほうがうまく扱えることが知られています。

また、専門分野に存在する特定のルールに従った出力を行うことは苦手です。たとえば、金融商品の説明する際には「必ず儲かる」などの断定を行うことは禁止されていますが、そのような出力を行わないことは必ずしも保証されません。もし何らかのルールに従った出力を行う必要がある分野で用いる場合には、後処理でルールベースの禁則処理を導入した上で、事前に入念な検証も必要となるでしょう。

応用的な検索

検索とLLMを組み合わせて使うのはかなり有望な利用方法です。これはもっとも広く用いられている応用法のひとつで、RAG (Retrieval-Augmented Generation) と呼ばれます。検索エンジンと要約を組み合わせることで、検索して得られた結果をわかりやすくユーザーに提示できます。

検索結果を用いることでどのように返答の品質が変わるのか見てみましょう。まず、外部の検索を用いない状態で GPT-4 に阪神ファンの気にする「アレ」について質問してみます。

次に、Web 検索を合わせることで結果はこのように変化します。

2023年11月現在、GPT-4 は2023年4月までの知識を元に回答するようです。このため、検索を回答に用いない場合には優勝とうまく結び付けられていないようです。一方、検索結果を用いる場合には 2023 年のセ・リーグ優勝に言及しており、より望ましい回答をしていると言えるでしょう。

このように RAG は LLM の持つ「学習時点の知識しか持っていないために、最新の情報を回答に含められない」という欠点を補える手法となっています。この手法は最新の情報や各組織固有の情報をモデルに教えるための手法として、従来の機械学習におけるファインチューンのように利用できるでしょう。

ツールボックス

これまでの言語モデルが単一のタスクをこなしていたのとは異なり、LLM はさまざまなタスクを実行できることが知られています。このため、多様な能力を持っているツールボックスとして利用できます。前回のハッカソンではこの多様な能力を持っているという側面が発揮されたといえます。

一方、ハッカソンの成果をそのまま実運用に持ち込むのは慎重になるべきでしょう。LLM は既存のテクノロジーと比較してコストが高くなりがちです。また、LLM は非常に遅いため、提供する UI や UX について追加の検討が必要となるでしょう。

次回は、画像と文章を扱う LLM について代表的なユースケースを確認します。今回のブログ記事の画像も DALL-E 2 を用いて作成しています、そのような画像と文章を扱う LLM のユースケースを確認しましょう。

Citadel AI では LLM のテストを行うツールとして LangCheck を OSS で開発しています。LLM の評価のためのツールとしてお試しいただければ幸いです。

ご質問・ご要望はこちらまで

デモのご要望やご質問は、こちらまでお寄せ下さい。

2025/04/30

NEDO「AIセーフティ強化に関する研究開発」の採択について

News

2025/04/25

AI時代の防衛戦、次世代ファイアウォール提供開始

News

2025/04/11

LangCheck Studio: 生成AIによる自動評価技術 (LLM-as-a-judge) をあなたのブラウザーから

Blog

2025/03/27

AIの品質検証で経営力を強化、Eval Insight 提供開始

News

Citadel Lens

Citadel Radar