|EN

大規模言語モデル評価ツール「Lens for LLMs」 を発表:評価精度の向上と評価作業の高速化を同時に実現

Filed under:

Lens for LLMsは、大量の自動評価に、人間による少量の目視評価を組み合わせ、両者の強みをインテグレートする新たな技術を実装、評価精度の向上と評価作業の高速化を同時に実現します。目視によるラベル付けを効率的に進めることができる、言語モデル用のアノテーションツールも搭載しています。

日本政府は「AI事業者ガイドライン」の中で、人間中心のAI社会原則を掲げていますが、Lens for LLMsは、AIシステムの検証可能性を確保することで、安全安心で信頼できるAIの実現を目指すものです。

生成AIがもたらす新たな社会的リスク

生成AIを使ったChatbotのようなLLMアプリケーションの導入が、さまざまな企業で開始されている一方、AIがもたらす新たな社会的リスクも増大しています。LLMのような自然言語処理モデルの場合、絶対的な評価軸を定義することが難しく、こうしたリスクを的確に評価し、安全安心なAIの活用を実現することは容易ではありません。

人間による目視評価が最適と言えるものの、多くの時間とコストを要し、膨大な数のLLMの入出力を、継続して人手で確認することは現実的に困難です。一方で、複数のメトリクス(測定指標)を使った評価は、高速で大量のデータを自動評価することが可能であるものの、人間による評価軸とは必ずしも一致しないケースが発生します。

人手評価と自動評価の両者の強みをインテグレート

Lens for LLMsは、大量の網羅的な自動評価に、人間による少量の目視評価を組み合わせ、両者の強みをインテグレートする新たな技術的仕組みを導入することで、評価精度の信頼性向上と評価作業の高速化を同時に実現します。

LLMアプリケーションの単体評価、異なるバーションの比較評価や経年評価等が可能であり、昨年10月にGitHub上でオープンソースライブラリとして公開し、既に世界で1万件以上ダウンロードされているLangCheckの機能も盛り込まれています。

Lens for LLMsの発表に際し、βトライアルを無償でお試しいただくことができるお客様を限定募集します。ご興味を持っていただけるお客様は、是非こちらからサインアップの上、お申し込みください。

LLMアプリケーションに対するLens for LLMsの適用事例

今回発表したLens for LLMsの適用事例を、以下のケースを使ってご説明します。

RAGの仕組みを活用して、AIにかかわる国際的な規制や標準について回答するLLMアプリケーションを構築し、GoogleのGemini 1.5 ProあるいはOpen AIのGPT-4と組み合わせることで、何れのケースの方がより良い結果が得られるかを比較評価します。1

自動評価メトリクスを用いた品質評価

まず最初に、Lensに搭載している自動メトリクスを用いた品質評価について見て行きましょう。Lens for LLMsのUIの画面から、今回の評価に適した Factual Consistency(RAGとLLM出力の一貫性)・Toxicity(文章の有害性)・Answer Relevance(入力した質問文とLLM出力の一貫性)等のメトリクスを選びます。

Add Reportのボタンを押すと、自動評価メトリクスを用いた以下のようなレポートが生成されます。レポートには、入力に対するGemini 1.5(OUTPUT A)からの出力と、GPT-4(OUTPUT B)からの出力が表示されています。(レポートの生成には、評価対象となるデータセット、アプリケーションの入出力ログ等を使用します。)

一番右のMETRICS DELTAの列には、最初に選んだ複数のメトリクスによる、Gemni 1.5とGPT-4の出力に対する比較評価が表示されます。こうした自動評価メトリクスによる品質評価を実行する場合には、人間によるアノテーションを事前に行う必要はなく、大量のLLM出力データに対して、その良し悪しを高速で判定することが可能です。

例えば、このレポートでは、一行目に入力された EU AI法に関わる質問に対して、中央右側のGPT-4(OUTPUT B)は「この情報からは判断できません」と回答しているのに対し、左側のGemini 1.5(OUTPUT A)の方は適切な回答を行っており、この結果がAnswer Relevanceによる指標の差(OUTPUT Aの方が0.5ポイント高い)に現れていることが分かります。

こうした個々の入出力分析だけではなく、全てのデータセットを用いた2つのモデル比較を行うこともできます。例えば以下のグラフでは、Answer Relevanceが高い右側(質問文に対して適切で一貫性の高いもの)については、青色のGemini 1.5(Model A)からの出力が多く、一方Answer Relevanceが低い左側(質問文に対して一貫性の低いもの)については、緑色のGPT-4(Model B)からの出力が多いことが分かります。

また、Lens for LLMsでは、上記のような全てのデータセットに対する分析だけではなく、特定のユースケース(データセグメント)に対しての評価結果を表示することも可能です。例えば以下のグラフでは、両モデルともNIST AI RMFについてAnswer Relevanceのスコアが低く、かつそれ以外のセグメントでは全て、GPT-4(Model B)の方がGemini 1.5(Model A)よりも、Answer Relevanceが低いことが分かります。

人間による少量の目視評価を組み合わせた品質評価

これまでご覧いただいた通り、自動評価メトリクスによる手法を用いることで、さまざまな評価を、大量のデータに対して瞬時に実行することができ、カスタマイズしやすいというメリットもあります。但し、自動評価メトリクスの場合、人間の感覚とは異なる評価をしてしまうケースも発生します。また、生成AIを使って別の生成AIを評価するような方式の場合、そもそもその結果をどこまで完全に信じ切ることができるのか、という問題もあります。

Lens for LLMsは、大量のデータに対する自動評価に、人間による少量の目視評価を組み合わせることで、こうした問題を解消し、両者の強みを活かした、高速でより信頼性の高い評価を実現します。

Lens for LLMsには、そうした人間による目視評価を効率的に実施し、評価精度を向上させるための、複数のユニークな仕組みが搭載されています。その一例が Pairwise Comparison Tool です。

このツールを使うことで、例えば以下の通り、Gemini 1.5(Model A)からの出力とGPT-4(Model B)からの出力を、ランダムにLens for LLMs上で表示して効率的に目視評価し、高速でアノテーションを行うことが可能となります。

さらに、Pairwise Comparison Tool では、こうして人間がアノテーションした少量の目視評価データ(Manual)を、大量の自動評価データ(Auto)に組み合わせ、両者の強みをインテグレートする新たな技術を実装しています。少量のアノテーション作業が完了次第、人間による目視評価結果をGold Standardたる正解の指標と見なし、大量の自動評価結果に対して統計的な調整を加えた上で、総合評価(Combined)を算出する仕組みです。

その結果がこちらのグラフです。上段のグラフ中の青・赤・緑の丸い点が、総合評価(Combined)、人手評価(Manual)、自動評価 (Automated)におけるModel Bの勝率(Win Rate)の平均値を示しており、その平均を含めた青・赤・緑の帯が、各評価方法における統計的に確信できる信頼区間(Confidence Interval)を示しています。

ご覧の通り、赤の人手評価(Manual)を正解の指標として、緑の自動評価 (Automated)に調整を加えて算出した、最上段の青の総合評価(Combined)においても、Gemini 1.5(Model A)がGPT-4(Model B)の性能を少しだけ上回っており、かつその信頼区間(Confidence Interval)も、赤の人手評価単体のものと比較して、より厳密な狭い区間に改善されていることが分かります。

なお、英文入力に対するGemini 1.5とGPT-4の評価は、日本語入力の場合と大きく異なる結果になっており、ご興味のある方は、本ブログ記事の英語版をご参照ください。

今回のケースはあくまで一例です。新しいLLMアプリケーションを導入したり、RAGを更新したり、新たな部署で使い始めたり、さらには接続先の生成AIが変更になるような場合など、さまざまなケースで、Lens for LLMsがお役に立てると信じています。

多言語のLLMアプリケーションにも対応

現状、日本語・英語・中国語・ドイツ語をサポートしており、今後さらに他の言語のLLMアプリケーションにも拡充予定です。

本ブログ記事の英語版はこちらをご覧ください。

βトライアルを募集

Lens for LLMsの発表に際し、βトライアルを無償でお試しいただくことができるお客様を限定募集します。ご興味を持っていただけるお客様は、是非こちらからサインアップの上、お申し込みください。

1 本記事の評価はあくまで一例であり、GeminiおよびGPT-4の公式評価ではありません。

ご質問・ご要望はこちらまで

デモのご要望やご質問は、こちらまでお寄せ下さい。

Related Articles