LangCheck Studio: 生成AIによる自動評価技術 (LLM-as-a-judge) をあなたのブラウザーから

Filed under:

2025/04/11

Blog

Citadel AI は、生成AIによる自動評価技術 (LLM-as-a-judge) を、無料で体験いただくことができる試験環境 LangCheck Studio をリリースします。

LLM-as-a-judgeは、登場以来この2年間で、LLMアプリケーションの品質、安全性やセキュリティを守る上で欠かすことができない技術になって来ています。LLM-as-a-judgeの仕組みを用いることで、お客様のさまざまなユースケースに即した評価を柔軟に行うことが実現できるようになります。

またコーディングの専門知識を必要としないため、AIエンジニアではない各業務エキスパートの方々(例えば医師、弁護士、カスタマー対応部門の方々など)が、エンジニアと一緒になってLLMアプリケーションの品質改善を進めることも可能です。

LangCheck Studioでは、ブラウザだけでコーディングすることなく、 LLM-as-a-judgeのワークフローを手軽に体験していただくことができます。さらに、LangCheck Studioを通じて、人間の業務知見をLLM-as-a-judgeの中に取り入れ、評価を改善することでシステム全体を改善するという「Eval-Centric AI」という考え方にも触れていただくことができると思います。

今回のLangCheck Studioは、日本語対応のLLM評価用オープンソースライブラリとして定評のあるLangCheck や、生成AIの技術的な評価からガバナンス管理まで一括でサポートする商用版の Lens for LLMs を開発した私たちのチームメンバーが開発したものです。

LangCheck Studioを使った評価ワークフロー

それでは、LangCheck Studioを使ったLLM評価のワークフローを見ていきましょう。まず最初に、性能評価したいLLM（例えばGPT-4.5とClaude 3.7 Sonnet）を1つか2つ選んでください。

それでは、そうして選んだLLMに対する入力データ（質問集）を作りましょう。LLMにどのようなタスクをさせたいかを指示して下さい。LangCheck Studioでは、LLMにタスクを指定するだけで、自動的に入力データ（質問集）ができあがる仕組みになっています。

次に、性能評価したいLLMへの質問に含めるシステムプロンプトをカスタマイズしましょう。システムプロンプトは、どのような形式や条件をつけてLLMに回答を出させたいかを指示するものです。LLMの回答品質に大きな影響を及ぼす重要なものです。

さらに、そのLLMからの回答を評価する、LLM-as-a-judgeへの評価プロンプトを作りましょう。評価プロンプトは、どのような観点で、LLMからの回答を評価すべきかをLLM-as-a-judgeに指示するものです。

以上の設定が終われば、準備完了です。評価開始ボタンを押してください！

あとは各質問に対する性能評価したいLLMからの回答と、それに対するLLM-as-a-judgeの評価結果、さらにLLM-as-a-judgeがなぜそうした評価をしたのかの理由が表示されます。

それに対して、あなたがどのように感じるのか、すなわちLLM-as-a-judgeの評価に同意するのか、あるいは異なる評価をするのか、YesまたはNoのボタンを押した上で、Noの場合は異なる理由を入れてください。すべての質問に対するあなたの評価が完了すると、LLM-as-a-judgeの評価と、あなたの評価を比較したグラフが表示されます。

さあ、結果はどうでしたでしょうか？これで LLM-as-a-judgeを活用したEval-Centric AIのワークフローの一巡目が終了です。

LLM-as-a-judgeをチームに導入しましょう！

LangCheck Studioは、LLM-as-a-judgeのワークフローの触りをちょっとだけ体感してもらうためのものです。最初は、LLM-as-a-judgeの評価結果と、あなたの評価結果があまり一致しないかも知れません。

実際のLLMアプリケーションでは、こうしたフローを何回も繰り返し、評価プロンプトを通じて、よりきめ細かな評価指示をLLM-as-a-judgeに対して行うことで、人の視点に沿った評価を実現することができます。またこうした試行錯誤を繰り返すことで、性能評価したいLLMに対する適切なシステムプロンプトの姿も見えてくると思います。これこそがLLM-as-a-judgeを通じた Eval-Centric AIの真髄です。

LLM-as-a-judgeの仕組みを、ぜひあなたのチームでも取り入れてみませんか？

私たちの商用版 Lens for LLMs には、Eval-Centric AIのワークフローをサポートする多彩な機能が備わっています。高品質で、安全・安心なLLMアプリケーションの実現をしっかりとサポートできるはずです。