この記事では文章と画像の両方を扱う LLM の代表的なユースケースを確認します。より広く「AIに何ができるのか」から確認したい方は第1回で包括的に扱っていますので、そちらをご参照ください。また、ChatGPT のような対話型 AI の活用例を確認したい方は第2回で扱っていますのでそちらをご参照ください。
今回は画像と文章を両方とも扱う LLM の代表的なユースケースを確認します。これまでの投稿には、それぞれの記事を表すような画像を追加していますが、これらの画像は DALLE-2 という、文章から画像を生成するサービスを利用して作成されています。
なお、このような画像も言語も扱うモデルは Vision-Language Model とよばれますが、この記事では新たな用語の導入を避けるため、LLM として扱います。
この記事では文章と画像を扱う LLM のユースケースについて、次の3つを確認します。
- 画像の説明文の生成
- 文章による画像検索
- 文章による画像生成・編集
画像の説明文の生成
これまでに見てきたモデルは画像だけのデータセットや、文章だけのデータセットを学習してきました。この記事で扱う LLM は文章と画像がペアになったデータセットから互いの関係性を学習しています。このため、既存の技術と組み合わせることで、画像から文章、文章から画像の生成が可能です。
こちらの画像は弊社メンバーの集合写真です。
これについて、DALLE-2 で画像の説明文を作成すると次のようになりました。
この写真には11人の個人が一緒にポーズをとっています。彼らはチームの一部であるようで、前面に「Citadel AI」と印刷された濃紺のTシャツを揃えて着ています。これは彼らが人工知能に関連する会社やプロジェクトの同僚であることを示唆しています。グループは多様で、男性も女性もいます。彼らはコンクリートの壁の前に立っており、おそらくはモダンなオフィスビルや学術機関の内部にいます。全員が笑顔で、チームの仲の良さや成功したイベント、あるいはチームの重要な節目を感じさせる明るいムードがあります。
画像の説明文の生成は、応用上かなり有望な技術です。たとえば、監視カメラの撮影動画から定期的にフレームを画像として抜き出して、それぞれのフレームに説明文を作成することで、変化点の検知や長時間の動画の要約ができます。また、自然な文章により、動画のシーンを検索することも期待できます。
一方、厳密な表現がなされるわけではない点には注意が必要です。たとえば、弊社の集合写真に写っている人数は10人ですが、生成された説明文では11人とひとり増えてしまっています。人数を厳密に数えたいケースでは、既存の機械学習モデルを用いるべきでしょう。
文章による画像検索
通常、キーワードによる画像検索を行うためには、検索対象となる画像に対してタグ付けと呼ばれる作業が必要です。タグ付けではそれぞれの画像について、画像の説明となる単語を付与します。たとえば猫の画像については「猫」「動物」「ペット」などの単語を付与していく作業がタグ付けです。タグ付けは画像が数枚であれば簡単な作業ですが、莫大な量の画像データセットに対してタグ付けを行うことは多大な手間がかかります。
画像と文章を扱える LLM は、文章と画像の関連性を覚えているため、タグを付与することなく画像の検索が可能です。たとえば、ハッカソン内のこのシーンでは “dog in the desert” という文章から砂地の上にいる犬の画像を検索しています。
この例でも、厳密な検索がなされるわけではない点には注意が必要です。たとえば、さきほどの例では検索結果のうち、右上に「雪の上にいる犬」の画像が表示されてしまっています。検索精度の向上が必要な場合、タグを利用することも合わせて検討が必要でしょう。
また、LLM を用いた検索は従来の検索と比較して、検索のためにより多くの計算資源や時間を必要とします。必要な計算資源を抑える工夫を行った上で、利用可能な計算資源や、検索結果を提示するために必要な待ち時間が許容可能な範囲に収まるか、事前の検証が必要でしょう。
文章による画像生成・編集
文章による画像生成・編集は最近利用が広がっているユースケースです。これは使い方をさまざまに工夫できます。たとえば、前回や前々回の記事のように、ある記事の要約を作成してそれに基づいた画像を作成することで、長い文章を画像で印象的に表現できるでしょう。
ためしに今回の記事を Vertex AI の text-bison で要約し、DALL-E2 で画像を生成したところ、このような画像が生成されました。文章の構造から3つのウィンドウを作成している様子がわかりますが、画像の生成・編集についてはうまくタイトルを英訳できなかったようです。
文章から画像を生成するモデルは非常に人気があり、さまざまなサービスや OSS が提供されています。手軽に試せる一方で、利用においてはライセンスには留意が必要です。
文章から画像を生成するだけでなく、文章で画像の一部分を編集したり、ラフスケッチに加えてイメージを文章で表現することで画像を生成することもできます。この記事の最初のアニメ調の画像は、DALL-E2 に “Can you transform this picture into a flat anime-tasted illustration with the size of 1200 x 600?” というプロンプトを与えて弊社メンバーの集合写真から生成したものです。人数や性別が変わっていたりしますが、なんとなく面影が残っているメンバーも居るように思います。
このようにして生成した画像を対話的に利用することで、自分の求める画像についてのイメージを明確にできるので、たとえばデザイナーへのディレクションの前に利用すると良いでしょう。
今後の展望
さいごに、LLM のエンドユーザーから見た利用について、今後の展望を述べます。
現在、LLM は目新しい技術のためニュースでもふんだんに取り上げられています。しかし、これは現在だけのことで、将来的にはこれを AI として意識することはなくなるかもしれません。
たとえば、文章を読み上げる機能はかつては AI の行う先進的な機能だと考えられていました。一方、現在ではさまざまな機械が音声で文章を読み上げています。それらの機械音声を聞いたとしても、それらを AI だと思うことは少ないでしょう。また、読み上げがさらに自然になっていくと、人と区別がつかないため、より AI だと思えなくなるでしょう。
また、検索エンジンやレコメンドには機械学習に関連した技術がふんだんに使われていますが、これらを見ても AI だと思うことはあまりないと思います。これらで見られるように、LLM の生成した文章や画像を見ることは将来的には当たり前のこととなり、AI だとは思われなくなっていくでしょう。AI は身の回りに溶け込んでいくと思われます。
一方で、LLM が急激に広まった結果、今までに生じたことのない問題が生じていることも事実です。次回は「生成 AI の利用における問題」について、代表的なユースケースをもとに振り返ります。