第21回 画像もテキストも横断検索 -- マルチモーダル検索で実現する次世代ナレッジ管理

はじめに

ここまでの記事では、テキストベースのドキュメントの検索を中心に扱ってきました。 しかし、企業のナレッジにはテキスト以外のコンテンツも多く含まれます。 製品写真、設計図面、プレゼン資料のスライド画像、ホワイトボードの写真――これらの「画像」も検索できれば、ナレッジ活用はさらに広がります。

本記事では、テキストと画像を横断的に検索できるマルチモーダル検索環境の構築を紹介します。

対象読者

  • 画像を含むドキュメントの検索に課題を感じている方

  • ベクトル検索の応用に興味がある方

  • マルチモーダル AI の概念を理解したい方

マルチモーダル検索とは

マルチモーダル検索は、異なる種類のデータ(テキスト、画像、音声など)を横断的に検索する技術です。

例えば、「赤いスポーツカーのデザイン」というテキストで検索すると、その概念に合致する画像が検索結果に表示されます。 テキストから画像を、あるいは画像からテキストを検索できる仕組みです。

CLIP モデル

マルチモーダル検索の基盤となるのが、CLIP(Contrastive Language-Image Pre-Training)のようなモデルです。 CLIP はテキストと画像を同じベクトル空間に変換することで、テキストと画像の類似度を計算可能にします。

Fess でのマルチモーダル検索

Fess はマルチモーダル検索プラグインを通じて、テキストと画像の横断検索を実現できます。

構成要素

マルチモーダル検索の構成は以下の通りです。

  1. CLIP サーバー: テキストと画像をベクトルに変換

  2. OpenSearch: ベクトルを KNN(K-Nearest Neighbor)で検索

  3. Fess: クロール、インデクシング、検索 UI を提供

設定手順

1. CLIP サーバーの準備

CLIP モデルを動作させるサーバーを準備します。 GPU が利用可能な環境が推奨されます。

Docker Compose で CLIP サーバーを追加できます。

2. プラグインのインストール

Fess のマルチモーダル検索プラグインをインストールします。

3. KNN インデックスの設定

OpenSearch でベクトル検索を行うために、KNN インデックスの設定を行います。 ベクトルの次元数は、使用する CLIP モデルに合わせて設定します。

4. クロール設定

画像を含むディレクトリやウェブサイトをクロール対象に設定します。 画像ファイル(PNG、JPEG、GIF など)もクロール対象として収集されます。

検索体験

テキストで画像を検索

「製品の外観写真」「会議のホワイトボード」「設計図面」などのテキストで検索すると、概念的に一致する画像が検索結果に表示されます。

検索結果にはサムネイル画像が表示されるため、視覚的に目的の画像を見つけることができます。

テキストと画像の混在結果

マルチモーダル検索では、テキストドキュメントと画像が混在した検索結果が返されます。 Rank Fusion(第18回参照)を使って、テキスト検索と画像検索の結果を統合します。

ユースケース

製造業: 部品・製品画像の検索

製造業では、膨大な数の部品写真や製品画像を管理しています。 テキストで「丸型の金属部品」と検索したり、ある部品の写真から類似部品を検索したりすることで、過去の設計資産を活用できます。

デザインチーム: デザインアセットの管理

デザインチームでは、ロゴ、アイコン、写真素材、モックアップなどの視覚的なアセットを大量に管理しています。 「青色のグラデーション背景」のような自然言語で検索できるため、アセットの発見が容易になります。

研究開発: 実験データの検索

研究開発部門では、実験結果のグラフ、顕微鏡写真、測定データの画像を管理しています。 これらの画像を検索可能にすることで、過去の実験データの参照が容易になります。

導入の考慮点

ハードウェア要件

マルチモーダル検索は、CLIP モデルの実行に計算リソースを必要とします。

  • 推奨: GPU サーバー(NVIDIA GPU)

  • 最低限: CPU でも動作可能だが、インデクシング速度が低下

インデクシング時間はモデルの処理速度に依存するため、大量の画像をインデクシングする場合は GPU 環境を強く推奨します。

対応画像形式

一般的な画像形式(JPEG、PNG、GIF、BMP、TIFF など)に対応しています。 PDF 内の画像やオフィスドキュメント内の埋め込み画像については、クロール設定に依存します。

段階的導入

マルチモーダル検索は、既存のテキスト検索環境に追加する形で導入できます。

  1. まず画像の多いディレクトリやサイトを対象に試験導入

  2. 検索品質と利用状況を確認

  3. 対象を段階的に拡大

まとめ

本記事では、マルチモーダル検索による画像とテキストの横断検索を紹介しました。

  • マルチモーダル検索の概念(CLIP によるテキスト・画像の統一ベクトル空間)

  • Fess でのマルチモーダル検索の構成と設定

  • テキストで画像を検索、画像で類似画像を検索の体験

  • 製造業、デザイン、研究開発でのユースケース

  • GPU 要件と段階的導入のアプローチ

次回は、検索データの分析による組織のナレッジ可視化について扱います。

参考資料