はじめに
ここまでの記事では、テキストベースのドキュメントの検索を中心に扱ってきました。 しかし、企業のナレッジにはテキスト以外のコンテンツも多く含まれます。 製品写真、設計図面、プレゼン資料のスライド画像、ホワイトボードの写真――これらの「画像」も検索できれば、ナレッジ活用はさらに広がります。
本記事では、テキストと画像を横断的に検索できるマルチモーダル検索環境の構築を紹介します。
対象読者
画像を含むドキュメントの検索に課題を感じている方
ベクトル検索の応用に興味がある方
マルチモーダル AI の概念を理解したい方
マルチモーダル検索とは
マルチモーダル検索は、異なる種類のデータ(テキスト、画像、音声など)を横断的に検索する技術です。
例えば、「赤いスポーツカーのデザイン」というテキストで検索すると、その概念に合致する画像が検索結果に表示されます。 テキストから画像を、あるいは画像からテキストを検索できる仕組みです。
CLIP モデル
マルチモーダル検索の基盤となるのが、CLIP(Contrastive Language-Image Pre-Training)のようなモデルです。 CLIP はテキストと画像を同じベクトル空間に変換することで、テキストと画像の類似度を計算可能にします。
Fess でのマルチモーダル検索
Fess はマルチモーダル検索プラグインを通じて、テキストと画像の横断検索を実現できます。
構成要素
マルチモーダル検索の構成は以下の通りです。
CLIP サーバー: テキストと画像をベクトルに変換
OpenSearch: ベクトルを KNN(K-Nearest Neighbor)で検索
Fess: クロール、インデクシング、検索 UI を提供
設定手順
1. CLIP サーバーの準備
CLIP モデルを動作させるサーバーを準備します。 GPU が利用可能な環境が推奨されます。
Docker Compose で CLIP サーバーを追加できます。
2. プラグインのインストール
Fess のマルチモーダル検索プラグインをインストールします。
3. KNN インデックスの設定
OpenSearch でベクトル検索を行うために、KNN インデックスの設定を行います。 ベクトルの次元数は、使用する CLIP モデルに合わせて設定します。
4. クロール設定
画像を含むディレクトリやウェブサイトをクロール対象に設定します。 画像ファイル(PNG、JPEG、GIF など)もクロール対象として収集されます。
検索体験
テキストで画像を検索
「製品の外観写真」「会議のホワイトボード」「設計図面」などのテキストで検索すると、概念的に一致する画像が検索結果に表示されます。
検索結果にはサムネイル画像が表示されるため、視覚的に目的の画像を見つけることができます。
テキストと画像の混在結果
マルチモーダル検索では、テキストドキュメントと画像が混在した検索結果が返されます。 Rank Fusion(第18回参照)を使って、テキスト検索と画像検索の結果を統合します。
ユースケース
製造業: 部品・製品画像の検索
製造業では、膨大な数の部品写真や製品画像を管理しています。 テキストで「丸型の金属部品」と検索したり、ある部品の写真から類似部品を検索したりすることで、過去の設計資産を活用できます。
デザインチーム: デザインアセットの管理
デザインチームでは、ロゴ、アイコン、写真素材、モックアップなどの視覚的なアセットを大量に管理しています。 「青色のグラデーション背景」のような自然言語で検索できるため、アセットの発見が容易になります。
研究開発: 実験データの検索
研究開発部門では、実験結果のグラフ、顕微鏡写真、測定データの画像を管理しています。 これらの画像を検索可能にすることで、過去の実験データの参照が容易になります。
導入の考慮点
ハードウェア要件
マルチモーダル検索は、CLIP モデルの実行に計算リソースを必要とします。
推奨: GPU サーバー(NVIDIA GPU)
最低限: CPU でも動作可能だが、インデクシング速度が低下
インデクシング時間はモデルの処理速度に依存するため、大量の画像をインデクシングする場合は GPU 環境を強く推奨します。
対応画像形式
一般的な画像形式(JPEG、PNG、GIF、BMP、TIFF など)に対応しています。 PDF 内の画像やオフィスドキュメント内の埋め込み画像については、クロール設定に依存します。
段階的導入
マルチモーダル検索は、既存のテキスト検索環境に追加する形で導入できます。
まず画像の多いディレクトリやサイトを対象に試験導入
検索品質と利用状況を確認
対象を段階的に拡大
まとめ
本記事では、マルチモーダル検索による画像とテキストの横断検索を紹介しました。
マルチモーダル検索の概念(CLIP によるテキスト・画像の統一ベクトル空間)
Fess でのマルチモーダル検索の構成と設定
テキストで画像を検索、画像で類似画像を検索の体験
製造業、デザイン、研究開発でのユースケース
GPU 要件と段階的導入のアプローチ
次回は、検索データの分析による組織のナレッジ可視化について扱います。