パスマッピング

概要

ここでは、パスマッピングに関する設定について説明します。 パスマッピングは、Fess がクロールしたドキュメントのURLを正規表現を使って変換する機能です。 たとえば、ファイルサーバーのドキュメント( file:// で始まるパス)をクロールし、検索結果からはWebサーバー経由( http:// )でアクセスさせたい場合などに利用できます。

管理方法

表示方法

下図のパスマッピングの設定一覧ページを開くには、左メニューの [クローラー > パスマッピング] をクリックします。

image0

編集するには設定名をクリックします。

設定の作成

パスマッピングの設定ページを開くには新規作成ボタンをクリックします。

image1

設定項目

正規表現

置換したい文字列を指定します。 記述方法は Java の正規表現に従います。

置換

一致した正規表現を置き換える文字列を指定します。

処理の種類

置換するタイミングを指定します。目的に応じて適切なタイプを選択してください。

クロール

クロール時にドキュメント取得後、インデクシングする前にURLを置換します。 変換後のURLがインデックスに保存されます。 ファイルサーバーのパスをWebサーバーのURLに変換してインデックスに保存したい場合に使用します。

表示

検索結果を表示する前、および検索結果のリンクをクリックした時にURLを置換します。 インデックスに保存されているURLは変更されません。 インデックスには元のURLを保持したまま、検索結果の表示時のみ別のURLに変換したい場合に使用します。

クロール/表示

クロールと表示の両方でURLを置換します。 クロールと表示の両タイミングで同じ変換を適用したい場合に使用します。

抽出URL変換

HTMLドキュメントからリンクを抽出した際に、リンク先のURLを置換します。 Webクローラーでのみ有効です(ファイルクローラーでは効果がありません)。 インデックスに保存されるURLは変更されません。 HTMLから抽出したリンクURLを変換してクロールキューに追加したい場合に使用します。

表示順序

パスマッピングの処理順を指定できます。 昇順に処理されます。

ユーザーエージェント

特定のユーザーエージェントにのみパスマッピングを適用したい場合に指定します。 正規表現でマッチングされます。 未設定の場合はすべてのリクエストに適用されます。

設定の削除

一覧ページの設定名をクリックし、削除ボタンをクリックすると確認画面が表示されます。 削除ボタンを押すと設定が削除されます。

ファイルサーバーをWebサーバー経由でアクセス

ファイルサーバーのドキュメントをクロールし、検索結果からWebサーバー経由でアクセスさせる場合の設定例です。

設定項目 設定値
正規表現 file:/srv/documents/
置換 http://fileserver.example.com/documents/
処理の種類 クロール

この設定により、インデックスには http://fileserver.example.com/documents/... として保存されます。

表示時のみURLを変換

インデックスには元のファイルパスを保持し、検索結果の表示時のみWebサーバーのURLに変換する場合の設定例です。

設定項目 設定値
正規表現 file:/srv/documents/
置換 http://fileserver.example.com/documents/
処理の種類 表示

この設定により、インデックスには file:/srv/documents/... のまま保存され、検索結果のクリック時に http://... に変換されます。

サーバー移行時のリンク変換

WebサイトをクロールするときにHTML内のリンクを旧サーバーから新サーバーに変換する場合の設定例です。

設定項目 設定値
正規表現 http://old-server\\.example\\.com/
置換 http://new-server.example.com/
処理の種類 抽出URL変換

この設定により、HTMLから抽出されたリンクが変換されてクロールキューに追加されます。

注意事項

抽出URL変換について

抽出URL変換は、Webクローラーでのみ有効です。 ファイルシステムのクロールでは適用されません。 また、インデックスに保存されるURLは変更されず、クロールキューに追加するURLを変換するだけです。

正規表現について

正規表現はJavaの正規表現形式で記述します。

  • 後方参照( $1$2 など)が使用できます

  • 特殊文字はエスケープが必要です(例: .\\.

ソート順について

パスマッピングは設定されたソート順(昇順)で順次適用されます。 複数のパスマッピングがマッチする場合、先にマッチしたものから適用されます。