概要
ここでは、クロール全般に関わる設定について説明します。
設定方法
表示方法
管理者アカウントでログイン後、メニューのクロール全般をクリックします。
設定項目
検索ログ
利用者が検索を入力して検索したときにログを出力します。検索の統計を取得したい場合には有効にしてください。
利用者ログ
検索した利用者の情報を保存します。検索利用者を識別することが可能になります。
お気に入りログ
利用者が良いと判断した検索結果を収集することができます。検索結果一覧画面で結果に投票リンクが表示されるので、そのリンクを押下したものを記録します。収集した結果をクロール時にインデックスに反映することもできます。
検索パラメータの追加
検索結果のリンクに検索語を付加します。PDF では検索語を検索した状態で表示することが可能になります。
XML応答
XML形式で検索結果が取得可能になります。http://localhost:8080/fess/xml?query=検索語
にアクセスすることで取得できます。
JSON応答
JSON形式で検索結果が取得可能になります。http://localhost:8080/fess/json?query=検索語
にアクセスすることで取得できます。
デフォルトラベル値
ラベルが表示可能な場合にデフォルトで表示するラベルを指定することができます。ラベルの値を指定します。
サポートする検索
検索画面を表示するかどうかを指定できます。利用不可とした場合は、検索画面を利用できません。インデックス作成専用サーバーとする場合などに利用不可を選択します。
注目キーワード応答
JSON形式で検索が多い検索語が取得可能になります。http://localhost:8080/fess/json?type=hotsearchword
にアクセスすることで取得できます。
指定日数以前の検索ログ削除
指定した日数以前の検索ログを削除します。一日一回のログパージで古いログは削除されます。
指定日数以前のジョブログ削除
指定した日数以前のジョブログを削除します。一日一回のログパージで古いログは削除されます。
指定日数以前の利用者情報削除
指定した日数以前の利用者情報を削除します。一日一回のログパージで古いログは削除されます。
ログ削除のBots名
検索ログから削除したい Bots のログをカンマ (,) 区切りでユーザーエージェントに含まれる Bots 名を指定します。一日一回のログパージでログは削除されます。
通知アドレス
クロールを完了時にクロールに関する情報を送信するメールアドレスを指定します。
CSV エンコーディング
バックアップ・リストアで利用される CSV のエンコーディングを指定します。
差分クロール
差分クロールを有効にすると、lastModifiedフィールドの値と対象ドキュメントの更新日時(HTTPの場合はLAST_MODIFIEDの値、ファイルの場合はタイムスタンプ)を比較して、更新されたものだけをクロールします。 データストアクロールでは差分クロールは適用されません。
ACLをロールに利用
ファイル付加されているグループのアクセス権情報をロールに追加します。
サーバー切り替え
Fess は複数の Solr サーバーをグループとしてまとめることができ、そのグループを複数管理できます。 更新用と検索用の Solr サーバーグループは異なるグループを利用します。 たとえば、2 つのグループがあった場合、更新用がグループ 2 を利用し、検索用がグループ 1 を利用します。 サーバー切り替えを有効にしている場合は、クロールが完了した後に更新用がグループ 1 になり、検索用がグループ 2 に切り替わります。複数の Solr サーバーグループを登録している場合にだけ有効です。
同時実行のクロール設定数
Fess のドキュメントクロールはウェブクロール、ファイルシステムクロールの順に行われます。それぞれのクロールにおいて、ここで指定した値の数だけ、設定したクロール先を複数同時に実行することができます。たとえば、同時実行のクロール設定数を 3 として、ウェブクロールに設定 1 から設定 10 まで登録してある場合、クロール実行時には設定 1 から設定 3 までの 3 つが実行されます。 それらのどれかのクロールが完了すると、設定 4 のクロールが開始されます。 同様に、設定 10 まで 1 つ完了するごとに 1 つ起動していきます。
クロール設定でスレッド数を指定することができますが、ここでの同時実行のクロール設定数は起動するスレッド数を示すものではありません。たとえば、同時実行のクロール設定数が 3 で、各クロール設定のスレッド数を 5 としている場合は、3 x 5 = 15 のスレッド数が起動してクロールすることになります。
インデックスの有効期限
クロール時にインデックスされているデータを新規データ登録後に自動的に削除することができます。 インデックスの有効期限で 5 日を選択している場合は、5 日以上前に登録して更新がなかったものが削除されます。 コンテンツが削除されてしまったデータなどを検索対象から外す場合などに利用できます。
除外する障害タイプ
障害 URL に登録された URL は、障害回数を超えると次回のクロール時にクロール対象外になります。監視する必要のない障害種類はこの値を指定することで次回もクロール対象となります。 除外する障害(例外)の指定はJavaの正規表現で指定することができます。
障害回数
障害回数を超えた障害 URL はクロール対象外になります。
検索語サジェスト
検索された検索語をサジェストに出すかどうかの設定です。
検索語サジェストの有効期間
検索語がサジェストに表示されなくなるまでの期間(日数)です。 30と入力すると30日以前の検索語はサジェストに表示されません。