概要
ここでは、クロール全般に関わる設定について説明します。
設定方法
表示方法
管理者アカウントでログイン後、メニューのクロール全般をクリックします。
レプリケーション機能を有効にすると、生成済みのインデックスのパスを指定することができます。
設定項目
スケジュール: クロールの間隔についての設定
ウェブサイトやファイルシステムに対してクロールを行う間隔を設定できます。 デフォルトでは以下のようになっています。
0 0 0 * * ?
数字は、左から、秒、分、時、日、月、曜日 を表します。 記述形式は Unix の cron の設定に似ています。 この例だと、毎日午前0時0分にクロールが行われます。
以下に記述方法の例を示します。
0 0 12 * * ? | 毎日 12pm に起動 |
0 15 10 ? * * | 毎日 10:15am に起動 |
0 15 10 * * ? | 毎日 10:15am に起動 |
0 15 10 * * ? * | 毎日 10:15am に起動 |
0 15 10 * * ? 2009 | 2009 年の毎日 10:15am に起動 |
0 * 14 * * ? | 毎日 2:00pm-2:59pm で 1 分毎に起動 |
0 0/5 14 * * ? | 毎日 2:00pm-2:59pm で 5 分毎に起動 |
0 0/5 14,18 * * ? | 毎日 2:00pm-2:59pm と 6:00pm-6:59pm で 5 分毎に起動 |
0 0-5 14 * * ? | 毎日 2:00pm-2:05pm で 1 分毎に起動 |
0 10,44 14 ? 3 WED | 3 月の水曜日の 2:10pm と 2:44pm に起動 |
0 15 10 ? * MON-FRI | 月曜日から金曜日までで 10:15am に起動 |
秒まで設定できますが、デフォルトの設定では 60 秒間隔で実行するかどうかを確認しています。 秒まで正確に設定したい場合や 1 時間単位で確認すれば十分な場合などは、webapps/fess/WEB-INF/classes/chronosCustomize.dicon の taskScanIntervalTime の値をカスタマイズしてください。
検索ログ
利用者が検索を入力して検索したときにログを出力します。検索の統計を取得したい場合には有効にしてください。
利用者ログ
検索した利用者の情報を保存します。検索利用者を識別することが可能になります。
お気に入りログ
利用者が良いと判断した検索結果を収集することができます。検索結果一覧画面で結果に投票リンクが表示されるので、そのリンクを押下したものを記録します。収集した結果をクロール時にインデックスに反映することもできます。
検索パラメータの追加
検索結果のリンクに検索語を付加します。PDF では検索語を検索した状態で表示することが可能になります。
XML応答
XML形式で検索結果が取得可能になります。http://localhost:8080/fess/xml?query=検索語 にアクセスすることで取得できます。
JSON応答
JSON形式で検索結果が取得可能になります。http://localhost:8080/fess/json?query=検索語 にアクセスすることで取得できます。
モバイル変換
検索結果のウェブサイトが PC 用だった場合、モバイル端末で正しく表示できないかもしれません。 そのような場合に、モバイル変換を選択していると、PC サイトをモバイル端末用に変換して表示することができます。 Google を選択した場合、Google Wireless Transcoder により、携帯向けにコンテンツを表示することができます。 たとえば、PC 用サイトを検索対象にして結果をモバイル端末でも閲覧したい場合、モバイル端末向け検索結果一覧で検索結果のリンクが Google Wireless Transcoder に渡すリンクになります。 モバイル変換を利用することでモバイル端末でもスムーズな検索を利用することができます。
デフォルトラベル値
ラベルが表示可能な場合にデフォルトで表示するラベルを指定することができます。ラベルの値を指定します。
サポートする検索
検索画面を表示するかどうかを指定できます。ウェブを選択した場合はモバイル用の検索画面が利用できなくなります。利用不可とした場合は、検索画面を利用できません。インデックス作成専用サーバーとする場合などに利用不可を選択します。
注目キーワード応答
JSON形式で検索が多い検索語が取得可能になります。http://localhost:8080/fess/hotsearchword にアクセスすることで取得できます。
指定日数以前のセッション情報削除
指定した日数以前のセッションログを削除します。一日一回のログパージで古いログは削除されます。
指定日数以前の検索ログ削除
指定した日数以前の検索ログを削除します。一日一回のログパージで古いログは削除されます。
ログ削除のBots名
検索ログから削除したい Bots のログをカンマ (,) 区切りでユーザーエージェントに含まれる Bots 名を指定します。一日一回のログパージでログは削除されます。
CSV エンコーディング
バックアップ・リストアで利用される CSV のエンコーディングを指定します。
レプリケーション機能
レプリケーション機能を有効にすることで、既に生成済みの Solr インデックスをコピーして適用することができます。たとえば、クロールとインデックス化を別なサーバー上で行い、フロントに置く検索サーバーでは検索だけをしたい場合などに利用することができます。
インデックスのコミット、最適化
クロール後、データは Solr に対して登録されます。 インデックスのコミットまたは最適化することで、その登録されたデータが有効になります。 インデックスの最適化が選択されていれば、Solr に対して optimize が発行され、コミットを選択した場合は commit が発行されます。
サーバー切り替え
Fess は複数の Solr サーバーをグループとしてまとめることができ、そのグループを複数管理できます。 更新用と検索用の Solr サーバーグループは異なるグループを利用します。 たとえば、2 つのグループがあった場合、更新用がグループ 2 を利用し、検索用がグループ 1 を利用します。 サーバー切り替えを有効にしている場合は、クロールが完了した後に更新用がグループ 1 になり、検索用がグループ 2 に切り替わります。複数の Solr サーバーグループを登録している場合にだけ有効です。
ドキュメント数毎にコミット
Fess では 10 件単位でドキュメントを Solr に対して送信します。 ここで指定した値ごとに Solr に対してドキュメントのコミットを発行します。 0の場合はクロール完了後にコミットが実行されます。
同時実行のクロール設定数
Fess のドキュメントクロールはウェブクロール、ファイルシステムクロールの順に行われます。 それぞれのクロールにおいて、ここで指定した値の数だけ、設定したクロール先を複数同時に実行することができます。 たとえば、同時実行のクロール設定数を 3 として、ウェブクロールに設定 1 から設定 10 まで登録してある場合、クロール実行時には設定 1 から設定 3 までの 3 つが実行されます。 それらのどれかのクロールが完了すると、設定 4 のクロールが開始されます。 同様に、設定 10 まで 1 つ完了するごとに 1 つ起動していきます。
クロール設定でスレッド数を指定することができますが、ここでの同時実行のクロール設定数は起動するスレッド数を示すものではありません。 たとえば、同時実行のクロール設定数が 3 で、各クロール設定のスレッド数を 5 としている場合は、3 x 5 = 15 のスレッド数が起動してクロールすることになります。
インデックスの有効期限
インデックスされているデータを新規データ登録後に自動的に削除することができます。 インデックスの有効期限で 5 日を選択している場合は、5 日以上前に登録して更新がなかったものが削除されます。 コンテンツが削除されてしまったデータなどを検索対象から外す場合などに利用できます。差分クロールが有効な場合は削除されません。
除外する障害タイプ
障害URLに登録されたURLは、障害回数を超えると次回のクロール時にクロール対象外になります。気にする必要のない障害種類はこの値を指定することで次回もクロール対象となります。
障害回数
障害回数を超えた障害URLはクロール対象外になります。
スナップショットパス
レプリケーション機能を有効にした場合に、スナップショットパスとして指定されたインデックスディレクトリからインデックス情報をコピーして適用されます。