クロール全般の設定

クロール全般の設定

ここでは、クロール全般に関わる設定について説明します。

設定方法

管理者アカウントでログイン後、メニューのクロール全般をクリックします。

image0

レプリケーション機能を有効にすると、生成済みのインデックスのパスを指定することができます。

image1

スケジュール: クロールの間隔についての設定

ウェブサイトやファイルシステムに対してクロールを行う間隔を設定できます。 デフォルトでは以下のようになっています。

0 0 0 * * ?

数字は、左から、秒、分、時、日、月、曜日 を表します。 記述形式は Unix の cron の設定に似ています。 この例だと、毎日午前0時0分にクロールが行われます。

以下に記述方法の例を示します。

0 0 12 * * ? 毎日 12pm に起動
0 15 10 ? * * 毎日 10:15am に起動
0 15 10 * * ? 毎日 10:15am に起動
0 15 10 * * ? * 毎日 10:15am に起動
0 15 10 * * ? 2005 2009 年の毎日 10:15am に起動
0 * 14 * * ? 毎日 2:00pm-2:59pm で 1 分毎に起動
0 0/5 14 * * ? 毎日 2:00pm-2:59pm で 5 分毎に起動
0 0/5 14,18 * * ? 毎日 2:00pm-2:59pm と 6:00pm-6:59pm で 5 分毎に起動
0 0-5 14 * * ? 毎日 2:00pm-2:05pm で 1 分毎に起動
0 10,44 14 ? 3 WED 3 月の水曜日の 2:10pm と 2:44pm に起動
0 15 10 ? * MON-FRI 月曜日から金曜日までで 10:15am に起動

秒まで設定できますが、デフォルトの設定では 60 秒間隔で実行するかどうかを確認しています。 秒まで正確に設定したい場合や 1 時間単位で確認すれば十分な場合などは、webapps/fess/WEB-INF/classes/chronosCustomize.dicon の taskScanIntervalTime の値をカスタマイズしてください。

モバイル変換

検索結果のウェブサイトが PC 用だった場合、モバイル端末で正しく表示できないかもしれません。 そのような場合に、モバイル変換を選択していると、PC サイトをモバイル端末用に変換して表示することができます。 Google を選択した場合、Google Wireless Transcoder により、携帯向けにコンテンツを表示することができます。 たとえば、PC 用サイトを検索対象にして結果をモバイル端末でも閲覧したい場合、モバイル端末向け検索結果一覧で検索結果のリンクが Google Wireless Transcoder に渡すリンクになります。 モバイル変換を利用することでモバイル端末でもスムーズな検索を利用することができます。

レプリケーション機能

レプリケーション機能を有効にすることで、既に生成済みの Solr インデックスをコピーして適用することができます。たとえば、クロールとインデックス化を別なサーバー上で行い、フロントに置く検索サーバーでは検索だけをしたい場合などに利用することができます。

インデックスのコミット、最適化

クロール後、データは Solr に対して登録されます。 インデックスのコミットまたは最適化することで、その登録されたデータが有効になります。 インデックスの最適化が選択されていれば、Solr に対して optimize が発行され、コミットを選択した場合は commit が発行されます。

サーバー切り替え

Fess は複数の Solr サーバーをグループとしてまとめることができ、そのグループを複数管理できます。 更新用と検索用の Solr サーバーグループは異なるグループを利用します。 たとえば、2 つのグループがあった場合、更新用がグループ 2 を利用し、検索用がグループ 1 を利用します。 サーバー切り替えを有効にしている場合は、クロールが完了した後に更新用がグループ 1 になり、検索用がグループ 2 に切り替わります。複数の Solr サーバーグループを登録している場合にだけ有効です。

ドキュメント数毎にコミット

Fess ではインデックス化のパフォーマンスを上げるためにクロールしながら、20 件単位でドキュメントを Solr に対して送信します。 コミットせずにドキュメントを追加しつづけると、Solr 上でのドキュメント追加のパフォーマンスが低下するため、ここで指定した値ごとに Solr に対してドキュメントのコミットを発行します。 デフォルトでは 1000 件ドキュメントを追加したら、コミットされます。

同時実行のクロール設定数

Fess のドキュメントクロールはウェブクロール、ファイルシステムクロールの順に行われます。 それぞれのクロールにおいて、ここで指定した値の数だけ、設定したクロール先を複数同時に実行することができます。 たとえば、同時実行のクロール設定数を 3 として、ウェブクロールに設定 1 から設定 10 まで登録してある場合、クロール実行時には設定 1 から設定 3 までの 3 つが実行されます。 それらのどれかのクロールが完了すると、設定 4 のクロールが開始されます。 同様に、設定 10 まで 1 つ完了するごとに 1 つ起動していきます。

クロール設定でスレッド数を指定することができますが、ここでの同時実行のクロール設定数は起動するスレッド数を示すものではありません。 たとえば、同時実行のクロール設定数が 3 で、各クロール設定のスレッド数を 5 としている場合は、3 x 5 = 15 のスレッド数が起動してクロールすることになります。

インデックスの有効期限

インデックスされているデータを新規データ登録後に自動的に削除することができます。 インデックスの有効期限で 5 日を選択している場合は、5 日以上前に登録して更新がなかったものが削除されます。 コンテンツが削除されてしまったデータなどを検索対象から外す場合などに利用できます。

スナップショットパス

レプリケーション機能を有効にした場合に、スナップショットパスとして指定されたインデックスディレクトリからインデックス情報をコピーして適用されます。