クローラー設定:Web、ファイルサーバー、データベースクロール

概要

Fess のクローラーは、Webサイトやファイルシステムなどから自動的にコンテンツを収集し、検索インデックスに登録する機能です。 Web クローラーによる Web サイト検索、ファイルクローラーによるファイルサーバー検索、データストアクローラーによるデータベースなど各種データソースの検索まで、1 つの Fess で横断的な全文検索を構築できます。本ガイドでは、クローラーの基本的な概念と設定方法について説明します。

データベースなどその他のデータソースのクロールについては、データベースコネクタ（データベース検索）およびデータストアコネクタの概要を参照してください。クロールしたコンテンツ全体の関連性をハイブリッド(キーワード+セマンティック)検索で向上させるには、ハイブリッド検索とランクフュージョン（セマンティック＋キーワード）を参照してください。

クローラーの基本概念

クローラーとは

クローラー(Crawler)は、指定されたURLやファイルパスを起点として、リンクをたどりながら自動的にコンテンツを収集するプログラムです。

Fess のクローラーは以下の特徴があります:

マルチプロトコル対応: HTTP/HTTPS、ファイルシステム、SMB、FTPなど
スケジュール実行: 定期的な自動クロール
増分クロール: 変更されたコンテンツのみを更新
並列処理: 複数URLの同時クロール
ロボット規約対応: robots.txt の遵守

クローラーの種類

Fess では、対象に応じて以下のクローラー種別があります。

クローラー種別
種別	対象	用途
Webクローラー	Webサイト(HTTP/HTTPS)	公開Webサイト、イントラネット内のWebサイト
ファイルクローラー	ファイルシステム、SMB、FTP	ファイルサーバー、共有フォルダー
データストアクローラー	データベース	RDB、CSV、JSONなどのデータソース

クロール設定の作成

基本的なクロール設定の追加

管理画面にアクセス

ブラウザで http://localhost:8080/admin にアクセスし、管理者でログインします。
クローラー設定画面を開く

左メニューから「クローラー」→「ウェブ」または「ファイルシステム」を選択します。
新しい設定を作成

「新規作成」ボタンをクリックします。
基本情報を入力
- 名前: クロール設定の識別名(例: 社内Wiki)
- URL: クロール開始URL(例: https://wiki.example.com/)
- 間隔: 各URLへのアクセス間隔(ミリ秒)(例: 10000)
- スレッド数: 並列クロール数(例: 5)
- 深さ: リンクをたどる階層の深さ(例: 3)
保存

「作成」ボタンをクリックして設定を保存します。

Webクローラーの設定例

社内イントラネットサイトのクロール

公開Webサイトのクロール

ファイルクローラーの設定例

ローカルファイルシステム

SMB/CIFS(Windowsファイル共有)

認証情報の設定

認証が必要なサイトやファイルサーバーにアクセスする場合は、認証情報を設定します。

管理画面で「クローラー」→「ウェブ認証」(ファイルサーバーの場合は「ファイル認証」)を選択
「新規作成」をクリック
認証情報を入力:
```
ホスト名: wiki.example.com
ポート: 443
スキーム: Basic
ユーザー名: crawler_user
パスワード: ********
```
注釈

「スキーム」は Basic / Digest / NTLM / Form から選択します。また、「ウェブ設定」(ファイル認証の場合は「ファイルシステム設定」)で対象のクロール設定を必ず選択してください。認証情報はクロール設定にひも付けて使用されます。
「作成」をクリック

クロールの実行

手動実行

設定したクロールをすぐに実行する場合は、「スケジューラー」メニューからクロール用のジョブを起動します。

「スケジューラー」メニューを開く
「Default Crawler」ジョブを選択
「今すぐ開始」ボタンをクリック
ジョブの実行状況を確認

注釈

クロール設定(ウェブ/ファイルシステム)の一覧画面には個別の「開始」ボタンはありません。クロールはスケジューラーのジョブ単位で実行されます。「Default Crawler」ジョブは、有効になっている全てのクロール設定を対象に実行されます。

スケジュール実行

定期的にクロールを実行する場合:

「スケジューラー」メニューを開く
「Default Crawler」ジョブを選択

スケジュール式を設定(Cron形式)

「更新」をクリック

注釈

Fess のスケジューラーは cron4j 形式のスケジュール式を使用します。フィールドは「分時日月曜日」の5つで、Quartz のような秒フィールドや ? は使用しません。曜日は 0 (日曜) ～ 6 (土曜) で指定します。

クロール状況の確認

実行中のクロール状況を確認:

「スケジューラー」メニューを開く
実行中のジョブを確認
ログで詳細を確認:
```
tail -f /var/log/fess/fess-crawler.log
```
注釈

上記はRPM/DEBパッケージインストール時のパスです。zip/tar.gz展開の場合は logs/ ディレクトリ配下になります。

基本的な設定項目

クロール対象の制限

URLパターンによる制限

特定のURLパターンのみをクロール対象とする、または除外することができます。

含めるURLパターン(正規表現):

除外するURLパターン(正規表現):

深さの制限

リンクをたどる階層の深さを制限:

0: 開始URLのみ
1: 開始URLと、そこからリンクされたページ
空欄(未設定): 無制限(全てのリンクをたどる)

注釈

管理画面の「深さ」フィールドには 0 以上の整数のみ入力できます。無制限にする場合はフィールドを空欄のままにしてください (内部的には -1 として扱われ、無制限を意味します)。

最大アクセス数

クロールするページ数の上限:

1000ページまでクロールしたら停止します。フィールドを空欄にした場合は無制限(上限なし)になります。

並列クロール数(スレッド数)

同時にクロールするURLの数を指定します。

推奨スレッド数
環境	推奨値	説明
小規模サイト(〜1万ページ)	3〜5	対象サーバーへの負荷を抑える
中規模サイト(1万〜10万ページ)	5〜10	バランスの良い設定
大規模サイト(10万ページ以上)	10〜20	高速クロールが必要
ファイルサーバー	3〜5	ファイルI/O負荷を考慮

警告

スレッド数を増やしすぎると、クロール対象のサーバーに過度な負荷をかけます。適切な値を設定してください。

注釈

新規作成時のデフォルトのスレッド数は、Webクローラーが 1、ファイルクローラーが 5 です。また、リクエスト間隔(間隔)のデフォルトは Webクローラーが 10000 ミリ秒、ファイルクローラーが 1000 ミリ秒です。

クロール間隔

クロールを実行する頻度を指定します。

ファイルサイズの設定

クロールするファイルサイズの上限を設定できます。

取得するファイルサイズの上限

クローラー設定の「設定パラメーター」に以下を追加:

10MBまでのファイルを取得します。デフォルトでは制限なしです。

注釈

大きなファイルをクロールする場合は、メモリ設定も調整してください。詳細はメモリ設定を参照してください。

インデックスするファイルサイズの上限

ファイルの種類ごとにインデックスするサイズの上限を設定できます。

デフォルト値:

HTMLファイル: 2.5MB
その他のファイル: 10MB

設定ファイル: app/WEB-INF/classes/crawler/contentlength.xml

デフォルト設定:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE components PUBLIC "-//DBFLUTE//DTD LastaDi 1.0//EN"
        "http://dbflute.org/meta/lastadi10.dtd">
<components namespace="fessCrawler">
        <include path="crawler/container.xml" />

        <component name="contentLengthHelper"
                class="org.codelibs.fess.crawler.helper.ContentLengthHelper" instance="singleton">
                <property name="defaultMaxLength">10485760</property><!-- 10M -->
                <postConstruct name="addMaxLength">
                        <arg>"text/html"</arg>
                        <arg>2621440</arg><!-- 2.5M -->
                </postConstruct>
        </component>
</components>

カスタマイズ例（PDFファイルを5MBまで処理する設定を追加）:

警告

扱うファイルサイズを増やす場合は、クローラーのメモリ設定も増やしてください。

注釈

ドキュメントサイズが50MBを超える場合は、OpenSearch側の設定も変更する必要があります。 OpenSearchではJSONコンテンツの文字列フィールドの最大長がデフォルトで50MBに制限されています。

opensearch.yml に以下を追加してください:

上記は100MBに設定する例です。詳細は OpenSearchのドキュメントを参照してください。

単語の長さ制限

概要

英数字だけの長い文字列や連続する記号は、インデックスサイズの増加やパフォーマンス劣化を引き起こします。そのため、Fess ではデフォルトで以下の制限を設けています:

連続する英数字: 20文字まで
連続する記号: 10文字まで

設定方法

fess_config.properties を編集します。

デフォルト設定:

例: 制限を緩和する場合

注釈

長い英数字列で検索する必要がある場合(例: シリアル番号、トークンなど)は、この値を大きくしてください。ただし、インデックスサイズが増加します。

プロキシの設定

概要

イントラネット内から外部サイトをクロールする場合、ファイアウォールにブロックされることがあります。その場合はプロキシサーバーを経由してクロールします。

設定方法

管理画面のクロール設定で、「設定パラメーター」に以下を追加します。

基本的なプロキシ設定:

認証が必要なプロキシ:

特定のホストをプロキシから除外:

プロキシから除外するホストは、クロール設定の設定パラメーターではなく、JVMシステムプロパティで設定します。 fess.in.sh (Linux/Mac) または fess.in.bat (Windows) で環境変数 FESS_NON_PROXY_HOSTS を設定してください。

全てのクロール設定共通のプロキシ設定

個々のクロール設定でプロキシを指定していない場合に適用される、クローラー共通のプロキシを fess_config.properties で設定できます。

この設定はクローラーが対象に持つ全てのクロール設定に適用されます (クロール設定側で client.proxyHost / client.proxyPort を指定している場合は、そのクロール設定の値が優先されます)。

システム全体(JVM)のプロキシ設定

クローラーだけでなく、SSO や LLM 連携など Fess のすべてのHTTP通信をプロキシ経由にする場合は、fess.in.sh (Linux/Mac) または fess.in.bat (Windows) で環境変数を設定します。これらは JVM のシステムプロパティ (-Dhttp.proxyHost など)に変換されます。

注釈

FESS_PROXY_HOST / FESS_PROXY_PORT は HTTP と HTTPS の両方に適用されます。シェルの http_proxy / https_proxy / no_proxy 環境変数は JVM では参照されないため、これらを設定しても効果はありません。

robots.txt の設定

概要

robots.txt は、クローラーに対してクロール可否を指示するファイルです。 Fess はデフォルトで robots.txt を遵守します。

設定方法

robots.txt を無視する場合は、fess_config.properties を編集します。

このプロパティのデフォルトは false で、Fess は robots.txt を遵守します。 true に設定すると robots.txt を無視します。

なお、HTMLの robots メタタグ(noindex、nofollow など)を無視する場合は、以下のプロパティを使用します(デフォルトは false)。

警告

外部サイトをクロールする場合は、robots.txt を遵守してください。無視すると、サーバーに過度な負荷をかけたり、利用規約に違反する可能性があります。

User-Agent の設定

クローラーのUser-Agentを変更できます。

Webクローラーの場合

Webクローラーには専用の「ユーザーエージェント」フィールドがあります。クロール設定の編集画面で「ユーザーエージェント」フィールドに値を入力してください。

注釈

Webクロール設定では、「設定パラメーター」に client.userAgent を指定しても専用の「ユーザーエージェント」フィールドの値で上書きされます。 Webクローラーでは必ず専用フィールドを使用してください。

ファイルクローラーなどの場合

専用のユーザーエージェントフィールドを持たないクローラーでは、クロール設定の「設定パラメーター」に追加して指定します。

エンコーディング設定

クロールデータのエンコーディング

fess_config.properties で設定:

ファイル名のエンコーディング

ファイルシステムのファイル名のエンコーディング:

クロールのトラブルシューティング

クロールが開始されない

確認事項:

スケジューラーが有効か確認
- 「スケジューラー」メニューで「Default Crawler」ジョブが有効か確認
クロール設定が有効か確認
- クロール設定一覧で対象の設定が有効になっているか確認

ログを確認

クロールが途中で停止する

考えられる原因:

メモリ不足
- fess-crawler.log に OutOfMemoryError がないか確認
- クローラーのメモリを増やす(詳細はメモリ設定)
ネットワークエラー
- タイムアウト設定を調整(クロール設定の「設定パラメーター」で指定)
```
client.connectionTimeout=5000
client.soTimeout=30000
```
  client.connectionTimeout は接続確立のタイムアウト、 client.soTimeout はデータ受信のタイムアウトで、いずれも単位はミリ秒です。
クロール対象のエラー
- 404エラーが多発していないか確認
- ログでエラー詳細を確認

特定のページがクロールされない

確認事項:

URLパターンの確認
- 除外URLパターンに該当していないか確認
robots.txt の確認
- 対象サイトの /robots.txt を確認
認証の確認
- 認証が必要なページの場合、認証設定を確認
深さ制限
- リンクの階層が深さ制限を超えていないか確認
最大アクセス数
- 最大アクセス数に達していないか確認

クロールが遅い

対策:

スレッド数を増やす
- 並列クロール数を増やす(ただし、対象サーバーの負荷に注意)
不要なURLを除外
- 画像やCSSファイルなどを除外URLパターンに追加
タイムアウト設定を調整
- 応答が遅いサイトの場合、タイムアウトを短くする
クローラーのメモリを増やす
- 詳細はメモリ設定

ベストプラクティス

クロール設定の推奨事項

適切なスレッド数の設定

対象サーバーに過度な負荷をかけないよう、適切なスレッド数を設定します。
URLパターンの最適化

不要なファイル(画像、CSS、JavaScriptなど)を除外することで、クロール時間を短縮し、インデックスの品質を向上させます。
深さ制限の設定

サイト構造に応じて適切な深さを設定します。無制限(-1)は、サイト全体をクロールする場合のみ使用します。
最大アクセス数の設定

想定外に大量のページをクロールしないよう、上限を設定します。
クロール間隔の調整

更新頻度に応じて適切な間隔を設定します。 - 頻繁に更新されるサイト: 1時間〜数時間ごと - あまり更新されないサイト: 1日〜1週間ごと

スケジュール設定の推奨事項

夜間実行

サーバー負荷が低い時間帯(例: 深夜2時)に実行します。
重複実行の回避

前回のクロールが完了してから次のクロールを開始するよう設定します。
エラー時の通知

クロール失敗時にメール通知を設定します。

参考情報

クローラー詳細設定 - クローラー詳細設定
サムネイル画像の設定 - サムネイル設定
メモリ設定 - メモリ設定
ログ設定 - ログ設定
データストアコネクタの概要 - データストアクロールの概要(データベースなど各種データソース)
データベースコネクタ（データベース検索） - データベースクロールの設定
ハイブリッド検索とランクフュージョン（セマンティック＋キーワード） - ハイブリッド検索とランクフュージョン
ウェブクロール（Webサイト検索）
ファイルクロール（ファイルサーバー検索）
データストアクロール
データストアコネクタガイド
検索機能