ウェブを対象としたクロールに関する設定

Date:

2009-10-10

ウェブを対象としたクロールに関する設定

ここでは、ウェブを対象としたクロールに関する設定について説明します。

設定方法

管理者アカウントでログイン後、メニューのウェブをクリックします。

ウェブクロールの設定

設定名

一覧ページで表示される名前です。

URL の指定

URL は複数指定できます。 http: または https: で始まるように指定します。 たとえば、

http://localhost/
http://localhost:8080/

のように指定します。

URL のフィルタリング

正規表現で指定することによって、特定の URL パターンをクロールの対象にしたり、除外できます。

たとえば、http://localhost/ 以下しかクロールしない場合は、対象とする URL に

http://localhost/.*

また、拡張子が png のものを対象から除外したい場合は、除外する URL に

.*\.png$

と、指定します。 複数指定することが可能です。

深さ

クロールしたドキュメント内に含まれるリンクを順に辿っていきますがその辿る深さを指定できます。

最大アクセス数

クロールして取得するドキュメント数を指定できます。

ユーザーエージェント

クロール時に利用するユーザーエージェントを指定できます。

スレッド数

クロールするスレッド数を指定します。 5 を指定した場合、5 個のスレッドで同時にウェブサイトをクロールします。

間隔

ドキュメントをクロールする間隔 (ミリ秒) です。 5000 とした場合は 1 つのスレッドが 5 秒間隔でドキュメントを取得しにいきます。

スレッド数を 5 個、間隔を 1000 ミリ秒とした場合、1 秒間で 5 ドキュメントを取得しにいくことになります。 ウェブサイトをクロールするときにはウェブサーバー側の負荷にもなるので、負荷をかけない十分な値を設定してください。

ブラウザタイプ

選択されたブラウザタイプのデータとして、クロールしたドキュメントを登録します。 PC しか選択されていない場合は、モバイル端末で検索しても結果に表示されません。 特定のモバイル端末だけで表示したい場合にも利用できます。

状態

有効にすることで、設定されているクロール時刻にクロールされます。 一時的にクロールしないようにしたい場合に利用できます。