クロールするファイルサイズの設定

ファイルサイズの設定方法

クロールするファイルサイズ上限を指定することができます。 上限には * ファイルを取得するサイズの上限 * ファイルの種類ごとにインデクシングするファイルサイズの上限 があります。

まず、ファイルを取得するサイズの上限はクローラ設定の設定パラメータにclient.maxContentLengthで指定します。 10Mバイト以上のファイルを取得しない場合は以下のように指定します。 デフォルトでは特に制限はありません。

client.maxContentLength=10485760

次に、ファイルの種類ごとの制限については、デフォルトでは HTML ファイルは 2.5M バイト、それ以外は 10M バイトまで処理します。 扱うファイルサイズを変更したい場合は app/WEB-INF/classes/crawler/contentlength.xml を編集します。 標準の contentlength.xml は以下の通りです。

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE components PUBLIC "-//DBFLUTE//DTD LastaDi 1.0//EN"
        "http://dbflute.org/meta/lastadi10.dtd">
<components namespace="fessCrawler">
        <include path="crawler/container.xml" />

        <component name="contentLengthHelper"
                class="org.codelibs.fess.crawler.helper.ContentLengthHelper" instance="singleton">
                <property name="defaultMaxLength">10485760</property><!-- 10M -->
                <postConstruct name="addMaxLength">
                        <arg>"text/html"</arg>
                        <arg>2621440</arg><!-- 2.5M -->
                </postConstruct>
        </component>
</components>

デフォルト値を変更したい場合は defaultMaxLength の値を変更します。 扱うファイルサイズはコンテンツタイプごとに指定できます。 HTMLファイルであれば、text/html と扱うファイルサイズの上限を記述します。

扱うファイルサイズの上限値を変更する場合は、使用するヒープメモリ量にも注意してください。