================= LibreOfficeの利用 ================= OpenOffice/LibreOfficeの利用 ============================ 標準の |Fess| 環境において、Apache POI を用いた MS Office 系ドキュメントのクロールが可能です。 オフィス系ドキュメントのクロールに関して、OpenOfficeやLibreOfficeを利用して、ドキュメントからより高精度なテキスト抽出も行うことができます。 設定方法 ======== JodConverter を |Fess| サーバーにインストールします。http://jodconverter.googlecode.com/ から\ `jodconverter-core-3.0-beta-4-dist.zip `__\ をダウンロードします。展開して jar ファイルを |Fess| サーバーにコピーします。 :: $ unzip jodconverter-core-3.0-beta-4-dist.zip $ cp jodconverter-core-3.0-beta-4/lib/juh-3.2.1.jar \ jodconverter-core-3.0-beta-4/lib/jurt-3.2.1.jar \ jodconverter-core-3.0-beta-4/lib/ridl-3.2.1.jar \ jodconverter-core-3.0-beta-4/lib/unoil-3.2.1.jar \ jodconverter-core-3.0-beta-4/lib/jodconverter-core-3.0-beta-4.jar \ fess-server-9.3.0/webapps/fess/WEB-INF/cmd/lib/ $ cd fess-server-9.3.0/ 次にs2robot\_extractor.diconを作成します。 :: vi webapps/fess/WEB-INF/classes/s2robot_extractor.dicon s2robot\_extractor.diconは以下のような内容でjodExtractorを有効にします。 :: "http://xml.org/sax/features/namespaces" "false" officeManagerConfiguration.setOfficeHome("/usr/lib/libreoffice") .buildOfficeManager() { "application/msword", "application/vnd.ms-excel", "application/vnd.ms-powerpoint", "application/vnd.openxmlformats-officedocument.wordprocessingml.document", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet", "application/vnd.openxmlformats-officedocument.presentationml.presentation" } jodExtractor ... 設定後、通常通りにクロールしてインデックスを生成します。