路径映射

概述

本节介绍路径映射的相关配置。 路径映射是一种使用正则表达式转换 Fess 爬取的文档URL的功能。 例如,当您想爬取文件服务器的文档(以 file:// 开头的路径),并使其可以从搜索结果通过Web服务器( http:// )访问时,可以使用此功能。

管理方法

显示方法

要打开下图所示的路径映射配置列表页面,请点击左侧菜单中的 [爬虫 > 路径映射]。

image0

点击配置名称进行编辑。

创建配置

要打开路径映射配置页面,请点击新建按钮。

image1

配置项

正则表达式

指定要替换的字符串。 语法遵循 Java 的正则表达式。

替换

指定用于替换匹配的正则表达式的字符串。

处理类型

指定替换的时机。请根据目的选择适当的类型。

爬取

在爬取时获取文档后、索引前替换URL。 转换后的URL保存到索引中。 当您想将文件服务器路径转换为Web服务器URL并保存到索引中时使用。

显示

在显示搜索结果前以及点击搜索结果链接时替换URL。 存储在索引中的URL不会更改。 当您想在索引中保留原始URL,但仅在显示搜索结果时转换为其他URL时使用。

爬取/显示

在爬取和显示时都替换URL。 当您想在爬取和显示两个时机都应用相同的转换时使用。

提取的URL转换

从HTML文档提取链接时替换链接URL。 仅对Web爬虫有效(对文件爬虫无效)。 保存到索引的URL不会更改。 当您想转换从HTML提取的链接URL并将其添加到爬取队列时使用。

显示顺序

可以指定路径映射的处理顺序。 按升序处理。

用户代理

当您只想对特定用户代理应用路径映射时指定此项。 使用正则表达式进行匹配。 如果未设置,则适用于所有请求。

删除配置

点击列表页面中的配置名称,然后点击删除按钮,将显示确认画面。 点击删除按钮将删除配置。

示例

通过Web服务器访问文件服务器

这是一个配置示例,用于爬取文件服务器的文档,并使其可以从搜索结果通过Web服务器访问。

配置项
正则表达式 file:/srv/documents/
替换 http://fileserver.example.com/documents/
处理类型 爬取

使用此配置,URL将作为 http://fileserver.example.com/documents/... 保存到索引中。

仅在显示时转换URL

这是一个配置示例,用于在索引中保留原始文件路径,仅在显示搜索结果时转换为Web服务器URL。

配置项
正则表达式 file:/srv/documents/
替换 http://fileserver.example.com/documents/
处理类型 显示

使用此配置,URL将作为 file:/srv/documents/... 保存到索引中,点击搜索结果时转换为 http://...

服务器迁移时的链接转换

这是一个配置示例,用于在爬取网站时将HTML中的链接从旧服务器转换为新服务器。

配置项
正则表达式 http://old-server\\.example\\.com/
替换 http://new-server.example.com/
处理类型 提取的URL转换

使用此配置,从HTML提取的链接将被转换并添加到爬取队列。

注意事项

关于提取的URL转换

提取的URL转换仅对Web爬虫有效。 在爬取文件系统时不适用。 此外,保存到索引的URL不会更改,只会转换添加到爬取队列的URL。

关于正则表达式

正则表达式使用Java正则表达式格式编写。

  • 可以使用后向引用( $1$2 等)

  • 特殊字符需要转义(例如: .\\. )

关于排序顺序

路径映射按配置的排序顺序(升序)依次应用。 当多个路径映射匹配时,从第一个匹配项开始应用。