概述
本节介绍路径映射的相关配置。 路径映射是一种使用正则表达式转换 Fess 爬取的文档URL的功能。 例如,当您想爬取文件服务器的文档(以 file:// 开头的路径),并使其可以从搜索结果通过Web服务器( http:// )访问时,可以使用此功能。
管理方法
显示方法
要打开下图所示的路径映射配置列表页面,请点击左侧菜单中的 [爬虫 > 路径映射]。

点击配置名称进行编辑。
创建配置
要打开路径映射配置页面,请点击新建按钮。

配置项
正则表达式
指定要替换的字符串。 语法遵循 Java 的正则表达式。
替换
指定用于替换匹配的正则表达式的字符串。
处理类型
指定替换的时机。请根据目的选择适当的类型。
- 爬取
在爬取时获取文档后、索引前替换URL。 转换后的URL保存到索引中。 当您想将文件服务器路径转换为Web服务器URL并保存到索引中时使用。
- 显示
在显示搜索结果前以及点击搜索结果链接时替换URL。 存储在索引中的URL不会更改。 当您想在索引中保留原始URL,但仅在显示搜索结果时转换为其他URL时使用。
- 爬取/显示
在爬取和显示时都替换URL。 当您想在爬取和显示两个时机都应用相同的转换时使用。
- 提取的URL转换
从HTML文档提取链接时替换链接URL。 仅对Web爬虫有效(对文件爬虫无效)。 保存到索引的URL不会更改。 当您想转换从HTML提取的链接URL并将其添加到爬取队列时使用。
显示顺序
可以指定路径映射的处理顺序。 按升序处理。
用户代理
当您只想对特定用户代理应用路径映射时指定此项。 使用正则表达式进行匹配。 如果未设置,则适用于所有请求。
删除配置
点击列表页面中的配置名称,然后点击删除按钮,将显示确认画面。 点击删除按钮将删除配置。
示例
通过Web服务器访问文件服务器
这是一个配置示例,用于爬取文件服务器的文档,并使其可以从搜索结果通过Web服务器访问。
| 配置项 | 值 |
|---|---|
| 正则表达式 | file:/srv/documents/ |
| 替换 | http://fileserver.example.com/documents/ |
| 处理类型 | 爬取 |
使用此配置,URL将作为 http://fileserver.example.com/documents/... 保存到索引中。
仅在显示时转换URL
这是一个配置示例,用于在索引中保留原始文件路径,仅在显示搜索结果时转换为Web服务器URL。
| 配置项 | 值 |
|---|---|
| 正则表达式 | file:/srv/documents/ |
| 替换 | http://fileserver.example.com/documents/ |
| 处理类型 | 显示 |
使用此配置,URL将作为 file:/srv/documents/... 保存到索引中,点击搜索结果时转换为 http://...。
服务器迁移时的链接转换
这是一个配置示例,用于在爬取网站时将HTML中的链接从旧服务器转换为新服务器。
| 配置项 | 值 |
|---|---|
| 正则表达式 | http://old-server\\.example\\.com/ |
| 替换 | http://new-server.example.com/ |
| 处理类型 | 提取的URL转换 |
使用此配置,从HTML提取的链接将被转换并添加到爬取队列。
注意事项
关于提取的URL转换
提取的URL转换仅对Web爬虫有效。 在爬取文件系统时不适用。 此外,保存到索引的URL不会更改,只会转换添加到爬取队列的URL。
关于正则表达式
正则表达式使用Java正则表达式格式编写。
可以使用后向引用(
$1、$2等)特殊字符需要转义(例如:
.→\\.)
关于排序顺序
路径映射按配置的排序顺序(升序)依次应用。 当多个路径映射匹配时,从第一个匹配项开始应用。