网页爬取
概述
网页爬取配置页面用于配置网页爬取的相关设置。
管理方法
显示方法
要打开下图所示的网页爬取配置列表页面,请点击左侧菜单中的[爬虫 > 网页]。

点击配置名称即可进行编辑。
创建配置
点击创建按钮可打开网页爬取配置页面。

配置项
名称
配置名称。
URL
爬取的起始URL。
爬取对象URL
与此项中指定的正则表达式(Java格式)匹配的URL将成为 Fess 爬虫的爬取对象。
从爬取对象中排除的URL
与此项中指定的正则表达式(Java格式)匹配的URL将从 Fess 爬虫的爬取对象中排除。
搜索对象URL
与此项中指定的正则表达式(Java格式)匹配的URL将成为搜索对象。
从搜索对象中排除的URL
与此项中指定的正则表达式(Java格式)匹配的URL将从搜索对象中排除。
配置参数
可以指定爬取配置信息。
深度
可以指定爬取文档中包含的链接时的跟踪深度。
最大访问数
被索引的URL数量。
用户代理
Fess 爬虫的名称。
线程数
此配置中用于爬取的线程数。
间隔
爬取URL时每个线程的时间间隔。
权重值
此配置中被索引文档的权重。
权限
指定此配置的权限。 权限的指定方法为,例如,要让属于developer组的用户显示搜索结果,需指定{group}developer。 按用户指定为{user}用户名,按角色指定为{role}角色名,按组指定为{group}组名。
虚拟主机
指定虚拟主机的主机名。 详情请参阅 ../config/virtual-host。
状态
如果启用,则默认爬虫的计划任务将包含此配置。
说明
可以输入说明。
删除配置
在列表页面点击配置名称,然后点击删除按钮将显示确认画面。点击删除按钮后配置将被删除。
示例 ==
爬取 fess.codelibs.org
要创建爬取 https://fess.codelibs.org/ 下页面的网页爬取配置,请使用如下配置值。
| 配置项 | 配置值 |
|---|---|
| 名称 | Fess |
| URL | https://fess.codelibs.org/ |
| 爬取对象URL | https://fess.codelibs.org/.* |
其他配置值使用默认值。
爬取需要网页认证的站点
Fess 支持对 BASIC 认证、DIGEST 认证和 NTLM 认证的站点进行爬取。 有关网页认证的详细信息,请参阅网页认证页面。
Redmine
要创建爬取受密码保护的Redmine(例如 https://<server>/)页面的网页爬取配置,请使用如下配置值。
| 配置项 | 配置值 |
|---|---|
| 名称 | Redmine |
| URL | https://<server>/my/page |
| 爬取对象URL | https://<server>/.* |
| 配置参数 | client.robotsTxtEnabled=false (可选) |
之后,使用如下配置值创建网页认证配置。
| 配置项 | 配置值 |
|---|---|
| 方案 | Form |
| 用户名 | (Account for crawling) |
| 密码 | (Password for the account) |
| 参数 | encoding=UTF-8 token_method=GET token_url=https://<server>/login token_pattern=name=”authenticity_token”[^>]+value=”([^”]+)” token_name=authenticity_token login_method=POST login_url=https://<server>/login login_parameters=username=${username}&password=${password} |
| 网页认证 | Redmine |
XWiki
要创建爬取XWiki(例如 https://<server>/xwiki/)页面的网页爬取配置,请使用如下配置值。
| 配置项 | 配置值 |
|---|---|
| 名称 | XWiki |
| URL | https://<server>/xwiki/bin/view/Main/ |
| 爬取对象URL | https://<server>/.* |
| 配置参数 | client.robotsTxtEnabled=false (可选) |
之后,使用如下配置值创建网页认证配置。
| 配置项 | 配置值 |
|---|---|
| 方案 | Form |
| 用户名 | (Account for crawling) |
| 密码 | (Password for the account) |
| 参数 | encoding=UTF-8 token_method=GET token_url=http://<server>/xwiki/bin/login/XWiki/XWikiLogin token_pattern=name=”form_token” +value=”([^”]+)” token_name=form_token login_method=POST login_url=http://<server>/xwiki/bin/loginsubmit/XWiki/XWikiLogin login_parameters=j_username=${username}&j_password=${password} |
| 网页认证 | XWiki |