概述
Fess 的数据存储连接器提供从网站和文件系统以外的数据源 获取内容并建立索引的功能。
使用数据存储连接器,可以使以下来源的数据变得可搜索:
云存储(Box、Dropbox、Google Drive、OneDrive)
协作工具(Confluence、Jira、Slack)
数据库(MySQL、PostgreSQL、Oracle等)
其他系统(Git、Salesforce、Elasticsearch等)
可用的连接器
Fess 提供支持多种数据源的连接器。 许多连接器以插件形式提供,可根据需要安装。
云存储
| 连接器 | 插件 | 说明 |
|---|---|---|
| Box连接器 | fess-ds-box | 抓取Box.com的文件和文件夹 |
| Dropbox连接器 | fess-ds-dropbox | 抓取Dropbox的文件和文件夹 |
| Google Workspace连接器 | fess-ds-gsuite | 爬取 Google Drive |
| Microsoft 365连接器 | fess-ds-microsoft365 | 抓取OneDrive、SharePoint等 |
协作工具
| 连接器 | 插件 | 说明 |
|---|---|---|
| Atlassian连接器 | fess-ds-atlassian | 抓取Confluence、Jira |
| Slack连接器 | fess-ds-slack | 抓取Slack的消息和文件 |
开发运维工具
| 连接器 | 插件 | 说明 |
|---|---|---|
| Git连接器 | fess-ds-git | 抓取Git仓库的源代码 |
| Elasticsearch/OpenSearch连接器 | fess-ds-elasticsearch | 从Elasticsearch/OpenSearch获取数据 |
| Salesforce连接器 | fess-ds-salesforce | 抓取Salesforce对象 |
数据库和文件
连接器安装
插件安装
数据存储连接器插件可以通过管理界面安装。
从管理界面安装
登录管理界面
进入”系统”→”插件”
点击”安装”按钮
在”远程”选项卡中选择要安装的插件(或在”本地”选项卡上传 JAR 文件)
点击”安装”
重启 Fess
数据存储设置基础
数据存储连接器的配置在管理界面的”爬虫”→”数据存储”中进行。
通用设置项
所有数据存储连接器共通的设置项:
| 项目 | 说明 |
|---|---|
| 名称 | 设置的标识名 |
| 描述 | 设置的说明文本 |
| 处理器名 | 使用的连接器处理器名(例如:CsvDataStore) |
| 参数 | 连接器特定的设置参数(key=value格式) |
| 脚本 | 索引字段映射脚本 |
| 权重 | 搜索结果的优先级 |
| 权限 | 从此数据存储获取的文档的访问权限 |
| 虚拟主机 | 应用此设置的虚拟主机 |
| 显示顺序 | 在设置列表中的显示顺序 |
| 启用 | 是否启用此设置 |
参数设置
参数以换行分隔的 key=value 格式指定:
脚本设置
脚本将获取的数据映射到 Fess 的索引字段。 左侧为 Fess 的索引字段,右侧为从连接器获取的字段。
以下是 CSV 连接器(头部列名为 link 、 subject 、 body )的示例:
Note
脚本中可引用的字段名因连接器而异。 Box/Dropbox/Google Drive/OneDrive 使用 file.* 前缀引用获取的对象;Slack 使用 message.* ;Jira 使用 issue.* 。 而 CSV、JSON 和数据库连接器不使用前缀,直接引用字段名:
CSV:头部行的列名(
has_header_line=true时),或cell1、cell2…(从 1 开始的列索引);此外还可使用csvfile和csvfilename。JSON:JSON 对象的字段名。
数据库:SELECT 结果的列名(别名)。
各连接器的详细信息请参阅各自的文档。
认证设置
许多数据存储连接器需要OAuth 2.0、API密钥、服务账户等方式进行认证。
认证参数因连接器而异。 各连接器的认证设置详情请参阅各自的文档。
通用参数
所有数据存储连接器可使用的通用参数:
| 参数 | 默认值 | 说明 |
|---|---|---|
readInterval | 0 | 各记录处理间的等待时间(毫秒)。在处理大量数据时,用于减轻服务器负载。 |
script_type | groovy | 用于索引字段映射的脚本引擎类型。默认仅提供 groovy 。 |
故障排除
连接器不显示
确认插件是否正确安装
重启 Fess
检查日志是否有错误
认证错误
确认认证信息是否正确
确认令牌的有效期
确认是否授予了必要的权限
确认服务端是否允许API访问
无法获取数据
确认参数格式是否正确
确认对目标文件夹/文件的访问权限
确认过滤器设置
检查日志中的详细错误消息
调试设置
调查问题时,调整日志级别。数据存储的抓取在爬虫进程中执行,因此需要编辑爬虫用的日志配置文件:
app/WEB-INF/env/crawler/resources/log4j2.xml:
参考信息
数据存储爬取 - 数据存储设置指南
插件 - 插件管理指南
DataConfig API - 数据存储设置API