CSV连接器

概述

CSV连接器提供从CSV文件获取数据并注册到 Fess 索引的功能。

此功能需要 fess-ds-csv 插件。

前提条件

需要安装插件
需要具有CSV文件的访问权限
需要了解CSV文件的字符编码

插件安装

方法1: 直接放置JAR文件

# 从Maven Central下载
wget https://repo1.maven.org/maven2/org/codelibs/fess/fess-ds-csv/X.X.X/fess-ds-csv-X.X.X.jar

# 放置
cp fess-ds-csv-X.X.X.jar $FESS_HOME/app/WEB-INF/lib/
# 或者
cp fess-ds-csv-X.X.X.jar /usr/share/fess/app/WEB-INF/lib/

方法2: 从管理界面安装

打开「系统」→「插件」
上传JAR文件
重启 Fess

配置方法

从管理界面的「爬虫」→「数据存储」→「新建」进行配置。

基本设置

项目	设置示例
名称	Products CSV
处理器名称	CsvDataStore
启用	开

参数设置

本地文件:

HTTP文件:

多个文件:

参数列表

参数	必需	说明
`files`	是	CSV文件路径（本地、HTTP，可指定多个：逗号分隔）
`file_encoding`	否	字符编码（默认: UTF-8）
`has_header_line`	否	是否有标题行（默认: true）
`separator_character`	否	分隔符（默认: 逗号 `,`）
`quote_character`	否	引号（默认: 双引号 `"`）

脚本设置

有标题行的情况:

无标题行的情况（列索引指定）:

可用字段

data.<列名> - 标题行的列名（has_header_line=true 时）
data.cell<N> - 列索引（has_header_line=false 时，从0开始）

CSV格式详情

标准CSV（RFC 4180兼容）

更改分隔符

制表符分隔（TSV）:

分号分隔:

自定义引号

单引号:

编码

日语文件（Shift_JIS）:

日语文件（EUC-JP）:

使用示例

产品目录CSV

CSV文件（products.csv）:

product_id,name,description,price,category,in_stock
1001,笔记本电脑,高性能笔记本电脑,120000,电脑,true
1002,鼠标,无线鼠标,2500,外设,true
1003,键盘,机械键盘,8500,外设,false

参数:

脚本:

url="https://shop.example.com/product/" + data.product_id
title=data.name
content=data.description + " 类别: " + data.category + " 价格: " + data.price + "元"
digest=data.category
price=data.price

库存信息过滤:

员工名册CSV

CSV文件（employees.csv）:

emp_id,name,department,email,phone,position
E001,张三,销售部,zhang@example.com,010-1234-5678,部长
E002,李四,开发部,li@example.com,010-2345-6789,经理
E003,王五,总务部,wang@example.com,010-3456-7890,专员

参数:

脚本:

url="https://intranet.example.com/employee/" + data.emp_id
title=data.name + " (" + data.department + ")"
content="部门: " + data.department + "\n职位: " + data.position + "\n邮箱: " + data.email + "\n电话: " + data.phone
digest=data.department

无标题行的CSV

CSV文件（data.csv）:

参数:

脚本:

多CSV文件整合

参数:

脚本:

制表符分隔（TSV）文件

TSV文件（data.tsv）:

参数:

脚本:

故障排除

找不到文件

症状: FileNotFoundException 或 No such file

确认事项:

确认文件路径是否正确（推荐使用绝对路径）
确认文件是否存在
确认是否有文件读取权限
确认 Fess 运行用户是否可以访问

出现乱码

症状: 中文/日文无法正确显示

解决方法:

指定正确的字符编码:

确认文件编码:

列无法正确识别

症状: 列分隔符无法正确识别

确认事项:

确认分隔符是否正确:

确认引号设置
确认CSV文件格式（是否符合RFC 4180）

标题行处理

症状: 第一行被识别为数据

解决方法:

有标题行时:

无标题行时:

无法获取数据

症状: 爬取成功但数量为0

确认事项:

确认CSV文件是否为空
确认脚本设置是否正确
确认列名是否正确（has_header_line=true 时）
在日志中确认错误信息

大型CSV文件

症状: 内存不足或超时

解决方法:

将CSV文件分割成多个
在脚本中只使用必要的列
增加 Fess 的堆大小
过滤不必要的行

包含换行符的字段

RFC 4180格式中，可以通过引号包裹来处理包含换行符的字段:

参数:

脚本的高级使用示例

数据加工

条件索引

多列合并

日期格式化

参考信息

数据存储连接器概述 - 数据存储连接器概述
JSON连接器 - JSON连接器
数据库连接器 - 数据库连接器
数据存储爬取 - 数据存储配置指南
RFC 4180 - CSV格式