前言
作为本系列的最后一期,我们将前22期涉及的所有要素进行整合,呈现以Fess为核心的全公司知识平台参考架构。
本文不聚焦于单个功能或场景,而是从战略视角进行总结:如何为整个组织设计和培育搜索基础设施。
目标读者
负责全公司搜索基础设施设计的人员
希望制定搜索平台分阶段导入计划的人员
希望将本系列所学知识付诸实践的人员
参考架构
以下展示全公司知识平台的整体架构。
数据采集层
该层从组织内所有数据源中采集文档。
| 类别 | 数据源 | 相关文章 |
|---|---|---|
| Web 内容 | 公司内部门户、技术博客 | 第2回、第3回 |
| 文件存储 | 文件服务器(SMB)、NAS | 第4回 |
| 云存储 | Google Drive、SharePoint、Box | 第7回 |
| SaaS | Salesforce、Slack、Confluence、Jira | 第6回、第12回 |
| 数据库 | 公司内部数据库、CSV | 第12回 |
| 自定义数据源 | 通过插件支持 | 第17回 |
搜索与AI处理层
该层使采集的数据可被搜索,并提供基于AI的高级功能。
| 功能 | 概述 | 相关文章 |
|---|---|---|
| 全文搜索 | 基于关键词的高速搜索 | 第2回、第3回 |
| 语义搜索 | 基于语义的搜索 | 第18回 |
| AI搜索模式 | 问答式AI助手 | 第19回 |
| 多模态搜索 | 文本与图像的跨模态搜索 | 第21回 |
| MCP服务器 | AI代理集成 | 第20回 |
访问控制层
该层负责保障安全性和治理。
| 功能 | 概述 | 相关文章 |
|---|---|---|
| 基于角色的搜索 | 基于权限的搜索结果控制 | 第5回 |
| SSO集成 | 与现有IdP的认证集成 | 第15回 |
| API认证 | 基于令牌的访问控制 | 第11回、第15回 |
| 多租户 | 租户间数据隔离 | 第13回 |
运维与分析层
该层负责维护和提升搜索基础设施的质量。
| 功能 | 概述 | 相关文章 |
|---|---|---|
| 监控与备份 | 稳定运维的基础 | 第10回 |
| 搜索质量调优 | 基于数据的持续改进 | 第8回 |
| 多语言支持 | 日语、英语、中文的适当处理 | 第9回 |
| 搜索分析 | 使用情况的可视化与战略化 | 第22回 |
| 基础设施自动化 | 通过IaC / CI/CD进行管理 | 第16回 |
导入成熟度模型
搜索基础设施不是一天就能建成的。分阶段提升成熟度至关重要。
级别1:基础搜索(导入期)
目标:提供基本的搜索体验
使用Docker Compose部署Fess
爬取主要网站和文件服务器
将搜索界面在公司内部发布
预计周期:1至2周
相关文章:第1~4回
级别2:安全搜索(稳定期)
目标:具备安全保障的搜索基础设施
引入基于角色的搜索
SSO集成(LDAP / OIDC)
配置备份和监控
预计周期:2至4周
相关文章:第5回、第10回、第15回
级别3:统一搜索(扩展期)
目标:整合组织的数据源
云存储集成(Google Drive、SharePoint、Box)
SaaS工具集成(Slack、Confluence、Jira、Salesforce)
通过标签进行分类管理
开始搜索质量调优
预计周期:1至2个月
相关文章:第6回、第7回、第8回、第12回
级别4:优化(成熟期)
目标:优化搜索质量和运维
通过搜索日志分析持续改进
多语言支持
扩容(按需)
通过IaC实现运维自动化
预计周期:持续进行
相关文章:第8回、第9回、第14回、第16回、第22回
级别5:AI活用(革新期)
目标:通过AI推动搜索体验的进化
引入语义搜索
通过AI搜索模式实现AI助手
通过MCP服务器实现AI代理集成
多模态搜索
预计周期:1至3个月
相关文章:第18~21回
设计决策指南
以下总结本系列中反复出现的设计决策指南。
从小处着手,逐步壮大
无需一开始就整合所有数据源、启用所有功能。从主要数据源开始,根据用户反馈逐步扩展。
基于数据进行改进
不要凭借”搜索质量不好”这样模糊的感觉行事,而是基于搜索日志数据实施具体的改进措施。定期检查零命中率、点击率、热门关键词等指标。
安全从一开始就要考虑
将基于角色的搜索和访问控制从一开始就纳入设计,比事后追加更为高效。如果在用户规模扩大后才添加权限控制,可能需要对现有数据进行重新索引。
明确AI的目的
不要因为”是AI就引入”,而应明确目的:”用AI解决这个具体问题”。如果关键词搜索加同义词已经足够,就没有必要强行引入语义搜索。
系列回顾
以下俯瞰全23期系列所涉及的内容。
总结
通过本系列”用Fess实现知识活用战略”,我们传达了以下内容:
搜索是战略性投资:能够”找到”信息与组织生产力直接相关
Fess是完整的解决方案:从爬取到搜索再到AI,以开源方式提供全套功能
可分阶段成长:从小规模起步,随着组织的发展进行扩展
应对AI时代:可与RAG、MCP、多模态等最新AI技术集成
数据驱动改进:通过搜索日志分析持续提升质量
希望以Fess为核心的知识平台能够成为支撑组织信息活用的基础。