第23回 全公司知识平台的设计蓝图 – 以Fess为核心的信息活用基础设施总体设计

前言

作为本系列的最后一期,我们将前22期涉及的所有要素进行整合,呈现以Fess为核心的全公司知识平台参考架构。

本文不聚焦于单个功能或场景,而是从战略视角进行总结:如何为整个组织设计和培育搜索基础设施。

目标读者

  • 负责全公司搜索基础设施设计的人员

  • 希望制定搜索平台分阶段导入计划的人员

  • 希望将本系列所学知识付诸实践的人员

参考架构

以下展示全公司知识平台的整体架构。

数据采集层

该层从组织内所有数据源中采集文档。

数据采集层
类别 数据源 相关文章
Web 内容 公司内部门户、技术博客 第2回、第3回
文件存储 文件服务器(SMB)、NAS 第4回
云存储 Google Drive、SharePoint、Box 第7回
SaaS Salesforce、Slack、Confluence、Jira 第6回、第12回
数据库 公司内部数据库、CSV 第12回
自定义数据源 通过插件支持 第17回

搜索与AI处理层

该层使采集的数据可被搜索,并提供基于AI的高级功能。

搜索与AI处理层
功能 概述 相关文章
全文搜索 基于关键词的高速搜索 第2回、第3回
语义搜索 基于语义的搜索 第18回
AI搜索模式 问答式AI助手 第19回
多模态搜索 文本与图像的跨模态搜索 第21回
MCP服务器 AI代理集成 第20回

访问控制层

该层负责保障安全性和治理。

访问控制层
功能 概述 相关文章
基于角色的搜索 基于权限的搜索结果控制 第5回
SSO集成 与现有IdP的认证集成 第15回
API认证 基于令牌的访问控制 第11回、第15回
多租户 租户间数据隔离 第13回

运维与分析层

该层负责维护和提升搜索基础设施的质量。

运维与分析层
功能 概述 相关文章
监控与备份 稳定运维的基础 第10回
搜索质量调优 基于数据的持续改进 第8回
多语言支持 日语、英语、中文的适当处理 第9回
搜索分析 使用情况的可视化与战略化 第22回
基础设施自动化 通过IaC / CI/CD进行管理 第16回

导入成熟度模型

搜索基础设施不是一天就能建成的。分阶段提升成熟度至关重要。

级别1:基础搜索(导入期)

目标:提供基本的搜索体验

  • 使用Docker Compose部署Fess

  • 爬取主要网站和文件服务器

  • 将搜索界面在公司内部发布

预计周期:1至2周

相关文章:第1~4回

级别2:安全搜索(稳定期)

目标:具备安全保障的搜索基础设施

  • 引入基于角色的搜索

  • SSO集成(LDAP / OIDC)

  • 配置备份和监控

预计周期:2至4周

相关文章:第5回、第10回、第15回

级别3:统一搜索(扩展期)

目标:整合组织的数据源

  • 云存储集成(Google Drive、SharePoint、Box)

  • SaaS工具集成(Slack、Confluence、Jira、Salesforce)

  • 通过标签进行分类管理

  • 开始搜索质量调优

预计周期:1至2个月

相关文章:第6回、第7回、第8回、第12回

级别4:优化(成熟期)

目标:优化搜索质量和运维

  • 通过搜索日志分析持续改进

  • 多语言支持

  • 扩容(按需)

  • 通过IaC实现运维自动化

预计周期:持续进行

相关文章:第8回、第9回、第14回、第16回、第22回

级别5:AI活用(革新期)

目标:通过AI推动搜索体验的进化

  • 引入语义搜索

  • 通过AI搜索模式实现AI助手

  • 通过MCP服务器实现AI代理集成

  • 多模态搜索

预计周期:1至3个月

相关文章:第18~21回

设计决策指南

以下总结本系列中反复出现的设计决策指南。

从小处着手,逐步壮大

无需一开始就整合所有数据源、启用所有功能。从主要数据源开始,根据用户反馈逐步扩展。

基于数据进行改进

不要凭借”搜索质量不好”这样模糊的感觉行事,而是基于搜索日志数据实施具体的改进措施。定期检查零命中率、点击率、热门关键词等指标。

安全从一开始就要考虑

将基于角色的搜索和访问控制从一开始就纳入设计,比事后追加更为高效。如果在用户规模扩大后才添加权限控制,可能需要对现有数据进行重新索引。

明确AI的目的

不要因为”是AI就引入”,而应明确目的:”用AI解决这个具体问题”。如果关键词搜索加同义词已经足够,就没有必要强行引入语义搜索。

系列回顾

以下俯瞰全23期系列所涉及的内容。

系列整体构成
阶段 标题 核心主题
1 基础 为什么企业需要搜索 搜索的价值
2 基础 5分钟了解搜索体验 Docker Compose入门
3 基础 在公司内部门户中嵌入搜索 三种集成方式
4 基础 分散文件的统一搜索 多源跨越搜索
5 基础 匹配搜索者的需求 基于角色的搜索
6 实践 开发团队的知识中心 数据存储集成
7 实践 云存储时代的搜索战略 跨云搜索
8 实践 培育搜索质量 调优循环
9 实践 多语言组织的搜索基础设施 多语言支持
10 实践 搜索系统的稳定运维 运维手册
11 实践 用搜索API扩展现有系统 API集成模式
12 实践 使SaaS数据可搜索 消除数据孤岛
13 高级 多租户搜索基础设施 租户隔离设计
14 高级 搜索系统的扩展战略 分阶段扩展
15 高级 安全搜索基础设施 SSO与零信任
16 高级 搜索基础设施的自动化 DevOps / IaC
17 高级 用插件扩展搜索 插件开发
18 AI AI搜索基础 语义搜索
19 AI 构建企业内部AI助手 AI搜索模式
20 AI 连接AI代理与搜索 MCP服务器
21 AI 图像与文本的跨模态搜索 多模态搜索
22 AI 从搜索数据描绘组织的知识地图 分析
23 总结 全公司知识平台的设计蓝图 总体设计

总结

通过本系列”用Fess实现知识活用战略”,我们传达了以下内容:

  • 搜索是战略性投资:能够”找到”信息与组织生产力直接相关

  • Fess是完整的解决方案:从爬取到搜索再到AI,以开源方式提供全套功能

  • 可分阶段成长:从小规模起步,随着组织的发展进行扩展

  • 应对AI时代:可与RAG、MCP、多模态等最新AI技术集成

  • 数据驱动改进:通过搜索日志分析持续提升质量

希望以Fess为核心的知识平台能够成为支撑组织信息活用的基础。

参考资料