第1回 企业为何需要搜索 – 信息过载时代的知识活用课题

前言

“那个文件放在哪里了?”

许多商务人士在日常工作中频繁面临着这个问题。 公司内部的文件服务器、云存储、聊天工具、Wiki、工单管理系统——信息每天都在不断增长,散布在各种各样的地方。 明明知道需要的信息是存在的,但找到它却要花上好几分钟,有时甚至几十分钟。 这种”寻找信息的时间”,正是现代企业面临的一大课题。

本系列”用 Fess 实现知识活用战略”将通过开源全文搜索服务器 Fess,实践性地讲解如何解决这一课题。 作为第1回,本文首先梳理”企业为何需要搜索基础设施”,并介绍 Fess 是一款怎样定位的软件。

目标读者

  • 对公司内部信息活用感到困扰的人士

  • 正在考虑引入企业搜索的人士

  • 初次了解 Fess 的人士

信息过载时代的课题

信息爆炸与”找不到”的问题

企业所拥有的数字数据逐年增加。 报告、会议纪要、设计文档、邮件、聊天记录、源代码、客户数据——这些信息本身就是组织的知识资产。 然而,信息越多,要找到所需信息就越困难。

许多调查结果显示,知识工作者将 20~30% 的工作时间花费在信息搜索上。 如果是一个50人的组织,相当于每天有10~15人的劳动时间消耗在”搜索”这项工作上。

信息孤岛这一结构性问题

信息找不到的原因,不仅仅是因为数量庞大。 在许多企业中,信息按部门或工具被分割,形成了”信息孤岛”。

  • 销售团队使用 Salesforce 和共享文件夹

  • 开发团队使用 Confluence 和 Git 仓库

  • 行政部门使用内部门户和文件服务器

每个工具都有搜索功能,但缺乏跨工具搜索的手段。 结果就是,”隔壁团队制作的资料”找不到,类似的资料只能从零开始重新制作,这种情况时有发生。

通过搜索基础设施来解决

针对这些课题的解决方案就是”企业搜索(企业内搜索基础设施)”。 企业搜索提供了一种能够跨组织内各种数据源进行搜索的机制。

通过引入企业搜索,可以期待以下效果。

  • 缩短信息搜索时间: 对散布各处的信息进行一站式搜索

  • 促进知识复用: 更容易发现过去的成果和经验

  • 加速决策: 快速访问所需信息并做出判断

  • 消除知识属人化: 减少”不问那个人就不知道”的状态

Fess 简介

Fess 是一款开源的全文搜索服务器。 基于 Apache 许可证提供,包括商业用途在内均可免费使用。 采用 Java 构建,使用 OpenSearch 作为搜索引擎。

Fess 的整体概况

Fess 不仅仅是一个搜索引擎,而是具备”搜索系统”所需全套功能的软件。

爬虫

从网站、文件服务器、云存储、SaaS 等各种数据源自动收集文档。 支持 HTML、PDF、Word、Excel、PowerPoint 等100多种文件格式。

搜索引擎

以 OpenSearch 为后端,提供高速的全文搜索。 支持包括中文、日文在内的20多种语言,能够扩展到大规模文档量。

搜索 UI

标准配备基于浏览器的搜索界面。 提供搜索结果高亮显示、分面(筛选)、建议(输入补全)等功能,为用户带来易用的搜索体验。

管理界面

爬取设置、用户管理、词典管理等运维所需的设置均可通过浏览器进行。 即使没有命令行知识,也可以通过管理界面运维搜索系统。

API

提供基于 JSON 的搜索 API,可以将搜索功能集成到现有系统中。

为何选择 Fess

企业搜索有多种选择。 可以直接使用 OpenSearch 或 Elasticsearch,也有商用搜索解决方案。 下面整理在众多选择中选择 Fess 的理由。

与自建方案的对比

OpenSearch 和 Elasticsearch 是强大的搜索引擎,但仅凭它们并不能完成一个搜索系统。 爬虫的实现、文档解析处理、搜索 UI 的开发、权限管理机制等,需要自行构建大量功能。 Fess 以一体化的方式提供这些功能,因此能够大幅削减构建搜索系统所需的开发工时。

与商用产品的对比

商用企业搜索产品功能强大,但许可证费用往往较为昂贵。 Fess 作为开源软件,无需支付软件费用。 此外,由于源代码公开,不存在供应商锁定的风险。 即使需要定制,也可以自由扩展。

通过插件实现扩展性

Fess 采用了插件架构。 提供了对应 Slack、SharePoint、Box、Dropbox、Confluence、Jira 等各种数据源的插件。 此外,还可以通过与 LLM(大规模语言模型)联动的 LLM 插件等,实现面向 AI 时代的扩展。

Fess 可实现的搜索场景

利用 Fess,具体可以构建怎样的搜索环境呢? 下面介绍本系列将涉及的场景概要。

企业内文档的跨源搜索

可以从文件服务器、云存储、Web 站点等多个数据源在同一处进行搜索。 即使各部门使用不同的工具,用户也能通过一个搜索框找到所需信息。

按部门的访问控制

可以根据用户的所属部门和权限,控制搜索结果中显示的文档。 人事部门的机密资料不会出现在销售团队的搜索结果中。 还可以与现有的目录服务(Active Directory、LDAP)联动,自动反映权限信息。

为现有系统添加搜索功能

可以将 Fess 的搜索功能嵌入到内部门户或业务系统中。 可以从多种方式中选择,包括通过 JavaScript 轻松嵌入的 Fess Site Search(FSS),以及利用 API 进行的自定义集成等。

利用 AI 的搜索体验

可以通过 Fess 实现近年来备受关注的 RAG(Retrieval-Augmented Generation)。 当用户以自然语言提问时,Fess 从企业内部文档中搜索相关信息,由 LLM 生成回答。 作为”企业内 AI 助手”,可以进一步推动知识活用的进化。

本系列的构成

本系列共由23回构成。 从初学者到高级用户,设计为可以循序渐进地加深理解。

基础篇(第1~5回)

包括本文在内的前5回,将涉及 Fess 的导入和基本场景。 学习使用 Docker Compose 快速入门、为 Web 站点添加搜索功能、构建多源搜索、基于权限的搜索控制等内容。

实践解决方案篇(第6~12回)

涵盖开发团队知识中心的构建、云存储的跨源搜索、搜索质量调优、多语言支持、运维管理、API 集成等基于实际业务场景的实践内容。

架构与扩展篇(第13~17回)

涵盖多租户设计、大规模环境的扩展、安全架构、DevOps 式的运维自动化、插件开发等高级架构主题。

AI 与下一代搜索篇(第18~22回)

涵盖从语义搜索基础、通过 RAG 构建 AI 助手、作为 MCP 服务器的活用、多模态搜索到搜索分析等最新搜索技术。

总结(第23回)

汇总整个系列的知识经验,呈现以 Fess 为核心的知识平台参考架构。

总结

本文介绍了企业搜索基础设施的必要性以及 Fess 的定位。

  • 信息过载和信息孤岛是许多企业面临的共同课题

  • 通过企业搜索,可以跨源搜索散布各处的信息

  • Fess 是开源的,提供搜索系统所需的全套功能

  • 支持通过插件进行扩展以及 AI 联动

下一回将介绍使用 Docker Compose 实际启动 Fess,以最快的方式体验搜索功能的方法。

参考资料