第1回企业为何需要搜索 – 信息过载时代的知识活用课题

前言

“那个文件放在哪里了？”

许多商务人士在日常工作中频繁面临着这个问题。公司内部的文件服务器、云存储、聊天工具、Wiki、工单管理系统——信息每天都在不断增长，散布在各种各样的地方。明明知道需要的信息是存在的，但找到它却要花上好几分钟，有时甚至几十分钟。这种”寻找信息的时间”，正是现代企业面临的一大课题。

本系列”用 Fess 实现知识活用战略”将通过开源全文搜索服务器 Fess，实践性地讲解如何解决这一课题。作为第1回，本文首先梳理”企业为何需要搜索基础设施”，并介绍 Fess 是一款怎样定位的软件。

目标读者

对公司内部信息活用感到困扰的人士
正在考虑引入企业搜索的人士
初次了解 Fess 的人士

信息过载时代的课题

信息爆炸与”找不到”的问题

企业所拥有的数字数据逐年增加。报告、会议纪要、设计文档、邮件、聊天记录、源代码、客户数据——这些信息本身就是组织的知识资产。然而，信息越多，要找到所需信息就越困难。

许多调查结果显示，知识工作者将 20～30% 的工作时间花费在信息搜索上。如果是一个50人的组织，相当于每天有10～15人的劳动时间消耗在”搜索”这项工作上。

信息孤岛这一结构性问题

信息找不到的原因，不仅仅是因为数量庞大。在许多企业中，信息按部门或工具被分割，形成了”信息孤岛”。

销售团队使用 Salesforce 和共享文件夹
开发团队使用 Confluence 和 Git 仓库
行政部门使用内部门户和文件服务器

每个工具都有搜索功能，但缺乏跨工具搜索的手段。结果就是，”隔壁团队制作的资料”找不到，类似的资料只能从零开始重新制作，这种情况时有发生。

通过搜索基础设施来解决

针对这些课题的解决方案就是”企业搜索（企业内搜索基础设施）”。企业搜索提供了一种能够跨组织内各种数据源进行搜索的机制。

通过引入企业搜索，可以期待以下效果。

缩短信息搜索时间: 对散布各处的信息进行一站式搜索
促进知识复用: 更容易发现过去的成果和经验
加速决策: 快速访问所需信息并做出判断
消除知识属人化: 减少”不问那个人就不知道”的状态

Fess 简介

Fess 是一款开源的全文搜索服务器。基于 Apache 许可证提供，包括商业用途在内均可免费使用。采用 Java 构建，使用 OpenSearch 作为搜索引擎。

Fess 的整体概况

Fess 不仅仅是一个搜索引擎，而是具备”搜索系统”所需全套功能的软件。

爬虫

从网站、文件服务器、云存储、SaaS 等各种数据源自动收集文档。支持 HTML、PDF、Word、Excel、PowerPoint 等100多种文件格式。

搜索引擎

以 OpenSearch 为后端，提供高速的全文搜索。支持包括中文、日文在内的20多种语言，能够扩展到大规模文档量。

搜索 UI

标准配备基于浏览器的搜索界面。提供搜索结果高亮显示、分面（筛选）、建议（输入补全）等功能，为用户带来易用的搜索体验。

管理界面

爬取设置、用户管理、词典管理等运维所需的设置均可通过浏览器进行。即使没有命令行知识，也可以通过管理界面运维搜索系统。

API

提供基于 JSON 的搜索 API，可以将搜索功能集成到现有系统中。

为何选择 Fess

企业搜索有多种选择。可以直接使用 OpenSearch 或 Elasticsearch，也有商用搜索解决方案。下面整理在众多选择中选择 Fess 的理由。

与自建方案的对比

OpenSearch 和 Elasticsearch 是强大的搜索引擎，但仅凭它们并不能完成一个搜索系统。爬虫的实现、文档解析处理、搜索 UI 的开发、权限管理机制等，需要自行构建大量功能。 Fess 以一体化的方式提供这些功能，因此能够大幅削减构建搜索系统所需的开发工时。

与商用产品的对比

商用企业搜索产品功能强大，但许可证费用往往较为昂贵。 Fess 作为开源软件，无需支付软件费用。此外，由于源代码公开，不存在供应商锁定的风险。即使需要定制，也可以自由扩展。

通过插件实现扩展性

Fess 采用了插件架构。提供了对应 Slack、SharePoint、Box、Dropbox、Confluence、Jira 等各种数据源的插件。此外，还可以通过与 LLM（大规模语言模型）联动的 LLM 插件等，实现面向 AI 时代的扩展。

Fess 可实现的搜索场景

利用 Fess，具体可以构建怎样的搜索环境呢？下面介绍本系列将涉及的场景概要。

企业内文档的跨源搜索

可以从文件服务器、云存储、Web 站点等多个数据源在同一处进行搜索。即使各部门使用不同的工具，用户也能通过一个搜索框找到所需信息。

按部门的访问控制

可以根据用户的所属部门和权限，控制搜索结果中显示的文档。人事部门的机密资料不会出现在销售团队的搜索结果中。还可以与现有的目录服务（Active Directory、LDAP）联动，自动反映权限信息。

为现有系统添加搜索功能

可以将 Fess 的搜索功能嵌入到内部门户或业务系统中。可以从多种方式中选择，包括通过 JavaScript 轻松嵌入的 Fess Site Search（FSS），以及利用 API 进行的自定义集成等。

利用 AI 的搜索体验

可以通过 Fess 实现近年来备受关注的 RAG（Retrieval-Augmented Generation）。当用户以自然语言提问时，Fess 从企业内部文档中搜索相关信息，由 LLM 生成回答。作为”企业内 AI 助手”，可以进一步推动知识活用的进化。

本系列的构成

本系列共由23回构成。从初学者到高级用户，设计为可以循序渐进地加深理解。

基础篇（第1～5回）

包括本文在内的前5回，将涉及 Fess 的导入和基本场景。学习使用 Docker Compose 快速入门、为 Web 站点添加搜索功能、构建多源搜索、基于权限的搜索控制等内容。

实践解决方案篇（第6～12回）

涵盖开发团队知识中心的构建、云存储的跨源搜索、搜索质量调优、多语言支持、运维管理、API 集成等基于实际业务场景的实践内容。

架构与扩展篇（第13～17回）

涵盖多租户设计、大规模环境的扩展、安全架构、DevOps 式的运维自动化、插件开发等高级架构主题。

AI 与下一代搜索篇（第18～22回）

涵盖从语义搜索基础、通过 RAG 构建 AI 助手、作为 MCP 服务器的活用、多模态搜索到搜索分析等最新搜索技术。

总结（第23回）

汇总整个系列的知识经验，呈现以 Fess 为核心的知识平台参考架构。

总结

本文介绍了企业搜索基础设施的必要性以及 Fess 的定位。

信息过载和信息孤岛是许多企业面临的共同课题
通过企业搜索，可以跨源搜索散布各处的信息
Fess 是开源的，提供搜索系统所需的全套功能
支持通过插件进行扩展以及 AI 联动

下一回将介绍使用 Docker Compose 实际启动 Fess，以最快的方式体验搜索功能的方法。

第1回 企业为何需要搜索 – 信息过载时代的知识活用课题

前言