Introduccion
En la entrega anterior, presentamos como integrar la funcionalidad de busqueda de Fess en un sitio web existente. Sin embargo, en un entorno empresarial real, la informacion no se encuentra solo en sitios web, sino que esta dispersa en servidores de archivos, almacenamiento en la nube y otros lugares.
En este articulo, integraremos multiples origenes de datos en Fess para construir un entorno en el que los usuarios puedan realizar busquedas transversales en todos los documentos desde una unica barra de busqueda.
Publico objetivo
Personas cuya documentacion interna esta distribuida en multiples ubicaciones
Personas insatisfechas con la busqueda en servidores de archivos o almacenamiento en la nube
Es necesario tener Fess en funcionamiento siguiendo los pasos de la Parte 2
Escenario
Supongamos una empresa de tamano mediano. En esta empresa, los documentos estan dispersos en los siguientes lugares:
Sitio web interno: Portal interno, blog interno
Servidor de archivos: Carpetas compartidas por departamento (SMB/CIFS)
Archivos locales: Directorios especificos en el servidor
Cuando un empleado piensa «Donde estaba ese documento?», debe buscar en cada herramienta por separado. Vamos a centralizar esto con Fess para poder realizar busquedas transversales desde una unica barra de busqueda.
Diseno de los origenes de datos
Al construir una busqueda transversal, lo primero y mas importante es disenar «que y como se incluira en los objetivos de busqueda».
Organizacion de los objetivos de busqueda
Primero, organizamos los origenes de datos que seran objetivos de busqueda.
Diseno de clasificacion mediante etiquetas
Utilizando la funcion de «etiquetas» de Fess, se pueden categorizar los objetivos de busqueda. Los usuarios pueden seleccionar una etiqueta al buscar para restringir la busqueda a una categoria especifica.
En este escenario, configuraremos las siguientes etiquetas:
Portal: Informacion del portal interno y blog
Archivos compartidos: Documentos del servidor de archivos
Archivo historico: Materiales anteriores
Configuracion de etiquetas
En la pantalla de administracion, seleccionar [Rastreador] > [Etiquetas]
Crear una etiqueta con [Crear nuevo]
Se configuran un «nombre» y un «valor» para cada etiqueta. El valor se establece con caracteres alfanumericos y se utiliza para vincular con la configuracion del rastreo.
Construccion de la configuracion de rastreo
Configuracion del rastreo web
Esta es la configuracion de rastreo para el portal interno.
[Rastreador] > [Web] > [Crear nuevo]
Configurar lo siguiente:
URL:
https://portal.example.com/URLs a incluir en el rastreo:
https://portal.example.com/.*URLs a excluir del rastreo:
https://portal.example.com/admin/.*Numero maximo de accesos:
500Numero de hilos:
3Intervalo:
5000Etiqueta: Portal
Hacer clic en [Crear]
Al configurar las URLs de exclusion, se pueden excluir paginas como las de administracion que no se desean incluir en la busqueda.
Configuracion del rastreo de archivos
Esta es la configuracion de rastreo para la carpeta compartida.
[Rastreador] > [Sistema de archivos] > [Crear nuevo]
Configurar lo siguiente:
Ruta:
smb://fileserver.example.com/shared/Rutas a incluir en el rastreo:
smb://fileserver.example.com/shared/.*Rutas a excluir del rastreo:
.*\\.tmp$Numero maximo de accesos:
10000Numero de hilos:
5Intervalo:
1000Etiqueta: Archivos compartidos
Hacer clic en [Crear]
Configuracion de la autenticacion SMB
En el caso de servidores de archivos que requieren autenticacion, es necesario configurar la autenticacion de archivos.
[Rastreador] > [Autenticacion de archivos] > [Crear nuevo]
Configurar lo siguiente:
Nombre de host:
fileserver.example.comEsquema:
SambaNombre de usuario: nombre de usuario de la cuenta de servicio
Contrasena: contrasena de la cuenta de servicio
Hacer clic en [Crear]
Rastreo de archivos locales
Para rastrear un directorio especifico en el servidor, se especifica la ruta del archivo directamente.
[Rastreador] > [Sistema de archivos] > [Crear nuevo]
Configurar lo siguiente:
Ruta:
file:///data/archive/Rutas a incluir en el rastreo:
file:///data/archive/.*Rutas a excluir del rastreo:
.*\\.(log|bak)$Numero maximo de accesos:
5000Etiqueta: Archivo historico
Hacer clic en [Crear]
Diseno de la programacion de rastreo
Cuando se rastrean multiples origenes de datos, el diseno de la programacion es fundamental. Si se ejecutan todos los rastreos simultaneamente, se genera una carga excesiva en los recursos del servidor y tambien en los servidores de destino.
Distribucion de la programacion
Se distribuyen las programaciones de rastreo segun la frecuencia de actualizacion de cada origen de datos.
Configuracion del programador
Desde [Sistema] > [Programador] en la pantalla de administracion, se puede configurar el momento de ejecucion de los trabajos de rastreo. El trabajo predeterminado «Default Crawler» ejecuta todas las configuraciones de rastreo de forma conjunta.
Hacer los resultados de busqueda mas accesibles con el mapeo de rutas
Las URLs o rutas de archivos rastreados pueden resultar dificiles de entender para los usuarios. Utilizando el mapeo de rutas, se pueden transformar las URLs que se muestran en los resultados de busqueda.
Ejemplo de configuracion
Transformar las rutas del servidor de archivos en URLs que los usuarios puedan abrir en el navegador.
[Rastreador] > [Mapeo de rutas] > [Crear nuevo]
Configurar lo siguiente:
Expresion regular:
smb://fileserver.example.com/shared/(.*)Reemplazo:
https://fileserver.example.com/shared/$1
De esta forma, al hacer clic en un enlace de los resultados de busqueda, se podra acceder directamente al archivo desde el navegador.
Aprovechamiento de la busqueda transversal
Busqueda con filtrado por etiquetas
Una vez completado el rastreo, experimentemos la busqueda transversal en la pantalla de busqueda.
En la pantalla de busqueda se muestran pestanas o menus desplegables de etiquetas. Si el usuario selecciona «Todos», se realiza una busqueda transversal; si selecciona una etiqueta especifica, la busqueda se limita a esa categoria.
Por ejemplo, al buscar «plan de proyecto», se obtienen resultados mixtos que incluyen articulos del portal, archivos Word de la carpeta compartida y PDFs del archivo historico. Si se filtra por la etiqueta «Archivos compartidos», los resultados se limitan unicamente a los documentos del servidor de archivos.
Orden de los resultados de busqueda
De forma predeterminada, los resultados se ordenan por relevancia (puntuacion) con respecto a las palabras clave de busqueda. Independientemente del tipo de origen de datos, los documentos con mayor relevancia aparecen en las primeras posiciones.
Resumen
En este articulo, integramos multiples origenes de datos en Fess y construimos un entorno de busqueda transversal.
Configuracion de rastreo para tres tipos de origenes: sitios web, servidor de archivos y archivos locales
Clasificacion por categorias y busqueda con filtrado mediante etiquetas
Diseno de distribucion de la programacion de rastreo
Transformacion de URLs mediante mapeo de rutas
Con la implementacion de la busqueda transversal, los usuarios podran encontrar la informacion que necesitan sin preocuparse por «donde esta almacenada».
En la proxima entrega, abordaremos el diseno de busqueda basada en roles, que controla los resultados de busqueda segun los permisos de cada departamento.