Descripción General
El rastreador de Fess es una función que recopila automáticamente contenido de sitios web, sistemas de archivos y otros, y lo registra en el índice de búsqueda. Esta guía describe los conceptos básicos del rastreador y los métodos de configuración.
Conceptos Básicos del Rastreador
Qué es un Rastreador
Un rastreador (Crawler) es un programa que recopila automáticamente contenido siguiendo enlaces, comenzando desde URLs o rutas de archivo especificadas.
El rastreador de Fess tiene las siguientes características:
Soporte multi-protocolo: HTTP/HTTPS, sistemas de archivos, SMB, FTP, etc.
Ejecución programada: Rastreo automático periódico
Rastreo incremental: Actualiza solo el contenido modificado
Procesamiento paralelo: Rastreo simultáneo de múltiples URLs
Cumplimiento de robots: Respeta robots.txt
Tipos de Rastreador
En Fess, existen los siguientes tipos de rastreador según el objetivo.
Creación de Configuración de Rastreo
Agregar Configuración Básica de Rastreo
Acceder a la Pantalla de Administración
Acceda a
http://localhost:8080/adminen su navegador e inicie sesión como administrador.Abrir Pantalla de Configuración del Rastreador
Seleccione «Rastreador» → «Web» o «Sistema de archivos» del menú izquierdo.
Crear Nueva Configuración
Haga clic en el botón «Nuevo».
Ingresar Información Básica
Nombre: Nombre de identificación de la configuración de rastreo (ej: Wiki Corporativo)
URL: URL de inicio del rastreo (ej:
https://wiki.example.com/)Intervalo: Intervalo de acceso por URL en milisegundos (ej: 10000)
Número de Hilos: Número de rastreos paralelos (ej: 5)
Profundidad: Profundidad de niveles de enlaces a seguir (ej: 3)
Guardar
Haga clic en el botón «Crear» para guardar la configuración.
Ejemplos de Configuración del Rastreador Web
Rastreo de Sitio de Intranet Corporativa
Rastreo de Sitio Web Público
Ejemplos de Configuración del Rastreador de Archivos
Sistema de Archivos Local
SMB/CIFS (Compartición de Archivos Windows)
Configuración de Información de Autenticación
Para acceder a sitios o servidores de archivos que requieren autenticación, configure la información de autenticación.
Seleccione «Rastreador» → «Autenticación web» (o «Autenticación de archivos» para servidores de archivos) en la pantalla de administración
Haga clic en «Nuevo»
Ingrese la información de autenticación:
Nota
«Esquema» se selecciona entre Basic / Digest / NTLM / Form. Asimismo, asegúrese de seleccionar la configuración de rastreo objetivo en el campo «Web Config» (o la configuración del sistema de archivos en caso de autenticación de archivos). Las credenciales están vinculadas a una configuración de rastreo.
Haga clic en «Crear»
Ejecución del Rastreo
Ejecución Manual
Para ejecutar un rastreo de forma inmediata, inicie el trabajo del rastreador desde el menú «Programador»:
Abra el menú «Programador»
Seleccione el trabajo «Default Crawler»
Haga clic en el botón «Iniciar ahora»
Verifique el estado de ejecución del trabajo
Nota
Las páginas de lista de configuración de rastreo (Web / Sistema de archivos) no tienen un botón de inicio individual. Los rastreos se ejecutan por unidad de trabajo del programador. El trabajo «Default Crawler» se ejecuta contra todas las configuraciones de rastreo habilitadas.
Ejecución Programada
Para ejecutar el rastreo periódicamente:
Abra el menú «Programador»
Seleccione el trabajo «Default Crawler»
Configure la expresión de programación (formato Cron)
Haga clic en «Actualizar»
Nota
El programador de Fess utiliza expresiones de programación en formato cron4j con 5 campos (minuto hora día mes día-de-semana). No existe campo de segundos ni se utiliza ? (a diferencia de Quartz). El día de la semana se indica con 0 (domingo) a 6 (sábado).
Verificación del Estado del Rastreo
Para verificar el estado del rastreo en ejecución:
Abra el menú «Programador»
Verifique los trabajos en ejecución
Verifique los detalles en los logs:
Nota
La ruta anterior es para instalaciones de paquetes RPM/DEB. Para implementaciones zip/tar.gz, los registros se encuentran en el directorio
logs/.
Elementos Básicos de Configuración
Limitación de Objetivos de Rastreo
Limitación por Patrón de URL
Puede incluir solo patrones de URL específicos como objetivos de rastreo, o excluirlos.
Patrón de URL a Incluir (expresión regular):
Patrón de URL a Excluir (expresión regular):
Limitación de Profundidad
Limitar la profundidad de niveles de enlaces a seguir:
0: Solo la URL de inicio
1: URL de inicio y páginas enlazadas desde ella
en blanco (sin definir): Ilimitada (seguir todos los enlaces)
Nota
El campo de profundidad en la interfaz de administración acepta únicamente enteros mayores o iguales a 0. Para una profundidad ilimitada, deje el campo en blanco (internamente se trata como -1, que significa ilimitado).
Máximo Número de Accesos
Límite superior del número de páginas a rastrear:
Detenerse después de rastrear hasta 1000 páginas. Dejar el campo en blanco significa ilimitado (sin tope).
Número de Rastreos Paralelos (Número de Hilos)
Especifique el número de URLs a rastrear simultáneamente.
Advertencia
Aumentar demasiado el número de hilos causará carga excesiva en el servidor objetivo. Configure un valor apropiado.
Nota
El número de hilos predeterminado al crear una nueva configuración es 1 para el rastreador Web y 5 para el rastreador de archivos. El intervalo de solicitudes (intervalo) predeterminado es 10000 milisegundos para el rastreador Web y 1000 milisegundos para el rastreador de archivos.
Intervalo de Rastreo
Especifique la frecuencia de ejecución del rastreo.
Configuración de Tamaño de Archivo
Puede configurar el límite superior del tamaño de archivo a rastrear.
Límite Superior del Tamaño de Archivo a Obtener
Agregue lo siguiente a «Parámetros de Configuración» en la configuración del rastreador:
Obtiene archivos de hasta 10MB. Por defecto no hay límite.
Nota
Si rastrea archivos grandes, también ajuste la configuración de memoria. Consulte Configuración de Memoria para más detalles.
Límite Superior del Tamaño de Archivo a Indexar
Puede configurar el límite superior del tamaño a indexar para cada tipo de archivo.
Valores predeterminados:
Archivos HTML: 2.5MB
Otros archivos: 10MB
Archivo de configuración: app/WEB-INF/classes/crawler/contentlength.xml
Configuración predeterminada:
Ejemplo de personalización (agregar procesamiento de archivos PDF hasta 5MB):
Advertencia
Si aumenta el tamaño de archivo a manejar, también aumente la configuración de memoria del rastreador.
Nota
Si el tamaño del documento supera los 50 MB, también debe cambiar la configuración de OpenSearch. OpenSearch limita la longitud máxima de los campos de cadena en el contenido JSON a 50 MB de forma predeterminada.
Agregue lo siguiente a opensearch.yml:
El ejemplo anterior establece el límite en 100 MB. Para más detalles, consulte la documentación de OpenSearch.
Limitación de Longitud de Palabras
Descripción General
Las cadenas largas de solo caracteres alfanuméricos o símbolos continuos causan aumento del tamaño del índice y degradación del rendimiento. Por lo tanto, Fess impone las siguientes limitaciones por defecto:
Caracteres alfanuméricos continuos: hasta 20 caracteres
Símbolos continuos: hasta 10 caracteres
Método de Configuración
Edite fess_config.properties.
Configuración predeterminada:
Ejemplo: Relajar la limitación
Nota
Si necesita buscar cadenas alfanuméricas largas (ej: números de serie, tokens, etc.), aumente este valor. Sin embargo, el tamaño del índice aumentará.
Configuración de Proxy
Descripción General
Al rastrear sitios externos desde dentro de una intranet, puede ser bloqueado por el firewall. En ese caso, rastree a través de un servidor proxy.
Método de Configuración
Agregue lo siguiente a «Parámetros de Configuración» en la configuración de rastreo de la pantalla de administración.
Configuración básica de proxy:
Proxy con autenticación:
Excluir hosts específicos del proxy:
Los hosts a excluir del proxy no se configuran en los parámetros de configuración de rastreo, sino mediante propiedades del sistema JVM. Configure la variable de entorno FESS_NON_PROXY_HOSTS en fess.in.sh (Linux/Mac) o fess.in.bat (Windows).
Proxy Común a Todas las Configuraciones de Rastreo
Si desea aplicar un proxy común a todas las configuraciones de rastreo que no hayan definido su propio proxy, configúrelo en fess_config.properties:
Esta configuración se aplica a todas las configuraciones de rastreo que no especifiquen client.proxyHost / client.proxyPort de forma individual (la configuración por rastreo tiene prioridad).
Proxy de Sistema Completo (JVM)
Para enrutar todo el tráfico HTTP de Fess a través de un proxy —incluyendo el rastreador, SSO y la integración con LLM—, configure las siguientes variables de entorno en fess.in.sh (Linux/Mac) o fess.in.bat (Windows). Estas se convierten en propiedades del sistema JVM (-Dhttp.proxyHost, etc.):
Nota
FESS_PROXY_HOST / FESS_PROXY_PORT se aplican tanto a HTTP como a HTTPS. Las variables de entorno de shell http_proxy / https_proxy / no_proxy no son leídas por la JVM, por lo que configurarlas no tiene efecto.
Configuración de robots.txt
Descripción General
robots.txt es un archivo que instruye a los rastreadores sobre si permitir o no el rastreo. Fess respeta robots.txt por defecto.
Método de Configuración
Para ignorar robots.txt, edite fess_config.properties.
El valor predeterminado de esta propiedad es false, por lo que Fess respeta robots.txt. Establézcala en true para ignorarlo.
Para ignorar las metaetiquetas robots de HTML (noindex, nofollow, etc.), utilice la siguiente propiedad (el valor predeterminado es false):
Advertencia
Al rastrear sitios externos, respete robots.txt. Ignorarlo puede causar carga excesiva en el servidor o violar términos de uso.
Configuración de User-Agent
Puede cambiar el User-Agent del rastreador.
Para el Rastreador Web
El rastreador Web dispone de un campo dedicado «User Agent» en la pantalla de edición de la configuración de rastreo. Introduzca el valor directamente en ese campo:
Nota
En las configuraciones de rastreo Web, si se especifica client.userAgent en «Parámetros de Configuración», el valor del campo dedicado «User Agent» lo sobreescribirá. Para el rastreador Web, utilice siempre el campo dedicado.
Para el Rastreador de Archivos y Otros
Los rastreadores sin campo de User Agent dedicado utilizan «Parámetros de Configuración» en la configuración de rastreo:
Configuración de Codificación
Codificación de Datos de Rastreo
Configure en fess_config.properties:
Codificación de Nombres de Archivo
Codificación de nombres de archivo del sistema de archivos:
Solución de Problemas de Rastreo
El Rastreo No Inicia
Elementos a verificar:
Verificar si el programador está habilitado
Verificar si el trabajo «Default Crawler» está habilitado en el menú «Programador»
Verificar si la configuración de rastreo está habilitada
Verificar si la configuración objetivo está habilitada en la lista de configuraciones de rastreo
Verificar logs
El Rastreo se Detiene a Mitad
Causas posibles:
Falta de memoria
Verificar si hay
OutOfMemoryErrorenfess-crawler.logAumentar la memoria del rastreador (ver Configuración de Memoria)
Error de red
Ajuste los tiempos de espera mediante los «Parámetros de Configuración» del rastreo:
client.connectionTimeoutes el tiempo de espera para establecer la conexión yclient.soTimeoutes el tiempo de espera para la recepción de datos; ambos en milisegundos.
Error en objetivo de rastreo
Verificar si hay muchos errores 404
Verificar detalles de error en logs
Páginas Específicas No se Rastrean
Elementos a verificar:
Verificar patrón de URL
Verificar si corresponde al patrón de URL excluido
Verificar robots.txt
Verificar
/robots.txtdel sitio objetivo
Verificar autenticación
Si es una página que requiere autenticación, verificar configuración de autenticación
Limitación de profundidad
Verificar si la jerarquía de enlaces excede la limitación de profundidad
Máximo número de accesos
Verificar si se ha alcanzado el máximo número de accesos
El Rastreo es Lento
Contramedidas:
Aumentar número de hilos
Aumentar número de rastreos paralelos (pero tenga cuidado con la carga del servidor objetivo)
Excluir URLs innecesarias
Agregar imágenes y archivos CSS al patrón de URL excluido
Ajustar configuración de timeout
Para sitios con respuesta lenta, acortar el timeout
Aumentar memoria del rastreador
Mejores Prácticas
Recomendaciones para Configuración de Rastreo
Configurar número apropiado de hilos
Configure un número apropiado de hilos para no causar carga excesiva en el servidor objetivo.
Optimización de patrones de URL
Al excluir archivos innecesarios (imágenes, CSS, JavaScript, etc.), reduce el tiempo de rastreo y mejora la calidad del índice.
Configuración de limitación de profundidad
Configure una profundidad apropiada según la estructura del sitio. Deje el campo en blanco (ilimitada) solo cuando necesite rastrear todo el sitio.
Configuración de máximo número de accesos
Configure un límite superior para no rastrear inesperadamente una gran cantidad de páginas.
Ajuste del intervalo de rastreo
Configure un intervalo apropiado según la frecuencia de actualización. - Sitios actualizados frecuentemente: cada 1 hora〜varias horas - Sitios que no se actualizan mucho: cada 1 día〜1 semana
Recomendaciones para Configuración de Programación
Ejecución nocturna
Ejecute en horas de baja carga del servidor (ej: 2 AM).
Evitar ejecución duplicada
Configure para iniciar el siguiente rastreo después de que se complete el rastreo anterior.
Notificación en caso de error
Configure notificación por correo electrónico en caso de falla del rastreo.
Información de Referencia
Configuración Avanzada del Rastreador - Configuración Avanzada del Rastreador
Configuración de Imágenes en Miniatura - Configuración de Miniaturas
Configuración de Memoria - Configuración de Memoria
Configuración de Registro - Configuración de Logs