Descripcion general
El conector CSV proporciona la funcionalidad para obtener datos de archivos CSV y registrarlos en el indice de Fess.
Esta funcionalidad requiere el plugin fess-ds-csv.
Requisitos previos
Es necesario instalar el plugin
Se requiere acceso a los archivos CSV
Es necesario conocer la codificacion de caracteres del archivo CSV
Instalacion del plugin
Metodo 1: Colocar el archivo JAR directamente
Metodo 2: Instalar desde la pantalla de administracion
Abrir «Sistema» -> «Plugins»
Subir el archivo JAR
Reiniciar Fess
Configuracion
Configure desde la pantalla de administracion en «Crawler» -> «Data Store» -> «Crear nuevo».
Configuracion basica
| Campo | Ejemplo |
|---|---|
| Nombre | Products CSV |
| Handler | CsvDataStore |
| Habilitado | Activado |
Configuracion de parametros
Archivo local:
Archivo HTTP:
Multiples archivos:
Lista de parametros
Configuracion de scripts
Con encabezado:
Sin encabezado (especificando indice de columna):
Campos disponibles
data.<nombre_columna>- Nombre de columna del encabezado (cuando has_header_line=true)data.cell<N>- Indice de columna (cuando has_header_line=false, comenzando desde 1:cell1,cell2…)
Detalles del formato CSV
CSV estandar (compatible con RFC 4180)
Cambiar el separador
Delimitado por tabulador (TSV):
Delimitado por punto y coma:
Comillas personalizadas
Comillas simples:
Codificacion
Archivo en japones (Shift_JIS):
Archivo en japones (EUC-JP):
Ejemplos de uso
CSV de catalogo de productos
Archivo CSV (products.csv):
Parametros:
Script:
Filtrado por informacion de stock:
CSV de directorio de empleados
Archivo CSV (employees.csv):
Parametros:
Script:
CSV sin encabezado
Archivo CSV (data.csv):
Parametros:
Script:
Integracion de multiples archivos CSV
Parametros:
Script:
Obtener CSV desde HTTP
Parametros:
Script:
Archivo delimitado por tabulador (TSV)
Archivo TSV (data.tsv):
Parametros:
Script:
Solucion de problemas
Archivo no encontrado
Sintoma: FileNotFoundException o No such file
Verificaciones:
Verificar que la ruta del archivo sea correcta (se recomienda ruta absoluta)
Confirmar que el archivo existe
Verificar que tiene permisos de lectura
Confirmar que es accesible desde el usuario que ejecuta Fess
Caracteres ilegibles
Sintoma: Los caracteres no se muestran correctamente
Solucion:
Especificar la codificacion correcta:
Verificar la codificacion del archivo:
Las columnas no se reconocen correctamente
Sintoma: El delimitador de columnas no se reconoce correctamente
Verificaciones:
Verificar que el caracter separador sea correcto:
Verificar la configuracion de comillas
Verificar el formato del archivo CSV (si cumple con RFC 4180)
Manejo de la fila de encabezado
Sintoma: La primera fila se reconoce como datos
Solucion:
Cuando hay fila de encabezado:
Cuando no hay fila de encabezado:
No se obtienen datos
Sintoma: El crawl tiene exito pero el conteo es 0
Verificaciones:
Verificar que el archivo CSV no este vacio
Verificar que la configuracion del script sea correcta
Verificar que los nombres de columna sean correctos (cuando has_header_line=true)
Revisar los mensajes de error en el log
Archivo CSV grande
Sintoma: Memoria insuficiente o timeout
Solucion:
Dividir el archivo CSV en varios
Usar solo las columnas necesarias en el script
Aumentar el tamano del heap de Fess
Filtrar filas innecesarias
Campo con saltos de linea
En formato RFC 4180, los campos con saltos de linea pueden manejarse encerrandolos en comillas:
Parametros:
Ejemplos avanzados de scripts
Procesamiento de datos
Indexado condicional
Concatenacion de multiples columnas
Formato de fecha
Informacion de referencia
Descripcion General de los Conectores de Almacen de Datos - Descripcion general de conectores de Data Store
Conector JSON - Conector JSON
Conector de Base de Datos - Conector de base de datos
Rastreo de Almacén de Datos - Guia de configuracion de Data Store