Connecteur CSV

Apercu

Le connecteur CSV fournit la fonctionnalite permettant de recuperer des donnees a partir de fichiers CSV et de les enregistrer dans l’index Fess.

Cette fonctionnalite necessite le plugin fess-ds-csv.

Prerequis

L’installation du plugin est requise
L’acces au fichier CSV est necessaire
L’encodage des caracteres du fichier CSV doit etre connu

Installation du plugin

Methode 1 : Placement direct du fichier JAR

# Telecharger depuis Maven Central
wget https://repo1.maven.org/maven2/org/codelibs/fess/fess-ds-csv/X.X.X/fess-ds-csv-X.X.X.jar

# Placement
cp fess-ds-csv-X.X.X.jar $FESS_HOME/app/WEB-INF/lib/
# ou
cp fess-ds-csv-X.X.X.jar /usr/share/fess/app/WEB-INF/lib/

Methode 2 : Installation depuis l’interface d’administration

Ouvrir « Systeme » -> « Plugins »
Telecharger le fichier JAR
Redemarrer Fess

Configuration

Configurez depuis l’interface d’administration via « Crawler » -> « Data Store » -> « Nouveau ».

Configuration de base

Element	Exemple
Nom	Products CSV
Nom du gestionnaire	CsvDataStore
Active	Oui

Configuration des parametres

Fichier local :

Fichier HTTP :

Fichiers multiples :

Liste des parametres

Parametre	Requis	Description
`files`	Oui	Chemin du fichier CSV (local, HTTP, plusieurs fichiers separes par des virgules)
`file_encoding`	Non	Encodage des caracteres (par defaut : UTF-8)
`has_header_line`	Non	Presence d’une ligne d’en-tete (par defaut : true)
`separator_character`	Non	Caractere de separation (par defaut : virgule `,`)
`quote_character`	Non	Caractere de citation (par defaut : guillemet double `"`)

Configuration du script

Avec en-tete :

Sans en-tete (index de colonne) :

Champs disponibles

data.<nom_colonne> - Nom de colonne de la ligne d’en-tete (si has_header_line=true)
data.cell<N> - Index de colonne (si has_header_line=false, commence a 0)

Details du format CSV

CSV standard (conforme RFC 4180)

Modification du separateur

Tabulation (TSV) :

Point-virgule :

Caractere de citation personnalise

Guillemet simple :

Encodage

Fichier japonais (Shift_JIS) :

Fichier japonais (EUC-JP) :

Exemples d’utilisation

Catalogue de produits CSV

Fichier CSV (products.csv) :

product_id,name,description,price,category,in_stock
1001,Laptop,High-performance laptop,120000,Computer,true
1002,Mouse,Wireless mouse,2500,Peripherals,true
1003,Keyboard,Mechanical keyboard,8500,Peripherals,false

Parametres :

Script :

url="https://shop.example.com/product/" + data.product_id
title=data.name
content=data.description + " Categorie: " + data.category + " Prix: " + data.price + " EUR"
digest=data.category
price=data.price

Filtrage des informations de stock :

Annuaire des employes CSV

Fichier CSV (employees.csv) :

emp_id,name,department,email,phone,position
E001,Jean Dupont,Ventes,dupont@example.com,01-23-45-67-89,Directeur
E002,Marie Martin,Developpement,martin@example.com,01-34-56-78-90,Manager
E003,Pierre Durand,Administration,durand@example.com,01-45-67-89-01,Responsable

Parametres :

Script :

url="https://intranet.example.com/employee/" + data.emp_id
title=data.name + " (" + data.department + ")"
content="Departement: " + data.department + "\nPoste: " + data.position + "\nEmail: " + data.email + "\nTelephone: " + data.phone
digest=data.department

CSV sans en-tete

Fichier CSV (data.csv) :

Parametres :

Script :

Integration de plusieurs fichiers CSV

Parametres :

Script :

Recuperation de CSV depuis HTTP

Parametres :

Script :

Fichier separe par tabulation (TSV)

Fichier TSV (data.tsv) :

Parametres :

Script :

Depannage

Fichier introuvable

Symptome : FileNotFoundException ou No such file

Points a verifier :

Verifier si le chemin du fichier est correct (chemin absolu recommande)
Verifier si le fichier existe
Verifier si les droits de lecture sont accordes
Verifier si l’utilisateur executant Fess peut y acceder

Caracteres illisibles

Symptome : Les caracteres speciaux ne s’affichent pas correctement

Solution :

Specifier le bon encodage :

Verifier l’encodage du fichier :

Les colonnes ne sont pas reconnues correctement

Symptome : Les delimiteurs de colonnes ne sont pas reconnus correctement

Points a verifier :

Verifier si le caractere de separation est correct :

Verifier le parametre de citation
Verifier le format du fichier CSV (conformite RFC 4180)

Gestion de la ligne d’en-tete

Symptome : La premiere ligne est reconnue comme donnees

Solution :

Si une ligne d’en-tete existe :

Si aucune ligne d’en-tete n’existe :

Impossible de recuperer les donnees

Symptome : Le crawl reussit mais le nombre d’elements est 0

Points a verifier :

Verifier si le fichier CSV n’est pas vide
Verifier si la configuration du script est correcte
Verifier si les noms de colonnes sont corrects (si has_header_line=true)
Verifier les messages d’erreur dans les logs

Fichiers CSV volumineux

Symptome : Memoire insuffisante ou timeout

Solution :

Diviser le fichier CSV en plusieurs parties
Utiliser uniquement les colonnes necessaires dans le script
Augmenter la taille du tas de Fess
Filtrer les lignes inutiles

Champs contenant des sauts de ligne

Le format RFC 4180 permet de gerer les champs contenant des sauts de ligne en les entourant de guillemets :

Parametres :

Exemples d’utilisation avancee des scripts

Traitement des donnees

Indexation conditionnelle

# Uniquement les produits dont le prix est superieur ou egal a 10000
if (parseInt(data.price) >= 10000) {
    url="https://example.com/product/" + data.id
    title=data.name
    content=data.description
    price=data.price
}

Concatenation de plusieurs colonnes

Format de date

url="https://example.com/article/" + data.id
title=data.title
content=data.content
created=data.created_date
# Si une conversion de format de date est necessaire, un traitement supplementaire est requis

Informations de reference

Apercu des connecteurs DataStore - Apercu des connecteurs Data Store
Connecteur JSON - Connecteur JSON
Connecteur base de donnees - Connecteur de base de donnees
Présentation - Guide de configuration Data Store
RFC 4180 - Format CSV