Apercu
Le connecteur CSV fournit la fonctionnalite permettant de recuperer des donnees a partir de fichiers CSV et de les enregistrer dans l’index Fess.
Cette fonctionnalite necessite le plugin fess-ds-csv.
Prerequis
L’installation du plugin est requise
L’acces au fichier CSV est necessaire
L’encodage des caracteres du fichier CSV doit etre connu
Installation du plugin
Methode 1 : Placement direct du fichier JAR
Methode 2 : Installation depuis l’interface d’administration
Ouvrir « Systeme » -> « Plugins »
Telecharger le fichier JAR
Redemarrer Fess
Configuration
Configurez depuis l’interface d’administration via « Crawler » -> « Data Store » -> « Nouveau ».
Configuration de base
| Element | Exemple |
|---|---|
| Nom | Products CSV |
| Nom du gestionnaire | CsvDataStore |
| Active | Oui |
Configuration des parametres
Fichier local :
Fichier HTTP :
Fichiers multiples :
Liste des parametres
Configuration du script
Avec en-tete :
Sans en-tete (index de colonne) :
Champs disponibles
data.<nom_colonne>- Nom de colonne de la ligne d’en-tete (si has_header_line=true)data.cell<N>- Index de colonne (si has_header_line=false, commence a 1 :cell1,cell2…)
Details du format CSV
CSV standard (conforme RFC 4180)
Modification du separateur
Tabulation (TSV) :
Point-virgule :
Caractere de citation personnalise
Guillemet simple :
Encodage
Fichier japonais (Shift_JIS) :
Fichier japonais (EUC-JP) :
Exemples d’utilisation
Catalogue de produits CSV
Fichier CSV (products.csv) :
Parametres :
Script :
Filtrage des informations de stock :
Annuaire des employes CSV
Fichier CSV (employees.csv) :
Parametres :
Script :
CSV sans en-tete
Fichier CSV (data.csv) :
Parametres :
Script :
Integration de plusieurs fichiers CSV
Parametres :
Script :
Recuperation de CSV depuis HTTP
Parametres :
Script :
Fichier separe par tabulation (TSV)
Fichier TSV (data.tsv) :
Parametres :
Script :
Depannage
Fichier introuvable
Symptome : FileNotFoundException ou No such file
Points a verifier :
Verifier si le chemin du fichier est correct (chemin absolu recommande)
Verifier si le fichier existe
Verifier si les droits de lecture sont accordes
Verifier si l’utilisateur executant Fess peut y acceder
Caracteres illisibles
Symptome : Les caracteres speciaux ne s’affichent pas correctement
Solution :
Specifier le bon encodage :
Verifier l’encodage du fichier :
Les colonnes ne sont pas reconnues correctement
Symptome : Les delimiteurs de colonnes ne sont pas reconnus correctement
Points a verifier :
Verifier si le caractere de separation est correct :
Verifier le parametre de citation
Verifier le format du fichier CSV (conformite RFC 4180)
Gestion de la ligne d’en-tete
Symptome : La premiere ligne est reconnue comme donnees
Solution :
Si une ligne d’en-tete existe :
Si aucune ligne d’en-tete n’existe :
Impossible de recuperer les donnees
Symptome : Le crawl reussit mais le nombre d’elements est 0
Points a verifier :
Verifier si le fichier CSV n’est pas vide
Verifier si la configuration du script est correcte
Verifier si les noms de colonnes sont corrects (si has_header_line=true)
Verifier les messages d’erreur dans les logs
Fichiers CSV volumineux
Symptome : Memoire insuffisante ou timeout
Solution :
Diviser le fichier CSV en plusieurs parties
Utiliser uniquement les colonnes necessaires dans le script
Augmenter la taille du tas de Fess
Filtrer les lignes inutiles
Champs contenant des sauts de ligne
Le format RFC 4180 permet de gerer les champs contenant des sauts de ligne en les entourant de guillemets :
Parametres :
Exemples d’utilisation avancee des scripts
Traitement des donnees
Indexation conditionnelle
Concatenation de plusieurs colonnes
Format de date
Informations de reference
Apercu des connecteurs DataStore - Apercu des connecteurs Data Store
Connecteur JSON - Connecteur JSON
Connecteur base de donnees - Connecteur de base de donnees
Présentation - Guide de configuration Data Store