Connecteur de base de données (recherche de base de données)

Aperçu

Le connecteur de base de données permet d’enregistrer dans l’index de Fess les enregistrements de bases de données relationnelles compatibles JDBC (MySQL, PostgreSQL, Oracle, SQL Server, etc.), afin de réaliser une recherche de base de données (recherche en texte intégral sur une base de données). Chaque colonne récupérée par une instruction SELECT est mappée à un champ de recherche lors de l’enregistrement.

Le connecteur de base de données fournit une fonctionnalité pour récupérer des données depuis des bases de données relationnelles compatibles JDBC et les enregistrer dans l’index de Fess.

Cette fonctionnalité nécessite le plugin fess-ds-db.

Bases de données prises en charge

Toutes les bases de données compatibles JDBC sont prises en charge. Exemples principaux :

MySQL / MariaDB
PostgreSQL
Oracle Database
Microsoft SQL Server
SQLite
H2 Database

Prérequis

L’installation du plugin fess-ds-db est nécessaire
Un pilote JDBC adapté à la base de données cible est requis
Un accès en lecture à la base de données est requis
Pour les grands volumes de données, une conception de requête appropriée est importante

Installation du plugin

Méthode 1 : Déposer le fichier JAR directement

# Téléchargement depuis Maven Central
wget https://repo1.maven.org/maven2/org/codelibs/fess/fess-ds-db/X.X.X/fess-ds-db-X.X.X.jar

# Déploiement
cp fess-ds-db-X.X.X.jar $FESS_HOME/app/WEB-INF/lib/
# ou
cp fess-ds-db-X.X.X.jar /usr/share/fess/app/WEB-INF/lib/

Méthode 2 : Installer depuis l’interface d’administration

Ouvrir « Système » → « Plugins »
Téléverser le fichier JAR
Redémarrer Fess

Installation du pilote JDBC

Placez le pilote JDBC adapté à la base de données cible dans le répertoire app/WEB-INF/lib/ du classpath de Fess :

Une fois le pilote JDBC déposé, redémarrez Fess pour le charger.

Méthode de configuration

Configurez depuis l’interface d’administration : « Crawler » → « DataStore » → « Nouveau ».

Configuration de base

Élément	Exemple de configuration
Nom	Products Database
Nom du handler	DatabaseDataStore
Actif	Oui

Configuration des paramètres

Exemple MySQL/MariaDB :

driver=com.mysql.cj.jdbc.Driver
url=jdbc:mysql://localhost:3306/mydb?useSSL=false&serverTimezone=UTC
username=fess_user
password=your_password
sql=SELECT id, title, content, url, updated_at FROM articles WHERE deleted = 0

Exemple PostgreSQL :

Liste des paramètres

Paramètre	Requis	Description
`driver`	Oui	Nom de classe du pilote JDBC (si absent, une `DataStoreException` est levée)
`url`	Oui	URL de connexion JDBC (obligatoire pour la connexion)
`sql`	Oui	Requête SQL pour la récupération des données (si absente, une `DataStoreException` est levée)
`username`	Non	Nom d’utilisateur de la base de données
`password`	Non	Mot de passe de la base de données
`fetch_size`	Non	Taille de fetch JDBC. Pour le streaming de résultats MySQL, spécifiez `MIN_VALUE`
`default_mimetype`	Non	Type MIME par défaut utilisé lors de l’extraction du contenu des colonnes BLOB/binaires
`column_label.mimetype`	Non	Nom de la colonne contenant le type MIME à utiliser pour l’extraction d’une colonne BLOB/binaire (ex. : `column_label.mimetype=content_type`)
`column_label.filename`	Non	Nom de la colonne contenant le nom de fichier à utiliser pour l’extraction d’une colonne BLOB/binaire (le type MIME est déduit de l’extension)
`info.*`	Non	Propriétés de connexion JDBC supplémentaires (ex. : `info.ssl=true`). La clé sans le préfixe `info.` est transmise au pilote JDBC
`readInterval`	Non	Délai en millisecondes entre le traitement de chaque ligne. Par défaut : 0
`script_type`	Non	Type du moteur de script. Par défaut : groovy

Configuration du script

Mappez les noms de colonnes SQL vers les champs d’index :

Champs disponibles :

<column_name> - Colonnes du résultat de la requête SQL (accès direct par le nom de colonne. Aucun préfixe tel que data. n’est ajouté)

Note

Le nom de colonne doit correspondre au libellé de colonne (alias) de la clause SELECT. Pour les fonctions d’agrégation ou les expressions, utilisez explicitement AS pour définir un alias (ex. : COUNT(*) AS total).

Chargement de données BLOB/binaires

Les colonnes de type BLOB, CLOB, NCLOB, tableau d’octets ou flux binaire sont automatiquement soumises au traitement d’extraction de contenu (le même extracteur que pour le crawl de fichiers) et intégrées sous forme de texte. Les colonnes de type tableau sont converties en chaîne séparée par des espaces. Les valeurs NULL deviennent des chaînes vides.

Pour extraire correctement du texte depuis des BLOB ou des flux binaires, il est nécessaire de déterminer le type de données (type MIME). La priorité de détermination est la suivante :

column_label.mimetype=<nom_de_colonne> - Utilise la valeur de la colonne spécifiée comme type MIME
column_label.filename=<nom_de_colonne> - Traite la valeur de la colonne spécifiée comme un nom de fichier et déduit le type MIME à partir de l’extension
default_mimetype - Type MIME par défaut utilisé si aucune des méthodes ci-dessus ne permet de déterminer le type

Exemple (extraction du BLOB de la colonne file_data en utilisant le type MIME de la colonne content_type) :

Conception des requêtes SQL

Requêtes efficaces

Pour les grands volumes de données, les performances de requête sont importantes. La requête SQL est envoyée telle quelle à la base de données (aucune liaison de paramètres n’est effectuée) :

Exploration incrémentale

Méthode pour récupérer uniquement les enregistrements mis à jour :

Génération d’URL

L’URL du document est générée par le script :

# Modèle fixe
url="https://example.com/article/" + id

# Combinaison de plusieurs champs
url="https://example.com/" + category + "/" + slug

# Utilisation de l'URL stockée dans la base de données
url=url

Prise en charge des caractères multi-octets

Pour traiter des données contenant des caractères multi-octets tels que le japonais :

MySQL

PostgreSQL

PostgreSQL utilise généralement UTF-8 par défaut. Si nécessaire :

Sécurité

Protection des identifiants de base de données

Avertissement

Écrire les mots de passe directement dans les fichiers de configuration présente un risque de sécurité.

Méthodes recommandées :

Utiliser des variables d’environnement
Utiliser la fonctionnalité de chiffrement de Fess
Utiliser un utilisateur en lecture seule

Principe du moindre privilège

Accordez uniquement les privilèges minimum nécessaires à l’utilisateur de la base de données :

Exemples d’utilisation

Recherche de catalogue de produits

Paramètres :

driver=com.mysql.cj.jdbc.Driver
url=jdbc:mysql://localhost:3306/shop
username=fess_user
password=password
sql=SELECT p.id, p.name, p.description, p.price, c.name as category, p.updated_at FROM products p JOIN categories c ON p.category_id = c.id WHERE p.active = 1

Script :

Articles de base de connaissances

Paramètres :

driver=org.postgresql.Driver
url=jdbc:postgresql://localhost:5432/knowledge
username=fess_user
password=password
sql=SELECT id, title, body, tags, author, created_at, updated_at FROM articles WHERE published = true ORDER BY id

Script :

Dépannage

Pilote JDBC introuvable

Symptôme : ClassNotFoundException ou No suitable driver

Solution :

Vérifiez que le pilote JDBC est placé dans lib/
Vérifiez que le nom de classe du pilote est correct
Redémarrez Fess

Erreur de connexion

Symptôme : Connection refused ou erreur d’authentification

Points à vérifier :

La base de données est-elle démarrée ?
Le nom d’hôte et le numéro de port sont-ils corrects ?
Le nom d’utilisateur et le mot de passe sont-ils corrects ?
Configuration du pare-feu

Erreur de requête

Symptôme : SQLException ou erreur de syntaxe SQL

Points à vérifier :

Testez la requête SQL directement sur la base de données
Vérifiez que les noms de colonnes sont corrects
Vérifiez que les noms de tables sont corrects

Informations de référence

Aperçu des connecteurs DataStore - Aperçu des connecteurs DataStore
Connecteur CSV - Connecteur CSV
Connecteur JSON - Connecteur JSON
Crawl de magasin de données - Guide de configuration DataStore
Configuration du robot d’indexation : exploration Web, serveur de fichiers et bases de données - Configuration de base du robot d’indexation
Fonction de recherche - Fonction de recherche