Vue d’ensemble
L’API FailureUrl permet de gerer les URLs en echec lors du crawl de Fess. Vous pouvez obtenir la liste des URLs ayant provoque une erreur pendant le crawl, les consulter individuellement, les supprimer, etc.
URL de base
Liste des endpoints
| Methode | Chemin | Description |
|---|---|---|
| GET | /logs | Obtention de la liste des URLs en echec |
| GET | /log/{id} | Obtention d’une URL en echec |
| DELETE | /log/{id} | Suppression d’une URL en echec |
| DELETE | /all | Suppression de toutes les URLs en echec |
Obtention de la liste des URLs en echec
Requete
Parametres
| Parametre | Type | Requis | Description |
|---|---|---|---|
size | Integer | Non | Nombre d’elements par page (defaut : 20) |
page | Integer | Non | Numero de page (commence a 1, defaut : 1) |
url | String | Non | Filtre par URL (les caracteres generiques * ? sont supportes) |
errorCountMin | Integer | Non | Borne inferieure du nombre d’erreurs (superieur ou egal a la valeur specifiee) |
errorCountMax | Integer | Non | Borne superieure du nombre d’erreurs (inferieur ou egal a la valeur specifiee) |
errorName | String | Non | Filtre par nom d’erreur (correspondance avec caracteres generiques sur le nom de classe complet stocke ; * ? supportes) |
Reponse
Champs de la reponse
| Champ | Description |
|---|---|
id | ID de l’URL en echec |
url | URL en echec |
threadName | Nom du thread |
errorName | Nom de l’erreur (nom de classe complet de l’exception survenue ; ex. java.net.ConnectException) |
errorLog | Journal d’erreur (message de l’exception ou trace de la pile) |
errorCount | Nombre d’occurrences de l’erreur (valeur numerique sous forme de chaine) |
lastAccessTime | Heure du dernier acces (millisecondes epoch sous forme de chaine) |
configId | ID de la configuration de crawl |
Note
Tous les champs de la reponse sont retournes sous forme de chaines (JSON string). errorCount est une valeur numerique representee sous forme de chaine, et lastAccessTime est le nombre de millisecondes epoch represente sous forme de chaine.
Obtention d’une URL en echec
Requete
Reponse
Suppression d’une URL en echec
Requete
Reponse
Suppression de toutes les URLs en echec
Supprime toutes les URLs en echec. Cette operation ne prend aucun parametre.
Requete
Reponse
Types d’erreurs
errorName contient le nom de classe complet de l’exception survenue pendant le crawl, tel qu’il a ete capture. Il ne s’agit pas d’une enumeration fixe ; tout nom de classe peut apparaitre selon l’exception levee. Voici quelques exemples representatifs.
| Nom de l’erreur (exemple) | Description |
|---|---|
java.net.ConnectException | Connexion refusee (impossible de se connecter au serveur) |
java.net.UnknownHostException | Nom d’hote impossible a resoudre (erreur DNS) |
java.net.SocketTimeoutException | Delai de connexion ou de lecture depasse |
javax.net.ssl.SSLException | Erreur de negociation SSL/TLS ou de certificat |
java.io.IOException | Erreur d’entree/sortie |
org.codelibs.fess.exception.ContentNotFoundException | URL ayant retourne un code de statut HTTP configure dans crawler.failure.url.status.codes (defaut : 403, 404, 410) |
org.codelibs.fess.crawler.exception.MaxLengthExceededException | Le contenu a depasse la longueur maximale autorisee |
Exemples d’utilisation
Obtention de la liste des URLs en echec
Filtrage par nombre d’erreurs
Filtrage par nom d’erreur
Obtention d’une URL en echec
Suppression d’une URL en echec
Suppression de toutes les URLs en echec
Agregation par type d’erreur
Informations complementaires
Vue d’ensemble de l’API Admin - Vue d’ensemble de l’API Admin
API CrawlingInfo - API des informations de crawl
API JobLog - API des journaux de taches
Présentation - Guide de gestion des URLs en echec