Vue d’ensemble
L’API FailureUrl permet de gerer les URLs en echec de crawl dans Fess. Vous pouvez consulter et supprimer les URLs qui ont genere des erreurs pendant le crawl.
URL de base
/api/admin/failureurl
Liste des endpoints
| Methode | Chemin | Description |
|---|---|---|
| GET | / | Obtention de la liste des URLs en echec |
| DELETE | /{id} | Suppression d’une URL en echec |
| DELETE | /delete-all | Suppression de toutes les URLs en echec |
Obtention de la liste des URLs en echec
Requete
GET /api/admin/failureurl
Parametres
Reponse
{
"response": {
"status": 0,
"failures": [
{
"id": "failure_id_1",
"url": "https://example.com/broken-page",
"configId": "webconfig_id_1",
"errorName": "ConnectException",
"errorLog": "Connection refused: connect",
"errorCount": 3,
"lastAccessTime": "2025-01-29T10:00:00Z",
"threadName": "Crawler-1"
},
{
"id": "failure_id_2",
"url": "https://example.com/not-found",
"configId": "webconfig_id_1",
"errorName": "HttpStatusException",
"errorLog": "404 Not Found",
"errorCount": 1,
"lastAccessTime": "2025-01-29T09:30:00Z",
"threadName": "Crawler-2"
}
],
"total": 45
}
}
Champs de la reponse
| Champ | Description |
|---|---|
id | ID de l’URL en echec |
url | URL en echec |
configId | ID de la configuration de crawl |
errorName | Nom de l’erreur |
errorLog | Journal de l’erreur |
errorCount | Nombre d’occurrences de l’erreur |
lastAccessTime | Dernier temps d’acces |
threadName | Nom du thread |
Suppression d’une URL en echec
Requete
DELETE /api/admin/failureurl/{id}
Reponse
{
"response": {
"status": 0,
"message": "Failure URL deleted successfully"
}
}
Suppression de toutes les URLs en echec
Requete
DELETE /api/admin/failureurl/delete-all
Parametres
Reponse
{
"response": {
"status": 0,
"message": "All failure URLs deleted successfully",
"deletedCount": 45
}
}
Types d’erreurs
| Nom de l’erreur | Description |
|---|---|
ConnectException | Erreur de connexion |
HttpStatusException | Erreur de statut HTTP (404, 500, etc.) |
SocketTimeoutException | Erreur de delai d’attente |
UnknownHostException | Erreur de resolution du nom d’hote |
SSLException | Erreur de certificat SSL |
IOException | Erreur d’entree/sortie |
Exemples d’utilisation
Obtention de la liste des URLs en echec
curl -X GET "http://localhost:8080/api/admin/failureurl?size=100&page=0" \
-H "Authorization: Bearer YOUR_TOKEN"
Filtrage par nombre d’erreurs
# Obtenir uniquement les URLs avec 3 erreurs ou plus
curl -X GET "http://localhost:8080/api/admin/failureurl?errorCountMin=3" \
-H "Authorization: Bearer YOUR_TOKEN"
Obtention des URLs en echec d’une configuration specifique
curl -X GET "http://localhost:8080/api/admin/failureurl?configId=webconfig_id_1" \
-H "Authorization: Bearer YOUR_TOKEN"
Suppression d’une URL en echec
curl -X DELETE "http://localhost:8080/api/admin/failureurl/failure_id_1" \
-H "Authorization: Bearer YOUR_TOKEN"
Suppression de toutes les URLs en echec
# Supprimer toutes les URLs en echec
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all" \
-H "Authorization: Bearer YOUR_TOKEN"
# Supprimer uniquement les URLs en echec d'une configuration specifique
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all?configId=webconfig_id_1" \
-H "Authorization: Bearer YOUR_TOKEN"
# Supprimer uniquement les URLs avec 3 erreurs ou plus
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all?errorCountMin=3" \
-H "Authorization: Bearer YOUR_TOKEN"
Agregation par type d’erreur
# Compter par type d'erreur
curl -X GET "http://localhost:8080/api/admin/failureurl?size=1000" \
-H "Authorization: Bearer YOUR_TOKEN" | \
jq '[.response.failures[].errorName] | group_by(.) | map({error: .[0], count: length})'
Informations complementaires
Vue d’ensemble de l’API Admin - Vue d’ensemble de l’API Admin
API CrawlingInfo - API des informations de crawl
API JobLog - API des journaux de taches
Présentation - Guide de gestion des URLs en echec