API FailureUrl

Vue d’ensemble

L’API FailureUrl permet de gerer les URLs en echec de crawl dans Fess. Vous pouvez consulter et supprimer les URLs qui ont genere des erreurs pendant le crawl.

URL de base

/api/admin/failureurl

Liste des endpoints

Methode Chemin Description
GET / Obtention de la liste des URLs en echec
DELETE /{id} Suppression d’une URL en echec
DELETE /delete-all Suppression de toutes les URLs en echec

Obtention de la liste des URLs en echec

Requete

GET /api/admin/failureurl

Parametres

Parametre Type Requis Description
size Integer Non Nombre d’elements par page (par defaut : 20)
page Integer Non Numero de page (commence a 0)
errorCountMin Integer Non Filtre par nombre minimum d’erreurs
configId String Non Filtre par ID de configuration

Reponse

{
  "response": {
    "status": 0,
    "failures": [
      {
        "id": "failure_id_1",
        "url": "https://example.com/broken-page",
        "configId": "webconfig_id_1",
        "errorName": "ConnectException",
        "errorLog": "Connection refused: connect",
        "errorCount": 3,
        "lastAccessTime": "2025-01-29T10:00:00Z",
        "threadName": "Crawler-1"
      },
      {
        "id": "failure_id_2",
        "url": "https://example.com/not-found",
        "configId": "webconfig_id_1",
        "errorName": "HttpStatusException",
        "errorLog": "404 Not Found",
        "errorCount": 1,
        "lastAccessTime": "2025-01-29T09:30:00Z",
        "threadName": "Crawler-2"
      }
    ],
    "total": 45
  }
}

Champs de la reponse

Champ Description
id ID de l’URL en echec
url URL en echec
configId ID de la configuration de crawl
errorName Nom de l’erreur
errorLog Journal de l’erreur
errorCount Nombre d’occurrences de l’erreur
lastAccessTime Dernier temps d’acces
threadName Nom du thread

Suppression d’une URL en echec

Requete

DELETE /api/admin/failureurl/{id}

Reponse

{
  "response": {
    "status": 0,
    "message": "Failure URL deleted successfully"
  }
}

Suppression de toutes les URLs en echec

Requete

DELETE /api/admin/failureurl/delete-all

Parametres

Parametre Type Requis Description
configId String Non Supprimer uniquement les URLs en echec de cette configuration
errorCountMin Integer Non Supprimer uniquement les erreurs avec ce nombre minimum

Reponse

{
  "response": {
    "status": 0,
    "message": "All failure URLs deleted successfully",
    "deletedCount": 45
  }
}

Types d’erreurs

Nom de l’erreur Description
ConnectException Erreur de connexion
HttpStatusException Erreur de statut HTTP (404, 500, etc.)
SocketTimeoutException Erreur de delai d’attente
UnknownHostException Erreur de resolution du nom d’hote
SSLException Erreur de certificat SSL
IOException Erreur d’entree/sortie

Exemples d’utilisation

Obtention de la liste des URLs en echec

curl -X GET "http://localhost:8080/api/admin/failureurl?size=100&page=0" \
     -H "Authorization: Bearer YOUR_TOKEN"

Filtrage par nombre d’erreurs

# Obtenir uniquement les URLs avec 3 erreurs ou plus
curl -X GET "http://localhost:8080/api/admin/failureurl?errorCountMin=3" \
     -H "Authorization: Bearer YOUR_TOKEN"

Obtention des URLs en echec d’une configuration specifique

curl -X GET "http://localhost:8080/api/admin/failureurl?configId=webconfig_id_1" \
     -H "Authorization: Bearer YOUR_TOKEN"

Suppression d’une URL en echec

curl -X DELETE "http://localhost:8080/api/admin/failureurl/failure_id_1" \
     -H "Authorization: Bearer YOUR_TOKEN"

Suppression de toutes les URLs en echec

# Supprimer toutes les URLs en echec
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all" \
     -H "Authorization: Bearer YOUR_TOKEN"

# Supprimer uniquement les URLs en echec d'une configuration specifique
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all?configId=webconfig_id_1" \
     -H "Authorization: Bearer YOUR_TOKEN"

# Supprimer uniquement les URLs avec 3 erreurs ou plus
curl -X DELETE "http://localhost:8080/api/admin/failureurl/delete-all?errorCountMin=3" \
     -H "Authorization: Bearer YOUR_TOKEN"

Agregation par type d’erreur

# Compter par type d'erreur
curl -X GET "http://localhost:8080/api/admin/failureurl?size=1000" \
     -H "Authorization: Bearer YOUR_TOKEN" | \
     jq '[.response.failures[].errorName] | group_by(.) | map({error: .[0], count: length})'

Informations complementaires