Übersicht
Die FailureUrl API dient zur Verwaltung von fehlgeschlagenen Crawl-URLs in Fess. Sie können URLs, bei denen während des Crawlings ein Fehler aufgetreten ist, auflisten, einzeln abrufen und löschen.
Basis-URL
Endpunktliste
| Methode | Pfad | Beschreibung |
|---|---|---|
| GET | /logs | Fehlgeschlagene URLs auflisten |
| GET | /log/{id} | Fehlgeschlagene URL abrufen |
| DELETE | /log/{id} | Fehlgeschlagene URL löschen |
| DELETE | /all | Alle fehlgeschlagenen URLs löschen |
Fehlgeschlagene URLs auflisten
Request
Parameter
| Parameter | Typ | Erforderlich | Beschreibung |
|---|---|---|---|
size | Integer | Nein | Anzahl der Einträge pro Seite (Standard: 20) |
page | Integer | Nein | Seitennummer (beginnt bei 1, Standard: 1) |
url | String | Nein | URL-Filter (Wildcards * ? werden unterstützt) |
errorCountMin | Integer | Nein | Untergrenze für die Fehleranzahl (größer als oder gleich dem angegebenen Wert) |
errorCountMax | Integer | Nein | Obergrenze für die Fehleranzahl (kleiner als oder gleich dem angegebenen Wert) |
errorName | String | Nein | Fehlername-Filter (Wildcard-Abgleich mit dem gespeicherten vollständig qualifizierten Klassennamen; * ? werden unterstützt) |
Response
Response-Felder
| Feld | Beschreibung |
|---|---|
id | Fehlgeschlagene-URL-ID |
url | Die fehlgeschlagene URL |
threadName | Thread-Name |
errorName | Fehlername (vollständig qualifizierter Klassenname der aufgetretenen Ausnahme; z. B. java.net.ConnectException) |
errorLog | Fehlerprotokoll (Ausnahme-Meldung oder Stack-Trace) |
errorCount | Anzahl der aufgetretenen Fehler (numerischer Wert als Zeichenkette) |
lastAccessTime | Letzte Zugriffszeit (Epoch-Millisekunden als Zeichenkette) |
configId | Crawl-Konfigurations-ID |
Bemerkung
Alle Antwortfelder werden als Zeichenketten (JSON string) zurückgegeben. errorCount ist ein numerischer Wert, der als Zeichenkette dargestellt wird, und lastAccessTime sind Epoch-Millisekunden, die als Zeichenkette dargestellt werden.
Fehlgeschlagene URL abrufen
Request
Response
Fehlgeschlagene URL löschen
Request
Response
Alle fehlgeschlagenen URLs löschen
Löscht alle fehlgeschlagenen URLs. Es gibt keine Parameter.
Request
Response
Fehlertypen
errorName speichert den vollständig qualifizierten Klassennamen der Ausnahme, die während des Crawlings aufgetreten ist, genau so wie er erfasst wurde. Es handelt sich nicht um eine feste Aufzählung; je nach ausgelöster Ausnahme kann ein beliebiger Klassenname erscheinen. Im Folgenden sind repräsentative Beispiele aufgeführt.
| Fehlername (Beispiel) | Beschreibung |
|---|---|
java.net.ConnectException | Verbindung verweigert (keine Verbindung zum Server möglich) |
java.net.UnknownHostException | Hostname konnte nicht aufgelöst werden (DNS-Fehler) |
java.net.SocketTimeoutException | Verbindungs- oder Lese-Timeout |
javax.net.ssl.SSLException | SSL/TLS-Handshake- oder Zertifikatsfehler |
java.io.IOException | Ein-/Ausgabefehler |
org.codelibs.fess.exception.ContentNotFoundException | URL, die einen HTTP-Statuscode zurückgegeben hat, der in crawler.failure.url.status.codes konfiguriert ist (Standard: 403, 404, 410) |
org.codelibs.fess.crawler.exception.MaxLengthExceededException | Inhalt hat die maximale Länge überschritten |
Verwendungsbeispiele
Fehlgeschlagene URLs auflisten
Nach Fehleranzahl filtern
Nach Fehlername filtern
Fehlgeschlagene URL abrufen
Fehlgeschlagene URL löschen
Alle fehlgeschlagenen URLs löschen
Nach Fehlertyp aggregieren
Referenzinformationen
Admin API Übersicht - Admin API Übersicht
CrawlingInfo API - Crawl-Informationen API
JobLog API - Job-Protokoll API
Fehler-URLs - Fehlgeschlagene URLs Verwaltungsanleitung