Übersicht
Die CrawlingInfo API dient zum Abrufen von Crawl-Informationen in Fess. Sie können den Status von Crawl-Sitzungen, Fortschritt und statistische Informationen einsehen.
Basis-URL
/api/admin/crawlinginfo
Endpunktliste
| Methode | Pfad | Beschreibung |
|---|---|---|
| GET | / | Crawl-Informationsliste abrufen |
| GET | /{sessionId} | Crawl-Sitzungsdetails abrufen |
| DELETE | /{sessionId} | Crawl-Sitzung löschen |
Crawl-Informationsliste abrufen
Request
GET /api/admin/crawlinginfo
Parameter
| Parameter | Typ | Erforderlich | Beschreibung |
|---|---|---|---|
size | Integer | Nein | Anzahl der Einträge pro Seite (Standard: 20) |
page | Integer | Nein | Seitennummer (beginnt bei 0) |
Response
{
"response": {
"status": 0,
"sessions": [
{
"sessionId": "session_20250129_100000",
"name": "Default Crawler",
"status": "running",
"startTime": "2025-01-29T10:00:00Z",
"endTime": null,
"crawlingInfoCount": 567,
"createdDocCount": 234,
"updatedDocCount": 123,
"deletedDocCount": 12
},
{
"sessionId": "session_20250128_100000",
"name": "Default Crawler",
"status": "completed",
"startTime": "2025-01-28T10:00:00Z",
"endTime": "2025-01-28T10:45:23Z",
"crawlingInfoCount": 1234,
"createdDocCount": 456,
"updatedDocCount": 678,
"deletedDocCount": 23
}
],
"total": 10
}
}
Response-Felder
| Feld | Beschreibung |
|---|---|
sessionId | Sitzungs-ID |
name | Crawler-Name |
status | Status (running/completed/failed) |
startTime | Startzeit |
endTime | Endzeit |
crawlingInfoCount | Anzahl der Crawl-Informationen |
createdDocCount | Anzahl erstellter Dokumente |
updatedDocCount | Anzahl aktualisierter Dokumente |
deletedDocCount | Anzahl gelöschter Dokumente |
Crawl-Sitzungsdetails abrufen
Request
GET /api/admin/crawlinginfo/{sessionId}
Response
{
"response": {
"status": 0,
"session": {
"sessionId": "session_20250129_100000",
"name": "Default Crawler",
"status": "running",
"startTime": "2025-01-29T10:00:00Z",
"endTime": null,
"crawlingInfoCount": 567,
"createdDocCount": 234,
"updatedDocCount": 123,
"deletedDocCount": 12,
"infos": [
{
"url": "https://example.com/page1",
"status": "OK",
"method": "GET",
"httpStatusCode": 200,
"contentLength": 12345,
"executionTime": 123,
"lastModified": "2025-01-29T09:55:00Z"
}
]
}
}
}
Crawl-Sitzung löschen
Request
DELETE /api/admin/crawlinginfo/{sessionId}
Response
{
"response": {
"status": 0,
"message": "Crawling session deleted successfully"
}
}
Verwendungsbeispiele
Crawl-Informationsliste abrufen
curl -X GET "http://localhost:8080/api/admin/crawlinginfo?size=50&page=0" \
-H "Authorization: Bearer YOUR_TOKEN"
Laufende Crawl-Sitzungen abrufen
# Alle Sitzungen abrufen und nach running filtern
curl -X GET "http://localhost:8080/api/admin/crawlinginfo" \
-H "Authorization: Bearer YOUR_TOKEN" | jq '.response.sessions[] | select(.status=="running")'
Details einer bestimmten Sitzung abrufen
curl -X GET "http://localhost:8080/api/admin/crawlinginfo/session_20250129_100000" \
-H "Authorization: Bearer YOUR_TOKEN"
Alte Sitzung löschen
curl -X DELETE "http://localhost:8080/api/admin/crawlinginfo/session_20250101_100000" \
-H "Authorization: Bearer YOUR_TOKEN"
Fortschritt überwachen
# Fortschritt der laufenden Sitzung regelmäßig prüfen
while true; do
curl -s "http://localhost:8080/api/admin/crawlinginfo" \
-H "Authorization: Bearer YOUR_TOKEN" | \
jq '.response.sessions[] | select(.status=="running") | {sessionId, crawlingInfoCount, createdDocCount}'
sleep 10
done
Referenzinformationen
Admin API Übersicht - Admin API Übersicht
FailureUrl API - Fehlgeschlagene URLs API
JobLog API - Job-Protokoll API
Crawl-Informationen - Crawl-Informationen Anleitung