Übersicht
Die WebConfig API dient zur Verwaltung der Web-Crawl-Konfigurationen in Fess. Sie können Einstellungen wie Crawl-Ziel-URLs, Crawl-Tiefe und Ausschlussmuster verwalten.
Basis-URL
Bemerkung
Alle Endpunkte erfordern Administratorrechte und ein gültiges Zugriffstoken. Informationen zur Authentifizierung finden Sie unter Admin API Übersicht.
Endpunktliste
| Methode | Pfad | Beschreibung |
|---|---|---|
| GET | /settings | Web-Crawl-Konfigurationsliste abrufen |
| GET | /setting/{id} | Web-Crawl-Konfiguration abrufen |
| POST | /setting | Web-Crawl-Konfiguration erstellen |
| PUT | /setting | Web-Crawl-Konfiguration aktualisieren |
| DELETE | /setting/{id} | Web-Crawl-Konfiguration löschen |
Web-Crawl-Konfigurationsliste abrufen
Request
Bemerkung
Der Listen-Endpunkt ist neben GET auch über PUT erreichbar.
Parameter
| Parameter | Typ | Erforderlich | Beschreibung |
|---|---|---|---|
page | Integer | Nein | Seitennummer (beginnt bei 1, Standard: 1) |
size | Integer | Nein | Anzahl der Einträge pro Seite (Standard: 25; richtet sich nach der Einstellung paging.page.size) |
name | String | Nein | Filterung nach Konfigurationsname |
urls | String | Nein | Filterung nach Crawl-URL |
description | String | Nein | Filterung nach Beschreibung |
Response
total gibt die Gesamtanzahl der Konfigurationen an, die den Suchkriterien entsprechen.
Web-Crawl-Konfiguration abrufen
Request
Response
Bemerkung
Die Response enthält die vom Server automatisch gesetzten Felder createdBy, createdTime, updatedBy, updatedTime und versionNo. versionNo wird bei der Aktualisierung benötigt (siehe „Web-Crawl-Konfiguration aktualisieren“ weiter unten).
Web-Crawl-Konfiguration erstellen
Request
Request-Body
Feldbeschreibungen
| Feld | Erforderlich | Beschreibung |
|---|---|---|
name | Ja | Konfigurationsname (max. 200 Zeichen) |
description | Nein | Beschreibung der Konfiguration (max. 1000 Zeichen) |
urls | Ja | Crawl-Start-URLs (bei mehreren durch Zeilenumbruch getrennt). Anzugeben mit http: oder https: |
includedUrls | Nein | Regex-Muster für zu crawlende URLs |
excludedUrls | Nein | Regex-Muster für auszuschließende URLs |
includedDocUrls | Nein | Regex-Muster für zu indexierende URLs |
excludedDocUrls | Nein | Regex-Muster für vom Index auszuschließende URLs |
configParameter | Nein | Zusätzliche Konfigurationsparameter (Format key=value, ein Eintrag pro Zeile) |
depth | Nein | Crawl-Tiefe (0 oder größer) |
maxAccessCount | Nein | Maximale Zugriffsanzahl (0 oder größer) |
userAgent | Ja | User-Agent-Zeichenkette (max. 200 Zeichen) |
numOfThread | Ja | Anzahl paralleler Threads (1 oder größer) |
intervalTime | Ja | Zugriffsintervall (Millisekunden, 0 oder größer) |
boost | Ja | Boost-Wert für Suchergebnisse |
available | Ja | Aktiviert/Deaktiviert (Zeichenkette "true" / "false") |
sortOrder | Ja | Anzeigereihenfolge (0 oder größer) |
permissions | Nein | Zugriffsberechtigte Rollen (bei mehreren durch Zeilenumbruch getrennt) |
virtualHosts | Nein | Virtuelle Hosts (bei mehreren durch Zeilenumbruch getrennt) |
Bemerkung
Audit-Felder wie createdBy, createdTime, updatedBy und updatedTime werden serverseitig automatisch gesetzt und müssen nicht im Request-Body angegeben werden.
Response
Web-Crawl-Konfiguration aktualisieren
Request
Request-Body
Bei der Aktualisierung sind neben den Feldern aus der Erstellung zusätzlich id zur Identifikation der Zielkonfiguration und versionNo als Versionsnummer erforderlich. Für versionNo ist der aktuelle Wert aus der Response der Abruf-API (GET) anzugeben.
Zusätzliche Felder bei der Aktualisierung
| Feld | Erforderlich | Beschreibung |
|---|---|---|
id | Ja | Konfigurations-ID der zu aktualisierenden Konfiguration (max. 1000 Zeichen) |
versionNo | Ja | Aktuelle Versionsnummer der zu aktualisierenden Konfiguration. Anzugeben ist der versionNo-Wert aus der Response der Abruf-API (GET) |
Response
Web-Crawl-Konfiguration löschen
Request
Response
URL-Muster-Beispiele
Für includedUrls / excludedUrls / includedDocUrls / excludedDocUrls werden reguläre Ausdrücke angegeben.
| Muster | Beschreibung |
|---|---|
.*example\\.com.* | Alle URLs, die example.com enthalten |
https://example\\.com/docs/.* | Nur unter /docs/ |
.*\\.(pdf|doc|docx)$ | PDF-, DOC-, DOCX-Dateien |
.*\\?.* | URLs mit Query-Parametern |
.*/(login|logout|admin)/.* | URLs mit bestimmten Pfaden |
Verwendungsbeispiele
Crawl-Konfiguration für Unternehmenswebsite
Crawl-Konfiguration für Dokumentationswebsite
Referenzinformationen
Admin API Übersicht - Admin API Übersicht
FileConfig API - Datei-Crawl-Konfiguration API
DataConfig API - Datenspeicher-Konfiguration API
Web-Crawl - Web-Crawl-Konfigurationsanleitung