Übersicht
Die WebConfig API dient zur Verwaltung der Web-Crawl-Konfiguration in Fess. Sie können Einstellungen wie Crawl-Ziel-URLs, Crawl-Tiefe und Ausschlussmuster verwalten.
Basis-URL
Endpunktliste
| Methode | Pfad | Beschreibung |
|---|---|---|
| GET/PUT | /settings | Web-Crawl-Konfigurationsliste abrufen |
| GET | /setting/{id} | Web-Crawl-Konfiguration abrufen |
| POST | /setting | Web-Crawl-Konfiguration erstellen |
| PUT | /setting | Web-Crawl-Konfiguration aktualisieren |
| DELETE | /setting/{id} | Web-Crawl-Konfiguration löschen |
Web-Crawl-Konfigurationsliste abrufen
Request
Parameter
| Parameter | Typ | Erforderlich | Beschreibung |
|---|---|---|---|
size | Integer | Nein | Anzahl der Einträge pro Seite (Standard: 20) |
page | Integer | Nein | Seitennummer (beginnt bei 0) |
Response
Web-Crawl-Konfiguration abrufen
Request
Response
Web-Crawl-Konfiguration erstellen
Request
Request-Body
Feldbeschreibungen
| Feld | Erforderlich | Beschreibung |
|---|---|---|
name | Ja | Konfigurationsname |
urls | Ja | Crawl-Start-URLs (bei mehreren durch Zeilenumbruch getrennt) |
includedUrls | Nein | Regex-Muster für zu crawlende URLs |
excludedUrls | Nein | Regex-Muster für auszuschließende URLs |
includedDocUrls | Nein | Regex-Muster für zu indexierende URLs |
excludedDocUrls | Nein | Regex-Muster für vom Index auszuschließende URLs |
configParameter | Nein | Zusätzliche Konfigurationsparameter |
depth | Nein | Crawl-Tiefe (Standard: -1=unbegrenzt) |
maxAccessCount | Nein | Maximale Zugriffsanzahl (Standard: 100) |
userAgent | Nein | Benutzerdefinierter User-Agent |
numOfThread | Nein | Anzahl paralleler Threads (Standard: 1) |
intervalTime | Nein | Anfrage-Intervall (Millisekunden, Standard: 0) |
boost | Nein | Boost-Wert für Suchergebnisse (Standard: 1.0) |
available | Nein | Aktiviert/Deaktiviert (Standard: true) |
sortOrder | Nein | Anzeigereihenfolge |
permissions | Nein | Zugriffsberechtigte Rollen |
virtualHosts | Nein | Virtuelle Hosts |
labelTypeIds | Nein | Label-Typ-IDs |
Response
Web-Crawl-Konfiguration aktualisieren
Request
Request-Body
Response
Web-Crawl-Konfiguration löschen
Request
Response
URL-Muster-Beispiele
includedUrls / excludedUrls
| Muster | Beschreibung |
|---|---|
.*example\\.com.* | Alle URLs, die example.com enthalten |
https://example\\.com/docs/.* | Nur unter /docs/ |
.*\\.(pdf|doc|docx)$ | PDF-, DOC-, DOCX-Dateien |
.*\\?.* | URLs mit Query-Parametern |
.*/(login|logout|admin)/.* | URLs mit bestimmten Pfaden |
Verwendungsbeispiele
Crawl-Konfiguration für Unternehmenswebsite
Crawl-Konfiguration für Dokumentationswebsite
Referenzinformationen
Admin API Übersicht - Admin API Übersicht
FileConfig API - Datei-Crawl-Konfiguration API
DataConfig API - Datenspeicher-Konfiguration API
Web-Crawl - Web-Crawl-Konfigurationsanleitung