Teil 4 Verstreute Dateien zentral durchsuchen – Quellenuebergreifende Suche in Multi-Source-Umgebungen

Einfuehrung

Im vorherigen Teil haben wir gezeigt, wie Sie die Suchfunktion von Fess in eine bestehende Website integrieren koennen. In der Praxis sind Informationen in Unternehmen jedoch nicht nur auf Websites zu finden, sondern verteilen sich auf Dateiserver, Cloud-Speicher und viele weitere Speicherorte.

In diesem Artikel bauen wir eine Umgebung auf, in der mehrere Datenquellen in Fess integriert werden und Benutzer ueber ein einziges Suchfeld alle Dokumente quellenuebergreifend durchsuchen koennen.

Zielgruppe

Personen, deren interne Dokumente an mehreren Orten verteilt sind
Personen, die mit der Suche auf Dateiservern oder in Cloud-Speichern unzufrieden sind
Voraussetzung: Fess ist bereits gemaess der Anleitung aus Teil 2 gestartet

Szenario

Wir gehen von einem mittelstaendischen Unternehmen aus. In diesem Unternehmen sind Dokumente an folgenden Orten verstreut:

Interne Website: Internes Portal, interner Blog
Dateiserver: Gemeinsame Ordner pro Abteilung (SMB/CIFS)
Lokale Dateien: Bestimmte Verzeichnisse auf dem Server

Wenn Mitarbeiter sich fragen: „Wo war dieses Dokument nochmal?“, muessen sie jedes Tool einzeln durchsuchen. Mit Fess zentralisieren wir diese Suche, sodass alle Quellen ueber ein einziges Suchfeld durchsucht werden koennen.

Entwurf der Datenquellen

Beim Aufbau einer quellenuebergreifenden Suche ist der erste wichtige Schritt die Planung: „Was soll wie in den Suchindex aufgenommen werden?“

Uebersicht der Suchobjekte

Zunaechst verschaffen wir uns einen Ueberblick ueber die Datenquellen, die in die Suche einbezogen werden sollen.

Uebersicht der Datenquellen
Datenquelle	Art	Geschaetzter Umfang	Aktualisierungshaeufigkeit
Internes Portal	Web-Crawling	Einige hundert Seiten	Woechentlich
Technischer Blog	Web-Crawling	Einige Dutzend bis hundert Seiten	Unregelmaessig
Gemeinsame Ordner	Datei-Crawling	Zehntausende Dateien	Taeglich
Archiv	Datei-Crawling	Einige tausend Dateien	Monatlich

Klassifikation durch Labels

Mit der Label-Funktion von Fess koennen Sie Suchobjekte in Kategorien einteilen. Benutzer koennen bei der Suche ein Label auswaehlen, um die Ergebnisse auf eine bestimmte Kategorie einzuschraenken.

In unserem Szenario richten wir folgende Labels ein:

Portal: Informationen aus dem internen Portal und Blog
Gemeinsame Dateien: Dokumente auf dem Dateiserver
Archiv: Aeltere Unterlagen

Konfiguration der Labels

Waehlen Sie in der Verwaltungsoberflaeche [Crawler] > [Labels]
Erstellen Sie ein Label mit [Neu erstellen]

Fuer jedes Label legen Sie einen „Namen“ und einen „Wert“ fest. Der Wert wird in alphanumerischen Zeichen angegeben und dient zur Verknuepfung mit der Crawl-Konfiguration.

Aufbau der Crawl-Konfiguration

Web-Crawl-Konfiguration

Dies ist die Crawl-Konfiguration fuer das interne Portal.

[Crawler] > [Web] > [Neu erstellen]
Folgende Einstellungen vornehmen:
- URL: https://portal.example.com/
- Einzuschliessende URLs: https://portal.example.com/.*
- Auszuschliessende URLs: https://portal.example.com/admin/.*
- Maximale Zugriffe: 500
- Threads: 3
- Intervall: 5000
- Label: Portal
Klicken Sie auf [Erstellen]

Durch die Konfiguration auszuschliessender URLs koennen Sie Seiten wie Verwaltungsoberflaechen von der Suche ausschliessen.

Datei-Crawl-Konfiguration

Dies ist die Crawl-Konfiguration fuer die gemeinsamen Ordner.

[Crawler] > [Dateisystem] > [Neu erstellen]
Folgende Einstellungen vornehmen:
- Pfad: smb://fileserver.example.com/shared/
- Einzuschliessende Pfade: smb://fileserver.example.com/shared/.*
- Auszuschliessende Pfade: .*\\.tmp$
- Maximale Zugriffe: 10000
- Threads: 5
- Intervall: 1000
- Label: Gemeinsame Dateien
Klicken Sie auf [Erstellen]

SMB-Authentifizierung konfigurieren

Wenn der Dateiserver eine Authentifizierung erfordert, muss die Dateiauthentifizierung konfiguriert werden.

[Crawler] > [Dateiauthentifizierung] > [Neu erstellen]
Folgende Einstellungen vornehmen:
- Hostname: fileserver.example.com
- Schema: Samba
- Benutzername: Benutzername des Dienstkontos
- Passwort: Passwort des Dienstkontos
Klicken Sie auf [Erstellen]

Crawling lokaler Dateien

Um ein bestimmtes Verzeichnis auf dem Server zu crawlen, geben Sie den Dateipfad direkt an.

[Crawler] > [Dateisystem] > [Neu erstellen]
Folgende Einstellungen vornehmen:
- Pfad: file:///data/archive/
- Einzuschliessende Pfade: file:///data/archive/.*
- Auszuschliessende Pfade: .*\\.(log|bak)$
- Maximale Zugriffe: 5000
- Label: Archiv
Klicken Sie auf [Erstellen]

Planung des Crawl-Zeitplans

Beim Crawling mehrerer Datenquellen ist die Zeitplanung besonders wichtig. Wenn alle Crawl-Vorgaenge gleichzeitig ausgefuehrt werden, belastet dies sowohl die Serverressourcen als auch die Zielsysteme erheblich.

Verteilung des Zeitplans

Verteilen Sie die Crawl-Zeitplaene entsprechend der Aktualisierungshaeufigkeit der Datenquellen.

Beispiel fuer einen Crawl-Zeitplan
Datenquelle	Ausfuehrungszeitpunkt	Begruendung
Internes Portal	Taeglich um 2:00 Uhr	Geringe Seitenzahl, daher schnell abgeschlossen
Gemeinsame Ordner	Taeglich um 3:00 Uhr	Hohe Dateianzahl, daher Ausfuehrung in der Nacht
Archiv	Jeden Sonntag um 4:00 Uhr	Geringe Aktualisierungshaeufigkeit, woechentlich ausreichend

Scheduler-Konfiguration

Ueber [System] > [Scheduler] in der Verwaltungsoberflaeche koennen Sie den Ausfuehrungszeitpunkt der Crawl-Jobs festlegen. Der Standard-Job „Default Crawler“ fuehrt alle Crawl-Konfigurationen gebuendelt aus.

Pfad-Mapping fuer benutzerfreundliche Suchergebnisse

Die gecrawlten URLs und Dateipfade koennen fuer Benutzer schwer verstaendlich sein. Mit dem Pfad-Mapping koennen Sie die in den Suchergebnissen angezeigten URLs umwandeln.

Konfigurationsbeispiel

Wandeln Sie die Dateipfade des Dateiservers in URLs um, ueber die Benutzer direkt im Browser zugreifen koennen.

[Crawler] > [Pfad-Mapping] > [Neu erstellen]
Folgende Einstellungen vornehmen:
- Regulaerer Ausdruck: smb://fileserver.example.com/shared/(.*)
- Ersetzung: https://fileserver.example.com/shared/$1

Dadurch koennen Benutzer auf einen Link in den Suchergebnissen klicken und direkt im Browser auf die Datei zugreifen.

Nutzung der quellenuebergreifenden Suche

Eingrenzung durch Labels

Sobald das Crawling abgeschlossen ist, koennen Sie die quellenuebergreifende Suche auf der Suchoberflaeche ausprobieren.

Auf der Suchoberflaeche werden Tabs oder Dropdown-Menues fuer die Labels angezeigt. Benutzer koennen „Alle“ waehlen, um quellenuebergreifend zu suchen, oder ein bestimmtes Label auswaehlen, um die Suche auf diese Kategorie einzuschraenken.

Wenn Sie beispielsweise nach „Projektplan“ suchen, werden Ergebnisse aus Portal-Artikeln, Word-Dateien im gemeinsamen Ordner und PDFs im Archiv gemischt angezeigt. Durch die Eingrenzung auf das Label „Gemeinsame Dateien“ koennen Sie die Ergebnisse auf Dokumente im Dateiserver beschraenken.

Sortierung der Suchergebnisse

Standardmaessig werden die Ergebnisse nach Relevanz (Score) zum Suchbegriff sortiert. Unabhaengig von der Art der Datenquelle werden die relevantesten Dokumente zuerst angezeigt.

Zusammenfassung

In diesem Artikel haben wir mehrere Datenquellen in Fess integriert und eine quellenuebergreifende Suchumgebung aufgebaut.

Crawl-Konfiguration fuer drei Typen: Websites, Dateiserver und lokale Dateien
Kategorisierung durch Labels und Eingrenzung der Suche
Verteilte Planung der Crawl-Zeitplaene
URL-Umwandlung durch Pfad-Mapping

Durch die Einfuehrung der quellenuebergreifenden Suche koennen Benutzer die benoetigten Informationen finden, ohne sich Gedanken darueber machen zu muessen, wo sie gespeichert sind.

Im naechsten Teil behandeln wir die rollenbasierte Suche, bei der Suchergebnisse entsprechend den Berechtigungen der einzelnen Abteilungen gesteuert werden.