Daten hochladen & verwenden

Erstellt von Johannes Eberhard, Geändert am Di, 4 Feb, 2025 um 4:14 NACHMITTAGS von Ivan Dukic

Der „Daten“-Bereich im Localmind Cockpit ist ein zentraler Ort für die Verwaltung und Organisation von Informationen, die Ihren Coworkern als Wissensbasis dienen. Hier können Sie Ordner anlegen, Dokumente hochladen und Webseiten scrapen, um eine umfassende Informationsgrundlage für Ihre KI-Assistenten zu schaffen.

Anlegen neuer Datenpools

In der Navigationsleiste den Punkt „Daten“ klicken

Das „Plus-Symbol“ in der rechten oberen Ecke wählen, um einen neuen Datenpool anzulegen.

Mit einem Klick auf „Erweiterte Einstellungen“ öffnen sich zusätzliche Konfigurationsoptionen.

Organisation auswählen: Wählen Sie aus dem Dropdown-Menü die entsprechende Organisation aus (im Beispiel „Standard“).
Benutzergruppen festlegen: Wählen Sie eine oder mehrere Benutzergruppen aus, die Zugriff auf diesen Ordner haben sollen. Im Screenshot sind „Sales“ und „Marketing“ ausgewählt, während „R&D“ nicht markiert ist. Im Beispiel „default“.
Ordnername vergeben: Geben Sie dem Ordner einen aussagekräftigen Namen. Im Beispiel wurde „Finanzen“ eingetragen.
Tags hinzufügen (optional): Sie haben die Möglichkeit, Tags hinzuzufügen, um den Ordner besser zu kategorisieren oder zu organisieren.
Top K (maximale Resultate) festlegen: Legen Sie fest, wie viele maximale Resultate bei Suchanfragen in diesem Datenpool zurückgegeben werden sollen. Im Beispiel (und als Standard) ist der Wert auf 5 gesetzt. Das bedeutet, dass die KI die 5 relevantesten Dokumentenschnipsel (=Chunks) aus den Daten auswählen wird, wenn dieser Datenpool als Wissen in einen Coworker integriert wurde. Tipp: Bei Datenpools mit vielen Dokumentenchunks kann der Top K Wert leicht erhöht werden (z.B. 8 oder 10), damit die KI mehr Daten zur Beantwortung einer Nutzeranfrage erhält.
Chunk-Größe definieren: Bestimmen Sie die Größe der Textabschnitte (als Zeichenlänge), in die Dokumente aufgeteilt werden. Hier ist 1500 als Standard-Wert eingetragen. Das bedeutet, dass Dokumente beim Hochladen in "Schnipsel" zu je 1500 Zeichen aufgeteilt werden.
Chunk-Überlappung einstellen: Geben Sie an, wie viele Zeichen sich die Chunks überlappen sollen. Im Beispiel beträgt die Überlappung 100 Zeichen.
Überprüfen und Speichern: Überprüfen Sie alle Einstellungen. Beachten Sie den Hinweis, dass die Chunk-Einstellungen nach dem Speichern nicht mehr geändert werden können. Klicken Sie auf „Speichern“, um den Ordner zu erstellen.

**Nach der Erstellungen können sind die Einstellungen jederzeit mit Klick auf das „Stift-Symbol“ anpassbar.**

Hinzufügen von Daten

1. Dokumente

Unterstützte Dateiformate:

PDF-Dokumente
Word-Dokumente (.doc, .docx)
Textdateien (.txt)
Markdown-Dateien (.md)
PowerPoint-Präsentationen (.ppt, .pptx)

Parsing Engine Optionen:

Standard: Grundlegende Textextraktion aus Dokumenten -> schnell und für die meisten Dokumente geeignet
Ultraparse: Erweiterte Dokumentenverarbeitung mit folgenden Funktionen:
- Konvertierung von Formatierungen und Tabellen in maschinenlesbares Format (Markdown)
- OCR von Dokumenten die gescannt wurden
- Automatische Identifizierung und Extraktion von Bildern
- Integration von Bildern als URLs im konvertierten Text
- KI-generierte Bildbeschreibungen unter den Bildlinks
- Mehrstufiger Analyseprozess für optimale Extraktion

Ein Hochladen von Dokumenten mit Ultraparse dauert wesentlich länger als Standard-Hochladen, ist aber für gewisse Dokumente wie bspw. gescannte Dokumente oder Dokumente mit komplexen Tabellen & Datenstrukturen sinnvoll bzw. notwendig.

Wichtiger Hinweis für Ultraparse: Bei Verwendung von Ultraparse muss folgende Passage in die System Prompt des Coworkers eingefügt werden, damit extrahierte Bilder im Chat angezeigt werden.

Im <context> findest du neben passenden Informationen zur Anfrage des Users auch in Markdown formattierte URLs zu passenden Bildern. Unter jeder URL eines Bildes ist eine Beschreibung des Inhalts angefügt. Von dieser Beschreibung musst du die Relevanz des Bildes ableiten und je nach Nutzeranfrage die passenden Bilder an den Nutzer in Markdown-Formatierung ausgeben.

Diese Anweisung ermöglicht es dem Coworker, die extrahierten Bilder und deren Beschreibungen kontextbezogen in die Antworten einzubinden.

2. Web

Direktes Scraping einzelner Webseiten
Upload der extrahierten Inhalte in den Ordner

3. Web (Sitemap)

Upload und Scraping ganzer Websites basierend auf deren Sitemap
Automatische Extraktion und Organisation aller verfügbaren Seiten
Achtung: hier muss eine URL angegeben werden, welche mit "sitemap.xml" endet, nicht einfach eine normale URL

Hochladeprozess

Auswahl der Upload-Methode:
- Wählen Sie zwischen „Dokument“, „Web“ oder „Web (Sitemap)“
- Bei Dokumenten: Wählen Sie die gewünschte Parsing Engine (Standard oder Ultraparse)
Dateien hochladen:
- Direktes Hochladen über den „+“ Button
- Drag & Drop Funktionalität
- Bei Web/Sitemap: Eingabe der URL

Dateimanagement

Jede hochgeladene Datei bietet folgende Optionen:

Bearbeiten (Stift-Symbol)
Löschen (Mülleimer-Symbol)
Anzeigen (Augen-Symbol): Zeigt alle Chunks eines Dokuments an.

Hinweise

Die Verarbeitungszeit variiert je nach gewählter Methode und Datenmenge
Ultraparse benötigt aufgrund der komplexeren Analyse mehr Verarbeitungszeit