LLM Grundlagen - Das 1x1 der Large Language Models

Erstellt von Johannes Eberhard, Geändert am Di, 4 Feb um 2:06 NACHMITTAGS von Ivan Dukic

Dieser Artikel bietet eine kompakte Einführung in die Funktionsweise von Large Language Models (LLMs). Das Verständnis dieser Grundlagen hilft dabei, das Potenzial von Localmind und die Nutzung von LLMs optimal auszuschöpfen.

1. Grundlagen von KI-Modellen

Ein Large Language Model (LLM) durchläuft zwei Hauptphasen:

Trainingsphase: Das Modell wird mit umfangreichen Datensätzen trainiert. Es lernt dabei, welche Wörter und Sätze semantisch zusammenhängen, indem es beispielsweise Lücken in Texten füllt. Dadurch entwickelt es eine Wahrscheinlichkeitsschätzung für das Auftreten bestimmter Wörter in unterschiedlichen Kontexten.
Nutzungsphase: Nach dem Training kann das Modell eingesetzt werden, um Antworten zu generieren. Basierend auf den erlernten Wahrscheinlichkeiten wählt es das nächste Wort oder Token aus, um eine sinnvolle Antwort zu formulieren.

Wichtig: Ein LLM lernt nach Abschluss des Trainings nicht weiter. Es besitzt nur Wissen bis zu einem bestimmten Zeitpunkt, dem sogenannten "Knowledge Cutoff Date".

Um das Modell nachträglich an spezifische Anforderungen anzupassen, können Fine-Tuning-Techniken genutzt werden. Dabei wird das Modell mit zusätzlichen Daten weitertrainiert, um es beispielsweise auf eine bestimmte Domäne oder einen spezifischen Sprachstil auszurichten. Allerdings ist Fine-Tuning sehr aufwendig und teuer, da es eine hohe Rechenleistung erfordert und zudem die neuen Informationen statisch bleiben.

Daher wird in vielen Anwendungsfällen stattdessen Retrieval-Augmented Generation (RAG) verwendet. Dabei ruft das Modell externe Datenquellen in Echtzeit ab, um stets aktuelle und kontextspezifische Antworten zu generieren – dazu später mehr.

2. Nutzung eines LLM

Wenn ein Benutzer eine Eingabe macht, analysiert das Modell den Kontext und generiert basierend auf seinem trainierten Wissen eine passende Antwort. Beispiel:

Eingabe: "Hallo"
Modellantwort: "Hallo! Wie kann ich Ihnen helfen?"

Das Modell setzt diesen Prozess fort, bis es entscheidet, dass die Antwort abgeschlossen ist.

3. Was ist ein Token?

In unserer menschlichen Sprache ist ein Token ein Buchstabe, z.B. "A" oder "F". Unser "Token-Vokabular" ist das Alphabet. Wir Menschen verwenden Buchstaben und das Alphabet, um Sprache abzubilden.

Ein LLM macht das sehr ähnlich, jedoch ist das "Token-Vokabular" für ein LLM häufig mehr als nur ein einzelner Buchstabe.

Ein Token kann ein einzelnes Wort, ein Wortbestandteil oder sogar ein Satzzeichen sein. Beispielsweise kann der Satz "Das ist ein Test" in folgende Tokens unterteilt werden:

"Das"
"ist"
"e"
"in"
"Test"

Je nach Modell können Tokens bzw. das Vokabular unterschiedlich definiert sein. Die Anzahl der Tokens ist wichtig, da sie die Kapazität des Kontextfensters beeinflusst. Dazu später mehr.

Als "Daumen mal Pi"-Regel kann man sagen, dass 1 Token in der Regel in etwa 2-4 Zeichen entspricht.

4. Die Bedeutung des Kontextes

Obwohl das Modell nach dem Training nicht mehr lernt, kann seine Ausgabe durch den bereitgestellten Kontext beeinflusst werden. Localmind nutzt verschiedene Elemente, um relevante Antworten zu erzeugen:

Aktuelle Benutzereingabe und Anweisungen
Vorherige Nachrichten bzw. Konversation zwischen Benutzer und KI
Hochgeladene Dokumente oder Dateien, bzw. Bestandteile davon

Diese Informationen werden in das Kontextfenster des Modells geladen, wodurch es kohärentere und präzisere Antworten liefern kann.

4. Das Kontextfenster eines LLMs

Das Kontextfenster ist sozusagen das "Kurzzeitgedächtnis" des LLMs. Das Kontextfenster eines LLMs umfasst alle relevanten Informationen, die es für die Verarbeitung einer Eingabe nutzt. Dazu gehören:

Vorherige Interaktionen (also Nachrichten zwischen Benutzer und KI)
Hochgeladene Dokumente bzw. Teile davon

Jedes LLM hat eine bestimmte maximale Kontextlänge bzw. Kontextfenster.

5. Begrenzung des Kontextfensters

Jedes LLM kann nur eine begrenzte Anzahl von Tokens verarbeiten, bevor es Dinge "vergisst". Die Größe des Kontextfensters variiert je nach Modell und beträgt bspw. beim Localmind Ultra Modell 32.000 Tokens. Wenn die Grenze erreicht ist, werden ältere Informationen im Kurzzeitgedächtnis überschrieben. Daher ist eine effiziente Nutzung durch präzise und relevante Eingaben entscheidend.

6. Halluzinationen

Ein zentrales Problem bei LLMs sind sogenannte Halluzinationen – falsche oder erfundene Informationen. Diese treten häufig auf, wenn:

Der Kontext unvollständig oder widersprüchlich ist
Anfragen sich auf Themen außerhalb des Knowledge Cutoffs beziehen
Mehrdeutige Eingaben gemacht werden

Um Halluzinationen zu vermeiden, empfiehlt es sich, klare Fragen zu stellen, um direkte Belege zu bitten und generierte Inhalte stets zu überprüfen.

7. Reasoning (logisches Denken)

LLMs können einfache logische Zusammenhänge gut verstehen, haben aber Schwierigkeiten mit komplexen oder mehrstufigen Argumentationsketten.

Tipp: Durch schrittweise Anweisungen wie "Denke Schritt für Schritt nach" oder durch die Aufteilung der ursprünglichen Frage in mehrere Unterfragen kann die Qualität der Antworten deutlich verbessert werden.

8. Retrieval-Augmented Generation (RAG)

RAG kombiniert ein LLM mit externen Datenquellen, um genauere und aktuellere Antworten zu generieren. Während ein klassisches LLM nur auf sein vorab trainiertes Wissen zurückgreifen kann, ruft RAG relevante Informationen in Echtzeit ab, um präzisere Ergebnisse zu liefern.

Basierend auf der Frage des Nutzers werden dann die relevantesten Dokumente bzw. Dokumentenschnipsel in das Kontextfenster des LLMs geladen, damit das LLM die Frage basierend darauf beantworten kann.

9. Sicherheit bei der Nutzung von LLMs

Der Einsatz von LLMs erfordert hohe Sicherheitsstandards, insbesondere bei sensiblen Daten. Risiken sind:

Unbeabsichtigte Weitergabe von Informationen
Generierung unangemessener Inhalte

Localmind setzt auf KI-Filter und Guardrails, um problematische Inhalte zu erkennen und zu blockieren. Zudem ist Localmind DSGVO-konform: Die Datenverarbeitung erfolgt entweder in unserem sicheren Rechenzentrum oder direkt vor Ort auf Ihrem eigenen GPU-Cluster.