LLM 01 - Was ist ein LLM (Large Language Model)

Die Geschichte eines Large Language Models: Wie KI Sprache lernt und spricht
Stell dir vor, du hättest einen riesigen, digitalen Bibliothekar, der Milliarden von Büchern, Artikeln und Gesprächen gelesen hat. Dieser Bibliothekar hat nicht nur gelesen, sondern auch gelernt, wie Menschen sprechen, schreiben und denken – und kann dieses Wissen nutzen, um selbst Texte zu verfassen oder Fragen zu beantworten. Genau das ist ein Large Language Model (LLM): eine Form von Künstlicher Intelligenz, die darauf spezialisiert ist, menschliche Sprache zu verstehen und zu generieren.
Doch wie wird aus einem leeren Programm ein solcher Sprachkünstler? Lass uns die Reise eines LLMs Schritt für Schritt verfolgen.

Schritt 1: Das große Lernen – Die Trainingsphase
Unsere Geschichte beginnt mit einer riesigen Bibliothek voller Texte: Bücher, Websites, Zeitungen – alles, was Menschen je geschrieben haben. Ein LLM wird mit diesen Texten „gefüttert“, manchmal Milliarden von Wörtern. Während dieser sogenannten Trainingsphase ist das Ziel nicht, die Texte auswendig zu lernen, sondern Muster in der Sprache zu erkennen:
  • Grammatik: Wie sind Sätze aufgebaut?
  • Wortbedeutungen: Was bedeutet ein Wort in verschiedenen Zusammenhängen?
  • Kontext: Wie hängen Wörter und Sätze zusammen?
Das LLM lernt zum Beispiel, dass „Der Himmel ist blau“ eine häufige Aussage ist, während „Der Himmel ist Kuchen“ eher ungewöhnlich wäre. Es speichert diese Muster nicht als starre Regeln, sondern als Wahrscheinlichkeiten: „Wenn jemand ‚Der Himmel ist‘ sagt, kommt wahrscheinlich ‚blau‘ als Nächstes.“

Schritt 2: Das Gehirn der KI – Neuronale Netzwerke und Transformer
Wie kann ein Programm solche Muster erkennen? Hier kommt die Technologie ins Spiel: LLMs basieren auf neuronalen Netzwerken, die vom menschlichen Gehirn inspiriert sind. Diese Netzwerke bestehen aus Milliarden kleiner „Knoten“, die miteinander verbunden sind und Informationen verarbeiten.
Der entscheidende Trick liegt in der Transformer-Architektur, einer speziellen Struktur, die LLMs besonders schlau macht. Transformer helfen dem Modell, Beziehungen zwischen Wörtern zu verstehen, egal wie weit sie im Text auseinanderliegen. Stell dir vor, du liest: „Der Hund, der gestern bellte, lief weg.“ Ein Transformer erkennt, dass „Hund“ und „lief“ zusammengehören, trotz der Wörter dazwischen. Das macht LLMs so gut darin, den Kontext zu erfassen.

Schritt 3: Sprache in kleine Stücke zerlegen – Tokenisierung
Bevor das LLM überhaupt mit Text arbeiten kann, zerlegt es ihn in kleinere Einheiten, sogenannte Tokens. Ein Token kann ein Wort („Hund“), ein Teil eines Wortes („un-“ in „unglaublich“) oder ein Satzzeichen („!“) sein. Der Satz „KI ist cool!“ wird zum Beispiel in die Tokens [„KI“, „ist“, „cool“, „!“] aufgeteilt.
Diese Tokens sind die Bausteine, mit denen das Modell arbeitet. Es lernt, wie diese Bausteine in verschiedenen Kontexten zusammengesetzt werden, und speichert diese Informationen für später.

Schritt 4: Text erschaffen – Die Kunst der Vorhersage
Jetzt wird es spannend: Wie schreibt ein LLM selbst Texte? Das Geheimnis liegt in der Vorhersage. Das Modell schaut sich die bisherigen Tokens an und überlegt: „Was kommt als Nächstes?“
Nehmen wir an, das LLM hat „Der Himmel ist“ vor sich. Basierend auf den Mustern aus dem Training berechnet es Wahrscheinlichkeiten:
  • 70 % Chance: „blau“
  • 20 % Chance: „bewölkt“
  • 5 % Chance: „klar“
Es wählt das wahrscheinlichste Token (z. B. „blau“) und fügt es hinzu: „Der Himmel ist blau“. Dann macht es weiter: „Der Himmel ist blau und...“ Dieser Prozess wiederholt sich, bis ein ganzer Satz oder Text entsteht. Das Ergebnis wirkt oft so natürlich, dass man kaum merkt, dass eine Maschine dahintersteckt.

Die Geheimzutaten: Wichtige Mechanismen
Damit das alles funktioniert, gibt es ein paar Tricks, die LLMs besonders mächtig machen:
Selbstüberwachung (Self-Attention)
Transformer nutzen einen Mechanismus namens Selbstüberwachung. Das bedeutet, dass das Modell jedes Wort im Kontext aller anderen Wörter betrachtet. Im Satz „Sie kaufte das Buch, das sie wollte“, versteht das LLM durch Selbstüberwachung, dass „das“ sich auf „Buch“ bezieht. So wird der Sinn eines Satzes präzise erfasst.
Transferlernen
LLMs lernen in zwei Phasen:
  1. Pre-Training: Sie studieren allgemeine Texte, um die Sprache zu verstehen.
  2. Fine-Tuning: Sie werden auf spezielle Aufgaben trainiert, wie Übersetzen oder Fragen beantworten.
Das ist, als würde unser Bibliothekar zuerst alle Bücher lesen und dann lernen, wie man eine bestimmte Geschichte erzählt.
Skalierung
Je größer das Modell und je mehr Daten es hat, desto besser wird es. Modelle wie GPT-3 mit 175 Milliarden Parametern können unglaublich komplexe Texte schreiben – aber sie brauchen dafür auch enorme Rechenleistung.

Was kann ein LLM tun?
Unsere Geschichte wäre nicht komplett ohne die beeindruckenden Fähigkeiten eines LLMs:
  • Text schreiben: Geschichten, Artikel oder Gedichte.
  • Übersetzen: Von Deutsch nach Englisch oder umgekehrt.
  • Zusammenfassen: Lange Texte auf den Punkt bringen.
  • Chatten: Wie ich gerade mit dir – natürlich und hilfreich antworten.

Die Schattenseiten
Doch auch unser digitaler Bibliothekar ist nicht perfekt:
  • Vorurteile: Wenn die Trainingsdaten Voreingenommenheit enthalten, gibt das LLM diese weiter.
  • Falschinformationen: Es kann überzeugend klingen, auch wenn es Unsinn erzählt.
  • Energie: Das Training verbraucht so viel Strom wie eine kleine Stadt.

Das Ende der Geschichte – Fürs Erste
Ein Large Language Model ist wie ein Sprachzauberer: Es nimmt Milliarden von Wörtern, zerlegt sie in Tokens, lernt ihre Muster mit neuronalen Netzwerken und Transformer-Magie und erschafft daraus neue Texte. Mechanismen wie Selbstüberwachung und Transferlernen machen es flexibel und schlau. Doch mit großer Macht kommt auch Verantwortung – Vorurteile und ethische Fragen müssen wir im Blick behalten.