20. Februar 2025

LLM 01 - Was ist ein LLM (Large Language Model)

    
    Die Geschichte eines Large Language Models: Wie KI Sprache lernt und spricht

    
    Stell dir vor, du hättest einen riesigen, digitalen Bibliothekar, der Milliarden von Büchern, Artikeln und Gesprächen gelesen hat. Dieser Bibliothekar hat nicht nur gelesen, sondern auch gelernt,
    wie Menschen sprechen, schreiben und denken – und kann dieses Wissen nutzen, um selbst Texte zu verfassen oder Fragen zu beantworten. Genau das ist ein 
    
    Large Language Model (LLM):
    eine Form von Künstlicher Intelligenz, die darauf spezialisiert ist, menschliche Sprache zu verstehen und zu generieren.

    
    Doch wie wird aus einem leeren Programm ein solcher Sprachkünstler? Lass uns die Reise eines LLMs Schritt für Schritt verfolgen.

    
    Schritt 1: Das große Lernen – Die Trainingsphase

    
    Unsere Geschichte beginnt mit einer riesigen Bibliothek voller Texte: Bücher, Websites, Zeitungen – alles, was Menschen je geschrieben haben. Ein LLM wird mit diesen Texten „gefüttert“, manchmal
    Milliarden von Wörtern. Während dieser sogenannten 
    
    Trainingsphase 
    
    ist das Ziel nicht, die Texte auswendig zu lernen, sondern Muster in der Sprache zu erkennen:

Grammatik: Wie sind Sätze aufgebaut?
Wortbedeutungen: Was bedeutet ein Wort in verschiedenen Zusammenhängen?
Kontext: Wie hängen Wörter und Sätze zusammen?

    
    Das LLM lernt zum Beispiel, dass „Der Himmel ist blau“ eine häufige Aussage ist, während „Der Himmel ist Kuchen“ eher ungewöhnlich wäre. Es speichert diese Muster nicht als starre Regeln, sondern
    als Wahrscheinlichkeiten: „Wenn jemand ‚Der Himmel ist‘ sagt, kommt wahrscheinlich ‚blau‘ als Nächstes.“

    
    Schritt 2: Das Gehirn der KI – Neuronale Netzwerke und Transformer

    
    Wie kann ein Programm solche Muster erkennen? Hier kommt die Technologie ins Spiel: LLMs basieren auf 
    
    neuronalen Netzwerken,
    die vom menschlichen Gehirn inspiriert sind. Diese Netzwerke bestehen aus Milliarden kleiner „Knoten“, die miteinander verbunden sind und Informationen verarbeiten.

    
    Der entscheidende Trick liegt in der 
    
    Transformer-Architektur,
    einer speziellen Struktur, die LLMs besonders schlau macht. Transformer helfen dem Modell, Beziehungen zwischen Wörtern zu verstehen, egal wie weit sie im Text auseinanderliegen. Stell dir vor,
    du liest: „Der Hund, der gestern bellte, lief weg.“ Ein Transformer erkennt, dass „Hund“ und „lief“ zusammengehören, trotz der Wörter dazwischen. Das macht LLMs so gut darin, den Kontext zu
    erfassen.

    
    Schritt 3: Sprache in kleine Stücke zerlegen – Tokenisierung

    
    Bevor das LLM überhaupt mit Text arbeiten kann, zerlegt es ihn in kleinere Einheiten, sogenannte 
    
    Tokens.
    Ein Token kann ein Wort („Hund“), ein Teil eines Wortes („un-“ in „unglaublich“) oder ein Satzzeichen („!“) sein. Der Satz „KI ist cool!“ wird zum Beispiel in die Tokens [„KI“, „ist“, „cool“,
    „!“] aufgeteilt.

    
    Diese Tokens sind die Bausteine, mit denen das Modell arbeitet. Es lernt, wie diese Bausteine in verschiedenen Kontexten zusammengesetzt werden, und speichert diese Informationen für
    später.

    
    Schritt 4: Text erschaffen – Die Kunst der Vorhersage

    
    Jetzt wird es spannend: Wie schreibt ein LLM selbst Texte? Das Geheimnis liegt in der 
    
    Vorhersage.
    Das Modell schaut sich die bisherigen Tokens an und überlegt: „Was kommt als Nächstes?“

    
    Nehmen wir an, das LLM hat „Der Himmel ist“ vor sich. Basierend auf den Mustern aus dem Training berechnet es Wahrscheinlichkeiten:

70 % Chance: „blau“
20 % Chance: „bewölkt“
5 % Chance: „klar“

    
    Es wählt das wahrscheinlichste Token (z. B. „blau“) und fügt es hinzu: „Der Himmel ist blau“. Dann macht es weiter: „Der Himmel ist blau und...“ Dieser Prozess wiederholt sich, bis ein ganzer
    Satz oder Text entsteht. Das Ergebnis wirkt oft so natürlich, dass man kaum merkt, dass eine Maschine dahintersteckt.

    
    Die Geheimzutaten: Wichtige Mechanismen

    
    Damit das alles funktioniert, gibt es ein paar Tricks, die LLMs besonders mächtig machen:

    
    Selbstüberwachung (Self-Attention)

    
    Transformer nutzen einen Mechanismus namens 
    
    Selbstüberwachung.
    Das bedeutet, dass das Modell jedes Wort im Kontext aller anderen Wörter betrachtet. Im Satz „Sie kaufte das Buch, das sie wollte“, versteht das LLM durch Selbstüberwachung, dass „das“ sich auf
    „Buch“ bezieht. So wird der Sinn eines Satzes präzise erfasst.

    
    Transferlernen

    
    LLMs lernen in zwei Phasen:

Pre-Training: Sie studieren allgemeine Texte, um die Sprache zu verstehen.
Fine-Tuning: Sie werden auf spezielle Aufgaben trainiert, wie Übersetzen oder Fragen beantworten.

    
    Das ist, als würde unser Bibliothekar zuerst alle Bücher lesen und dann lernen, wie man eine bestimmte Geschichte erzählt.

    
    Skalierung

    
    Je größer das Modell und je mehr Daten es hat, desto besser wird es. Modelle wie GPT-3 mit 175 Milliarden Parametern können unglaublich komplexe Texte schreiben – aber sie brauchen dafür auch
    enorme Rechenleistung.

    
    Was kann ein LLM tun?

    
    Unsere Geschichte wäre nicht komplett ohne die beeindruckenden Fähigkeiten eines LLMs:

Text schreiben: Geschichten, Artikel oder Gedichte.
Übersetzen: Von Deutsch nach Englisch oder umgekehrt.
Zusammenfassen: Lange Texte auf den Punkt bringen.
Chatten: Wie ich gerade mit dir – natürlich und hilfreich antworten.

    
    Die Schattenseiten

    
    Doch auch unser digitaler Bibliothekar ist nicht perfekt:

Vorurteile: Wenn die Trainingsdaten Voreingenommenheit enthalten, gibt das LLM diese weiter.
Falschinformationen: Es kann überzeugend klingen, auch wenn es Unsinn erzählt.
Energie: Das Training verbraucht so viel Strom wie eine kleine Stadt.

    
    Das Ende der Geschichte – Fürs Erste

    
    Ein Large Language Model ist wie ein Sprachzauberer: Es nimmt Milliarden von Wörtern, zerlegt sie in Tokens, lernt ihre Muster mit neuronalen Netzwerken und Transformer-Magie und erschafft daraus
    neue Texte. Mechanismen wie Selbstüberwachung und Transferlernen machen es flexibel und schlau. Doch mit großer Macht kommt auch Verantwortung – Vorurteile und ethische Fragen müssen wir im Blick
    behalten.