Wie unterscheidet sich ein World Model von einem Large Language Model?

Ein LLM lernt Korrelationen zwischen Wörtern. Es kann ein fallendes Glas präzise beschreiben, versteht aber weder Schwerkraft noch Reibung noch Impuls. Ein World Model lernt Kausalität, indem es simuliert, was tatsächlich passiert, wenn ein Agent in einer Umgebung eine Aktion ausführt. Der entscheidende Unterschied: World Models sind aktionskonditioniert – ihre Vorhersagen verändern sich basierend auf dem, was ein Agent tut.

Gelten Videogenerierungsmodelle wie Sora als World Models?

Das ist eine aktive Debatte in der Forschungsgemeinschaft. Videodiffusionsmodelle wie Sora, Veo und Runway Gen-4.5 implizieren durch die generierten Sequenzen gelernte Dynamiken von Bewegung und Physik. Kritiker argumentieren jedoch, dass Pixelvorhersage nicht gleichbedeutend mit kausalem oder physikalischem Verständnis ist. Diesen Modellen fehlt typischerweise die explizite Aktionskonditionierung – die Fähigkeit, dynamisch auf spezifische Eingriffe zu reagieren –, die ein echtes World Model ausmacht.

Wenn es bei World Models letztlich nicht um 3D-Grafiken geht, warum ist der interaktive 3D-Umgebungsbereich trotzdem beobachtenswert?

Yann LeCun, Professor an der NYU und Executive Chairman der Advanced Machine Intelligence Labs (AMI Labs), argumentiert gemeinsam mit anderen Forschenden, dass echte World-Model-Fähigkeit in kausalem Reasoning und aktionskonditionierter Vorhersage liegt – nicht in visueller Wiedergabetreue. Hochwertige 3D-Umgebungen sind dennoch relevant: Sie sind einer der klarsten kurzfristigen Kommerzialisierungspfade und gleichzeitig eines der günstigsten Trainingssubstrate für verkörperte Systeme. Auf der Robotik-Seite bieten realistische Simulationsumgebungen Robotern einen Raum, um komplexe Aufgaben zu erlernen – ohne die Kosten, Risiken und physischen Einschränkungen realer Interaktion. Die Qualität dieser Grafiken spielt dabei eine Rolle: Je getreuer eine Simulation reale Sensorbedingungen nachbildet, desto kleiner ist die Lücke, die ein Roboter beim Wechsel vom Training in die Praxis überbrücken muss. Detaillierte visuelle Inputs sind der Weg, auf dem verkörperte Systeme die sogenannte Sim2Real-Lücke schließen. Auf der Consumer-Seite ermöglicht die Generierung räumlich konsistenter, interaktiver Umgebungen aus Bildern oder Text bereits heute unmittelbaren kommerziellen Mehrwert – in Form von immersiven VR-Erlebnissen, interaktiven Gaming-Welten und Design-Tools. Die interessantere Dynamik liegt aber darin, wie sich diese beiden Anwendungsfälle gegenseitig verstärken: Roboter entwickeln interne World Models durch Reasoning und Interaktion, während externe Simulationsumgebungen als Trainingsgrundlage dienen, aus der diese internen Modelle lernen. Die 3D-Visualisierungsebene ist nicht das Ziel – aber sie ist ein tragfähiges Geschäftsmodell und für Teams, die World Models entwickeln, gleichzeitig nützliche Infrastruktur.

Ein technischer Einstieg in World Models

Large Language Models (LLMs) können ein Glas, das vom Tisch fällt, lebhaft beschreiben – aber sie verstehen weder Schwerkraft noch Reibung noch Impuls. Sprache ist eine verlustbehaftete, eindimensionale Kodierung einer multimodalen Realität. World Models wollen diese Lücke schließen: Sie lernen, was es bedeutet, etwas zu bewirken – nicht nur, es zu beschreiben.

Was sind World Models?

Vereinfacht gesagt: Ähnlich wie ein Sprachmodell versucht, das nächste Wort vorherzusagen und dabei eine Repräsentation von Sprache lernt, versucht ein World Model vorherzusagen, was als Nächstes in der Welt passiert – basierend auf einer Abfolge von Aktionen eines Agenten. Das Modell simuliert eine gesamte Umgebung, Moment für Moment, in Reaktion auf diesen Agenten. Dabei lernt es eine Repräsentation der Welt.

Formal ist ein World Model ein interaktives Vorhersagesystem, das räumlich-zeitliche Umgebungen simuliert. Es lernt, den nächsten Zustand s' auf Basis des aktuellen Zustands s und einer bestimmten Aktion a vorherzusagen: P(s' | s, a). Diese aktionskonditionierte Vorhersage ermöglicht einem KI-System:

Wahrnehmen: „Was passiert gerade?"
Vorhersagen: „Was passiert, wenn ich X tue?"
Planen: „Welche Aktionsfolge führt zu Ziel G?"
Schlussfolgern: „Warum ist das passiert? Was hat es verursacht?"
Handeln: „Welche Aktion soll ich als Nächstes ausführen?"

Wo Sprachmodelle Korrelationen lernen – dass „Tasse" häufig mit „Tisch" und „verschütten" vorkommt –, zielen World Models darauf ab, Kausalität zu lernen: Ein Anstoß bewegt eine Tasse; wenn sie über den Tischrand gerät, fällt sie. Auch wenn es bereits frühere Forschungsarbeiten zu World Models gab, ist es vor allem Ha und Schmidhubers Paper World Models (2018), das den Begriff in der Entwickler-Community populär gemacht hat.

Was Fachleute unter einem World Model verstehen

„World Model" ist in der KI-Forschung ein vielschichtiger Begriff, der in verschiedenen Teilbereichen unterschiedliche Konzepte beschreibt. Trotz aller Variationen geht es stets darum, dass KI-Systeme prädiktive Repräsentationen von Umgebungen für Simulation, Planung und Handeln erlernen. Die wichtigsten Forschungslinien:

Verstärkendes Lernen (RL): Richard Suttons Dyna-Algorithmus (1990) kombinierte modellbasiertes RL mit Online-Lernen. Moderne Nachfolger wie DreamerV3 von DeepMind nutzen rekurrente Netzwerke, um aus Beobachtungen und Aktionen latente Zustände, Belohnungen und Ergebnisse vorherzusagen.
Gaming und interaktive Umgebungen: Generative Systeme wie DeepMinds Genie 3 trainieren auf unbeschrifteten Videos und erzeugen steuerbare virtuelle Welten aus Text-Prompts oder Bildern – mit Echtzeit-Interaktion. Der Agent kann mitten im Ablauf eingreifen, und das Modell passt sich entsprechend an.
Videogenerierungsmodelle: Sora, Veo und Runway Gen-4.5 synthetisieren realistische Sequenzen aus Text-Prompts, was auf gelernte Dynamiken hindeutet. Ob sie als echte World Models gelten, ist in der Forschungsgemeinschaft umstritten. Befürworter argumentieren, dass hochwertige Videos implizit Physik beinhalten. Kritiker entgegnen, dass diese Modelle meist keine explizite Aktionskonditionierung besitzen – also nicht auf Eingriffe mitten in einer Sequenz reagieren können.
JEPA und latente Vorhersage: Die zentrale Wette hier: Jeden einzelnen Pixel der Zukunft vorherzusagen ist in stochastischen Umgebungen nicht handhabbar. JEPA umgeht das, indem es in einem erlernten latenten Raum vorhersagt, statt auf Pixelebene zu arbeiten.
Robotik und Physical AI: Verkörperte Systeme nutzen World Models häufig als differenzierbare Simulatoren für interne Planungsläufe, bevor sie in der realen Welt agieren. Metas Navigation World Model etwa nimmt vergangene Beobachtungen und Navigationsaktionen als Input, sagt künftige visuelle Beobachtungen vorher und plant Trajektorien durch interne Simulation.

Über all diese Forschungslinien hinweg ist die gemeinsame Idee: Zustände in eine latente Repräsentation komprimieren und deren Dynamik modellieren.

Die Lücke zwischen Videogenerierung und Weltsimulation

Videogenerierungsmodelle werden zunehmend als Vorläufer von World Models betrachtet – zu Recht, denn sie lernen aus Daten in großem Maßstab Dynamiken, Bewegungen und räumliche Zusammenhänge. Doch eine Umgebung zu simulieren, in der ein Agent agieren kann, erfordert Fähigkeiten, die die meisten Videomodelle bisher nicht vollständig besitzen. Fünf Eigenschaften markieren diese Lücke:

1. KausalitätDie meisten aktuellen Videomodelle nutzen bidirektionale Aufmerksamkeit – sie verarbeiten ganze Sequenzen auf einmal, sodass spätere Frames frühere beeinflussen können. Das funktioniert für das Offline-Rendering, versagt aber sobald ein Benutzer oder Agent mitten in einem Ablauf eingreifen muss. Das Datenproblem: hierarchisches temporales Captioning mit Zeitstempel-Ereignisbeschreibungen, diskrete Eingriffe gepaart mit ihren unmittelbaren Konsequenzen und ein nach Sequenzlänge organisierter Lehrplan für längeres Vorausdenken.

2. Interaktive SteuerbarkeitEin kausales Modell, das nicht auf Aktionen reagiert, ist ein Videoplayer. Was eine „Aktion" ist, hängt vom Anwendungsfall ab – von Tastatureingaben in einem Spiel bis zu Motorkommandos bei einem Roboter. Der Engpass: aktionsausgerichtetes Videomaterial. Die meisten Videos im Internet enthalten keine expliziten Aktionen. Modelle wie LAPA und LAWM lernen daher einheitliche Aktionsrepräsentationen aus unbeschrifteten Videos.

3. PersistenzReale Anwendungen brauchen ausgedehnte oder unbegrenzt lange Sequenzen, die intern konsistent bleiben. Allein längere Kontextfenster helfen dabei nicht. RoboWM-Bench dokumentiert typische Fehler in der Praxis: räumliche Denkfehler, instabile Kontaktvorhersagen und nicht-physikalische Verformungen bei generierten Verhaltensweisen auf echten Robotern.

4. Echtzeit-ReaktionsfähigkeitTolerierbare Latenzen variieren stark: rund eine Sekunde für Live-Streaming, 100 ms für Gaming, 10–20 ms für VR. Ein nicht-kausales Modell, das einen t-sekündigen Clip auf einmal generiert, hat eine Mindestlatenz von t Sekunden – weshalb frame-by-frame-Generierung für interaktive Systeme unverzichtbar ist.

5. PhysikgeneralisierungAktuelle Modelle extrapolieren schlecht auf Szenarien außerhalb ihrer Trainingsdaten (z.B. Objekte, die mit untypischen Geschwindigkeiten fallen). Visuelle Plausibilität ist nicht dasselbe wie physikalische Korrektheit. Als Abhilfe dienen physikalisch annotierte Datensätze (Masse, Geschwindigkeit, Reibung, Material) mit Ground-Truth-Daten aus Simulatoren wie MuJoCo oder Isaac Sim.

Diese fünf Eigenschaften beschreiben die Lücke aus Perspektive der Videogenerierung – aber Video ist nicht der einzige Ansatz. Teams in Robotik und Physical AI nähern sich demselben Ziel über verkörperte Erfahrung: Sie sammeln massive Mengen egozentrische Daten aus realen und simulierten Umgebungen, lernen Kontaktdynamiken über taktiles Feedback und verankern Repräsentationen in propriozeptiven Signalen, die Video allein nicht erfassen kann.

Wie World Models das Training von KI-Agenten verändern

World Models verändern das Agenten-Training grundlegend: Ein erlernter Simulator wird zur primären Erfahrungsquelle. Statt jeden Lernschritt durch echte Versuche zu sammeln, kann ein Agent in seinem eigenen Vorhersagemodell „proben" – das reduziert Kosten, Risiken und Zeit erheblich. „Agent" meint hier ein verkörpertes oder simuliertes System, das physische Aktionen ausführt (ein Roboterarm, ein autonomes Fahrzeug, eine Spielstrategie) – nicht die LLM-basierten digitalen Agenten, die in Software-Workflows verbreitet sind.

Effizienz und DatenwiederverwendungWeil das World Model ein differenzierbares generatives Modell ist, kann es beliebig viele imaginierte Trajektorien zu geringen Grenzkosten erzeugen und so einen festen Datensatz in eine nahezu unbegrenzte Trainingsressource für Entscheidungsfindung verwandeln – besonders wertvoll in Bereichen, wo echte Interaktion teuer, langsam oder riskant ist.

Sichereres und günstigeres Training durch interne SimulationWorld Models erlauben es Agenten, viele mögliche Zukünfte gedanklich zu simulieren, bevor sie in der realen Welt handeln – das reduziert das Risiko katastrophaler Fehler während des Lernens. Statt ein potenziell gefährliches Manöver am echten Roboter auszuprobieren, kann der Agent es im World Model evaluieren und verwerfen, wenn die vorhergesagten Ergebnisse schlecht sind.

Langfristige Planung und ReasoningDurch das Erlernen latenter Dynamiken über viele Schritte hinweg können Planer oder Actor-Critic-Architekturen nach Aktionsfolgen suchen, die den Wert maximieren. DreamerV3 zeigt das in beeindruckendem Maßstab: Es übertrifft spezialisierte Methoden in über 150 verschiedenen Aufgaben mit einer einzigen, festen Konfiguration.

Bessere GeneralisierungWorld Models verbessern auch die Generalisierung – insbesondere in Kombination mit Repräsentationslernverfahren, die Invarianz gegenüber irrelevanten Variationen erzwingen. Diese Vorteile sind am stärksten in Bereichen mit glatter visueller Dynamik und einfacher Kontaktphysik.

Was noch offen ist

World Models sind ein ergänzender Pfad zu allgemeiner KI-Leistungsfähigkeit. Die fünf oben beschriebenen Eigenschaften zeigen, wo World Models heute noch Schwächen haben – und das Schließen dieser Lücken ist auch ein Datenproblem. Es fehlt vor allem an:

3D-Rekonstruktions- und Umgebungserstellungs-Pipelines, die reale und synthetische Szenen in strukturierte, wiederverwendbare Trainings-Assets überführen.
KI-fähigen Game-Welten, die das Erstellen von Umgebungen beschleunigen und Agenten günstige, vielfältige Trainingsgrundlagen bieten.
World-Model-Trainingsdaten selbst: kausale und kontrafaktische Reasoning-Sets, Vision-Language-Action-Daten (VLA), die Wahrnehmung mit Instruktion und motorischem Ergebnis verknüpfen, sowie Chain-of-Thought-Annotationen für räumliche, zeitliche und spiellogische Zusammenhänge.

FAQ

Weitere interessante Insights

Neue TELUS Digital-Studie deckt Sicherheitsrisiken bei GenAI auf

Ein technischer Einstieg in World Models

Wichtigste Erkenntnisse

Was sind World Models?

Was Fachleute unter einem World Model verstehen

Die Lücke zwischen Videogenerierung und Weltsimulation

Wie World Models das Training von KI-Agenten verändern

Was noch offen ist

Neue TELUS Digital-Studie deckt Sicherheitsrisiken bei GenAI auf

Zusammenarbeit statt nur Validierung: Automatisierung von Trust & Safety mit Human-in-the-Loop-Prozessen neu gedacht

Zusammenarbeit statt nur Validierung: Automatisierung von Trust & Safety mit Human-in-the-Loop-Prozessen neu gedacht

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

Möchten Sie mehr erfahren?

Transformieren Sie Ihr Unternehmen mit unserer End-to-End Experience