Large Language Models (LLMs) können ein Glas, das vom Tisch fällt, lebhaft beschreiben – aber sie verstehen weder Schwerkraft noch Reibung noch Impuls. Sprache ist eine verlustbehaftete, eindimensionale Kodierung einer multimodalen Realität. World Models wollen diese Lücke schließen: Sie lernen, was es bedeutet, etwas zu bewirken – nicht nur, es zu beschreiben.
Was sind World Models?
Vereinfacht gesagt: Ähnlich wie ein Sprachmodell versucht, das nächste Wort vorherzusagen und dabei eine Repräsentation von Sprache lernt, versucht ein World Model vorherzusagen, was als Nächstes in der Welt passiert – basierend auf einer Abfolge von Aktionen eines Agenten. Das Modell simuliert eine gesamte Umgebung, Moment für Moment, in Reaktion auf diesen Agenten. Dabei lernt es eine Repräsentation der Welt.
Formal ist ein World Model ein interaktives Vorhersagesystem, das räumlich-zeitliche Umgebungen simuliert. Es lernt, den nächsten Zustand s' auf Basis des aktuellen Zustands s und einer bestimmten Aktion a vorherzusagen: P(s' | s, a). Diese aktionskonditionierte Vorhersage ermöglicht einem KI-System:
- Wahrnehmen: „Was passiert gerade?"
- Vorhersagen: „Was passiert, wenn ich X tue?"
- Planen: „Welche Aktionsfolge führt zu Ziel G?"
- Schlussfolgern: „Warum ist das passiert? Was hat es verursacht?"
- Handeln: „Welche Aktion soll ich als Nächstes ausführen?"
Wo Sprachmodelle Korrelationen lernen – dass „Tasse" häufig mit „Tisch" und „verschütten" vorkommt –, zielen World Models darauf ab, Kausalität zu lernen: Ein Anstoß bewegt eine Tasse; wenn sie über den Tischrand gerät, fällt sie. Auch wenn es bereits frühere Forschungsarbeiten zu World Models gab, ist es vor allem Ha und Schmidhubers Paper World Models (2018), das den Begriff in der Entwickler-Community populär gemacht hat.
Was Fachleute unter einem World Model verstehen
„World Model" ist in der KI-Forschung ein vielschichtiger Begriff, der in verschiedenen Teilbereichen unterschiedliche Konzepte beschreibt. Trotz aller Variationen geht es stets darum, dass KI-Systeme prädiktive Repräsentationen von Umgebungen für Simulation, Planung und Handeln erlernen. Die wichtigsten Forschungslinien:
- Verstärkendes Lernen (RL): Richard Suttons Dyna-Algorithmus (1990) kombinierte modellbasiertes RL mit Online-Lernen. Moderne Nachfolger wie DreamerV3 von DeepMind nutzen rekurrente Netzwerke, um aus Beobachtungen und Aktionen latente Zustände, Belohnungen und Ergebnisse vorherzusagen.
- Gaming und interaktive Umgebungen: Generative Systeme wie DeepMinds Genie 3 trainieren auf unbeschrifteten Videos und erzeugen steuerbare virtuelle Welten aus Text-Prompts oder Bildern – mit Echtzeit-Interaktion. Der Agent kann mitten im Ablauf eingreifen, und das Modell passt sich entsprechend an.
- Videogenerierungsmodelle: Sora, Veo und Runway Gen-4.5 synthetisieren realistische Sequenzen aus Text-Prompts, was auf gelernte Dynamiken hindeutet. Ob sie als echte World Models gelten, ist in der Forschungsgemeinschaft umstritten. Befürworter argumentieren, dass hochwertige Videos implizit Physik beinhalten. Kritiker entgegnen, dass diese Modelle meist keine explizite Aktionskonditionierung besitzen – also nicht auf Eingriffe mitten in einer Sequenz reagieren können.
- JEPA und latente Vorhersage: Die zentrale Wette hier: Jeden einzelnen Pixel der Zukunft vorherzusagen ist in stochastischen Umgebungen nicht handhabbar. JEPA umgeht das, indem es in einem erlernten latenten Raum vorhersagt, statt auf Pixelebene zu arbeiten.
- Robotik und Physical AI: Verkörperte Systeme nutzen World Models häufig als differenzierbare Simulatoren für interne Planungsläufe, bevor sie in der realen Welt agieren. Metas Navigation World Model etwa nimmt vergangene Beobachtungen und Navigationsaktionen als Input, sagt künftige visuelle Beobachtungen vorher und plant Trajektorien durch interne Simulation.
Über all diese Forschungslinien hinweg ist die gemeinsame Idee: Zustände in eine latente Repräsentation komprimieren und deren Dynamik modellieren.
Die Lücke zwischen Videogenerierung und Weltsimulation
Videogenerierungsmodelle werden zunehmend als Vorläufer von World Models betrachtet – zu Recht, denn sie lernen aus Daten in großem Maßstab Dynamiken, Bewegungen und räumliche Zusammenhänge. Doch eine Umgebung zu simulieren, in der ein Agent agieren kann, erfordert Fähigkeiten, die die meisten Videomodelle bisher nicht vollständig besitzen. Fünf Eigenschaften markieren diese Lücke:
1. KausalitätDie meisten aktuellen Videomodelle nutzen bidirektionale Aufmerksamkeit – sie verarbeiten ganze Sequenzen auf einmal, sodass spätere Frames frühere beeinflussen können. Das funktioniert für das Offline-Rendering, versagt aber sobald ein Benutzer oder Agent mitten in einem Ablauf eingreifen muss. Das Datenproblem: hierarchisches temporales Captioning mit Zeitstempel-Ereignisbeschreibungen, diskrete Eingriffe gepaart mit ihren unmittelbaren Konsequenzen und ein nach Sequenzlänge organisierter Lehrplan für längeres Vorausdenken.
2. Interaktive SteuerbarkeitEin kausales Modell, das nicht auf Aktionen reagiert, ist ein Videoplayer. Was eine „Aktion" ist, hängt vom Anwendungsfall ab – von Tastatureingaben in einem Spiel bis zu Motorkommandos bei einem Roboter. Der Engpass: aktionsausgerichtetes Videomaterial. Die meisten Videos im Internet enthalten keine expliziten Aktionen. Modelle wie LAPA und LAWM lernen daher einheitliche Aktionsrepräsentationen aus unbeschrifteten Videos.
3. PersistenzReale Anwendungen brauchen ausgedehnte oder unbegrenzt lange Sequenzen, die intern konsistent bleiben. Allein längere Kontextfenster helfen dabei nicht. RoboWM-Bench dokumentiert typische Fehler in der Praxis: räumliche Denkfehler, instabile Kontaktvorhersagen und nicht-physikalische Verformungen bei generierten Verhaltensweisen auf echten Robotern.
4. Echtzeit-ReaktionsfähigkeitTolerierbare Latenzen variieren stark: rund eine Sekunde für Live-Streaming, 100 ms für Gaming, 10–20 ms für VR. Ein nicht-kausales Modell, das einen t-sekündigen Clip auf einmal generiert, hat eine Mindestlatenz von t Sekunden – weshalb frame-by-frame-Generierung für interaktive Systeme unverzichtbar ist.
5. PhysikgeneralisierungAktuelle Modelle extrapolieren schlecht auf Szenarien außerhalb ihrer Trainingsdaten (z.B. Objekte, die mit untypischen Geschwindigkeiten fallen). Visuelle Plausibilität ist nicht dasselbe wie physikalische Korrektheit. Als Abhilfe dienen physikalisch annotierte Datensätze (Masse, Geschwindigkeit, Reibung, Material) mit Ground-Truth-Daten aus Simulatoren wie MuJoCo oder Isaac Sim.
Diese fünf Eigenschaften beschreiben die Lücke aus Perspektive der Videogenerierung – aber Video ist nicht der einzige Ansatz. Teams in Robotik und Physical AI nähern sich demselben Ziel über verkörperte Erfahrung: Sie sammeln massive Mengen egozentrische Daten aus realen und simulierten Umgebungen, lernen Kontaktdynamiken über taktiles Feedback und verankern Repräsentationen in propriozeptiven Signalen, die Video allein nicht erfassen kann.
Wie World Models das Training von KI-Agenten verändern
World Models verändern das Agenten-Training grundlegend: Ein erlernter Simulator wird zur primären Erfahrungsquelle. Statt jeden Lernschritt durch echte Versuche zu sammeln, kann ein Agent in seinem eigenen Vorhersagemodell „proben" – das reduziert Kosten, Risiken und Zeit erheblich. „Agent" meint hier ein verkörpertes oder simuliertes System, das physische Aktionen ausführt (ein Roboterarm, ein autonomes Fahrzeug, eine Spielstrategie) – nicht die LLM-basierten digitalen Agenten, die in Software-Workflows verbreitet sind.
Effizienz und DatenwiederverwendungWeil das World Model ein differenzierbares generatives Modell ist, kann es beliebig viele imaginierte Trajektorien zu geringen Grenzkosten erzeugen und so einen festen Datensatz in eine nahezu unbegrenzte Trainingsressource für Entscheidungsfindung verwandeln – besonders wertvoll in Bereichen, wo echte Interaktion teuer, langsam oder riskant ist.
Sichereres und günstigeres Training durch interne SimulationWorld Models erlauben es Agenten, viele mögliche Zukünfte gedanklich zu simulieren, bevor sie in der realen Welt handeln – das reduziert das Risiko katastrophaler Fehler während des Lernens. Statt ein potenziell gefährliches Manöver am echten Roboter auszuprobieren, kann der Agent es im World Model evaluieren und verwerfen, wenn die vorhergesagten Ergebnisse schlecht sind.
Langfristige Planung und ReasoningDurch das Erlernen latenter Dynamiken über viele Schritte hinweg können Planer oder Actor-Critic-Architekturen nach Aktionsfolgen suchen, die den Wert maximieren. DreamerV3 zeigt das in beeindruckendem Maßstab: Es übertrifft spezialisierte Methoden in über 150 verschiedenen Aufgaben mit einer einzigen, festen Konfiguration.
Bessere GeneralisierungWorld Models verbessern auch die Generalisierung – insbesondere in Kombination mit Repräsentationslernverfahren, die Invarianz gegenüber irrelevanten Variationen erzwingen. Diese Vorteile sind am stärksten in Bereichen mit glatter visueller Dynamik und einfacher Kontaktphysik.
Was noch offen ist
World Models sind ein ergänzender Pfad zu allgemeiner KI-Leistungsfähigkeit. Die fünf oben beschriebenen Eigenschaften zeigen, wo World Models heute noch Schwächen haben – und das Schließen dieser Lücken ist auch ein Datenproblem. Es fehlt vor allem an:
- 3D-Rekonstruktions- und Umgebungserstellungs-Pipelines, die reale und synthetische Szenen in strukturierte, wiederverwendbare Trainings-Assets überführen.
- KI-fähigen Game-Welten, die das Erstellen von Umgebungen beschleunigen und Agenten günstige, vielfältige Trainingsgrundlagen bieten.
- World-Model-Trainingsdaten selbst: kausale und kontrafaktische Reasoning-Sets, Vision-Language-Action-Daten (VLA), die Wahrnehmung mit Instruktion und motorischem Ergebnis verknüpfen, sowie Chain-of-Thought-Annotationen für räumliche, zeitliche und spiellogische Zusammenhänge.





