OpenAI hat sein neues Video- und Audiomodell Sora 2 veröffentlicht – zusammen mit einer Social-Video-App für das iPhone, die derzeit nur per Einladung startet. Der große Sprung: deutlich realistischere Physik, engere Befolgung komplexer Anweisungen, synchroner O-Ton und Soundeffekte sowie „Cameos“, also KI-Clips mit der eigenen (optisch wie stimmlich nachgebildeten) Person. Die App erinnert an TikTok, ist aber konsequent um Generierung, Remix und kollaboratives Erstellen gebaut. Zum Launch läuft der Zugang schrittweise, zunächst in den USA und Kanada, weitere Länder sollen folgen. Für Redaktionen, Creator und Brands ist das eine ideale Vorlage für einen „Was kann Sora 2 wirklich?“-Praxistest – und gleichzeitig ein riesiges Nutzer- und Ethikthema.

Was Sora 2 technisch neu macht

Sora 2 setzt vor allem bei der Welt- und Physiksimulation an: Bewegungen, Kollisionen und Objektzustände verhalten sich konsistenter als bei früheren Videomodellen; Fehlschüsse prallen am Brett ab statt „hinzuteleportieren“. Das Modell folgt mehrstufigen, detailreichen Regieanweisungen über mehrere Shots hinweg, hält den Weltzustand konsistent und liefert Stile von fotorealistisch bis Anime. Neu ist außerdem die integrierte Audiogenerierung – Dialoge, Ambience und Effekte werden gemeinsam mit dem Bild erzeugt. Und: Elemente der realen Welt lassen sich „einspritzen“ – etwa eine reale Person, die anschließend glaubhaft in beliebige Sora-Szenen versetzt wird.

Die neue Sora-App: Generieren, Remixen, Cameos

Die Sora-App (zunächst iOS, Einladung nötig) bietet einen vertikalen Feed mit sehr kurzen, standardmäßig 10-sekündigen 9:16-Clips. Nutzer erstellen Clips per Text oder Bild, remixen Beiträge anderer (klar als Remix gekennzeichnet) und können Cameos freigeben: Wer seine digitale Ähnlichkeit einmalig per kurzer Video-/Audioaufnahme verifiziert, darf sich selbst – und freigegebene Freunde – in beliebige Szenen „casten“. Die Person hinter dem Cameo behält die Kontrolle, kann Nutzung erlauben, entziehen und Videos mit dem eigenen Cameo einsehen oder löschen. iOS kommt zuerst; Web-Zugang mit erweiterten Controls folgt, Android später.

Sicherheit, Rechte & Transparenz: Wasserzeichen, C2PA und Einwilligungen

OpenAI betont einen „Responsible Launch“. Alle Sora-Clips tragen zum Start ein sichtbares, bewegtes Wasserzeichen und betten C2PA-Metadaten ein – einen industrieweiten Standard zur Herkunftskennzeichnung. Cameos sind einwilligungsbasiert, mit feingranularen Freigaben und jederzeit widerrufbar; Darstellungen öffentlicher Personen werden blockiert, es sei denn, sie nutzen Cameos selbst. Neben mehrstufigen Filtern gegen Gewalt, Pornografie, Extremismus und Selbstgefährdung führt Sora auch Audits für Sprache/Musik durch (unter anderem Schutz gegen imitierte Künstlerstimmen) und verspricht spezielle Schutzmechanismen für Teenager samt Elternkontrollen.

Kontroverse: Deepfakes, Urheberrecht, Moderation

Die Debatte über zulässige Remixe, Persönlichkeitsrechte und markenrechtlich geschützte Figuren flammt mit Sora neu auf. Frühe Praxistests aus Redaktionen zeigen: Manche Prominenten-Anfragen werden blockiert, während andere Inhalte – etwa bestimmte fiktive Figuren – noch durchgehen; auch die Qualität der Moderation schwankt. Kritiker sprechen angesichts massenhaft generierter „Gesichter-Clips“ von einem hohen Missbrauchspotential, von Urheberrechtsrisiken bis zu Desinformation. OpenAI verweist auf Wasserzeichen/C2PA, Einwilligungspflicht bei Cameos und Meldemechanismen – am Ende entscheidet aber die Effektivität der Durchsetzung im Alltag.

Einordnung für Creator, Marken und Redaktionen

Produktseitig positioniert sich Sora als „TikTok-für-Generatives“ mit Fokus auf Erstellen statt endlosem Scrollen. Strategisch interessant sind Remix (schnelle Trends, kollaboratives Erzählen), Cameos (Personalisierung mit Zustimmung) und die verbindliche Herkunftskennzeichnung (Wasserzeichen/C2PA) – letzteres könnte in Medien- und Markenprozessen zum Standard werden. Einschränkungen bleiben: iOS-only zum Start, Invite-Gate, 10-Sekunden-Limit, regionale Verfügbarkeit. Für Marketing und Newsrooms lohnt sich das frühe Lernen: Was performt im Feed? Welche Prompts liefern stabilen Stil und glaubhafte Physik? Welche Team-/Rechte-Workflows (Freigaben, Widerruf, Archivierung) braucht man?

Praxis-Check: „Was kann Sora 2 wirklich?“ – Testplan zum Nachbauen

Ziel: belastbare Eindrücke zu Physik, Konsistenz, Audio-Sync, Cameos, Remix-Qualität und Safety. Aufbau: iPhone mit Sora-Zugang (Invite), ruhige Umgebung, Test-Account und 2–3 Freiwillige für Cameos (schriftliche Einwilligung).

Physik & Kausalität: Prompts mit klaren Ursache-Wirkungs-Ketten (z. B. „Basketballwurf prallt am Brett ab und fällt ins Aus“, „Rückwärtssalto auf SUP-Board bei leichtem Wellengang“). Messen: Frame-für-Frame-Analyse (Abpraller, Trägheit, Wasserbewegung), Anzahl physikalischer Artefakte.
Regie & Kontinuität: Mehrshots-Prompt mit Kostüm-/Objekt-Persistenz (z. B. „Person trägt gelbe Jacke, Szene A: Straße, Szene B: Café, Close-up auf Tasse mit Sprung“). Messen: Konsistenz von Kleidung, Props, Licht, Kamerawinkeln über Schnitte.
Audio & Lippen-Sync: Dialogzeilen im Prompt („A sagt: … / B antwortet: …“) plus Umgebungsgeräusch („Straßenlärm, leichter Regen“). Messen: Wort-zu-Lippen-Abgleich, Raumklang-Plausibilität, Artefakte (Dopplung, Kompressor-Pumpen).
Cameos & Kontrolle: Cameos einrichten (Eigen-/Freundes-Likeness), Freigaben testen, dann Widerruf. Prüfen: Sichtbarkeit aller Videos mit eigenem Cameo (inkl. fremder Entwürfe), Lösch-/Report-Funktion, Verhalten nach Widerruf (Remix blockiert?).
Remix-Fähigkeit: Beliebten Clip remixen (Stilwechsel, Figurentausch, neue Szene). Messen: Erhalt der Kernerzählung vs. kreative Varianz, Latenz bis zur Vorschau, Kennzeichnung als Remix.
Safety-Grenzen (verantwortungsvoll): Harmlos gehaltene, aber policy-nahe Prompts (keine verbotenen Inhalte) und Anfragen zu öffentlichen Personen nur im Rahmen der Regeln. Erwartung: Blockaden oder Hinweise statt Generierung; dokumentieren, ob Sperren konsistent greifen.
Provenienz prüfen: Exportierten Clip auf sichtbares Wasserzeichen checken; C2PA-Metadaten mit einem geeigneten Viewer auslesen und verifizieren (Zeitstempel, Erzeuger, Signatur).

Fazit

Sora 2 fühlt sich – gemessen an den Demos und frühen Tests – wie der erste ernsthafte Kandidat für alltagstaugliche KI-Videos an: plausible Physik, engere Regie-Kontrolle, integrierter Ton und eine Social-Schicht, die Generieren und Remixen zum Produktkern macht. Die Kehrseite ist das absehbare Ringen um Einwilligungen, Rechte und Moderation in einer massentauglichen App. Ob Sora der nächste große Social-Hit wird, hängt nicht nur von Modell-Qualität ab, sondern von Watermark-/C2PA-Durchsetzung, robusten Cameo-Kontrollen – und davon, wie schnell OpenAI den Sprung aus dem Invite-/US-Start in weitere Regionen und Plattformen schafft.