🔑 Key Highlights
• ज़्यादा यथार्थवादी physics simulation
• जहाँ पिछला मॉडल वस्तुओं को “teleport” करके सफल नतीजा दिखाता था, वहीं Sora 2 वास्तविक भौतिक विफलता और rebound तक दिखाता है.
• जैसे basketball ring से टकराकर बाहर उछल जाना, यानी physics के नियमों के काफ़ी करीब परिणाम.
• उन्नत control & consistency
• जटिल निर्देशों (कई shots, scene transition, state बनाए रखना) का सटीक पालन कर सकता है.
• दृश्यों के बीच character/object की world state बनाए रखता है.
• style की विविधता
• realism, cinematic, animation आदि में high-quality वीडियो बना सकता है.
• background music, sound effects, और dialogue तक के साथ synchronized audio generation का समर्थन.
• “Upload yourself” फीचर (Cameos)
• यूज़र छोटा वीडियो·ऑडियो upload करता है → मॉडल उस व्यक्ति को किसी भी scene में insert कर सकता है.
• दिखावट + आवाज़ दोनों को दर्शाता है.
• control यूज़र के पास रहता है, और access permission/delete किया जा सकता है.
• सोशल ऐप ‘Sora’ लॉन्च (iOS)
• creation/remix/share फीचर्स पर केंद्रित नया social network.
• शुरुआत invite-आधारित, पहले अमेरिका·कनाडा में लॉन्च.
• बेसिक free + तय usage limit, Pro model/अतिरिक्त generation के लिए paid plan आने वाला है.
• सुरक्षा और ज़िम्मेदार लॉन्च
• feed algorithm: time-spent optimization की जगह “रचनात्मकता को बढ़ावा” पर फ़ोकस.
• किशोरों की सुरक्षा: feed exposure limit, parental control फीचर्स उपलब्ध.
• copyright/consent: Cameo यूज़र्स को access/delete अधिकार की गारंटी.
• मानवीय moderation को मज़बूत कर harassment/abuse का जवाब.
• तकनीकी संदर्भ
• अगर Sora 1 “GPT-1 for video” था, तो Sora 2 “GPT-3.5 moment” है.
• बड़े video data pre-training और post-training → world simulation model की ओर एक और कदम.
• आगे की योजना
• sora.com पर भी access उपलब्ध.
• Pro यूज़र्स के लिए Sora 2 Pro आने वाला है.
• API जारी करने की योजना है.
• मौजूदा Sora 1 Turbo भी इस्तेमाल के लिए उपलब्ध रहेगा.
⸻
📝 TL;DR
• Sora 2 = physics के लिहाज़ से ज़्यादा परिष्कृत वीडियो·ऑडियो generation model
• लोगों/वस्तुओं के cameo insert किए जा सकते हैं → social app Sora में अनुभव उपलब्ध
• social+creation केंद्रित platform → time-spent से ज़्यादा content production पर ज़ोर
• शुरुआती लॉन्च: अमेरिका·कनाडा iOS → web/Pro/API तक विस्तार की योजना
2 टिप्पणियां
अगर इस तरह के वीडियो प्रोडक्शन बहुत बढ़ गए, तो शायद लोग shorts की लत से थोड़ा दूर हो जाएँ। अगर supercar चलाते हुए shorts मेरे चेहरे के साथ भी बनाए जा सकते हैं, तो फिर supercar shorts की वैल्यू कितनी रह जाएगी?
Hacker News की राय
ऐसा लगता है कि OpenAI, Sora को एक social network, यानी TikTok के AI version (AITok), में बदलने की कोशिश कर रहा है
web app की focus feed, posts पर likes∙comments, user profiles जैसी consumption-centric structure पर है
video generation एक अतिरिक्त element जैसा है, और generated videos बहुत छोटे हैं तथा settings भी simple हैं (सिर्फ landscape/portrait चुना जा सकता है)
लंबे या story-centric videos, advanced editing features वगैरह का न तो ज़िक्र है और न ही कोई प्रयास दिखता है, और Google Flow जैसे दूसरे platforms की तुलना में इसकी functional limitations काफ़ी हैं
physics accuracy test videos जोड़े गए हैं, लेकिन Veo भी उन prompts पर ठीक से काम नहीं कर पाया
इसके अलावा, काफ़ी impressive videos और बहुत भद्दे videos दोनों पोस्ट हो रहे हैं, जो दिलचस्प है
Sora physics उदाहरण1
Sora physics उदाहरण2
Veo उदाहरण1
Veo उदाहरण2
मुझे व्यक्तिगत रूप से innovative technology और AI पसंद हैं, लेकिन "TikTok but AI" सामाजिक रूप से वांछनीय कोशिश है या नहीं, इस पर मुझे यक़ीन नहीं है
अगर इससे कोई स्पष्ट सकारात्मक प्रभाव निकल सकता है, तो वह जानने की उत्सुकता है
जब तक video generation की power efficiency में नाटकीय सुधार नहीं होता, या energy cost लगभग शून्य के क़रीब नहीं पहुँचती
तब तक TikTok-स्तर की large-scale real-time video consumption service के profitability के लिहाज़ से टिके रहने की संभावना कम लगती है
अभी के लिए, असली लोगों द्वारा सीधे अपलोड किए गए videos कहीं ज़्यादा low-power और low-cost हैं
OpenAI की Sora को social network के रूप में बढ़ाने की strategy दरअसल वही है जिसे Midjourney images के लिए पहले से अपनाता रहा है
Midjourney Explore - Videos
बहुत से लोग Midjourney की अनोखी image style को पसंद करते हैं, और ratings व interactions के ज़रिए model सीखता है
image generation में 'aesthetics' का स्तर संभालना भी अपेक्षाकृत आसान है
Meta ने भी हाल ही में ऐसा ही एक प्रयास किया है
Meta, Vibes AI Video की घोषणा
consumption-centric feed features को मज़बूत करना निश्चित रूप से एक स्पष्ट दिशा है
एक और वजह यह हो सकती है कि कई users एक ही खाली prompt window में resources खर्च करके मिलते-जुलते outputs निकालने के बजाय
पहले अच्छे examples दिखाना और उनसे जुड़ी discussions के माध्यम से तेज़ी से high-quality results तक पहुँचना ज़्यादा efficient है
ऐसी technologies को देखते ही मुझे Jurassic Park में Jeff Goldblum का dialogue याद आ जाता है
हमारे boss ऐसे tools से बने अधूरे AI videos दिखाकर चिल्लाते हैं, "यही future है"
लेकिन लगता है कि वे एक बार भी यह बुनियादी सवाल नहीं पूछते, "आख़िर यह कौन चाहता है, और इसे कौन देखेगा?"
AI content में अभी भी ऐसी सीमाएँ हैं जो देखते ही साफ़ पकड़ में आ जाती हैं
कौन सिर्फ AI से बने video stream को मज़े से देखेगा? Meta के नज़रिए से यह अच्छा है क्योंकि लोगों को पैसे देने से सस्ते में content मिल जाता है,
लेकिन असल में यह low-quality 'slop' से ज़्यादा कुछ नहीं है
copyright issues को बहुत ढीले ढंग से लिया जा रहा है
Sora में by default user की IP को AI videos में इस्तेमाल करने की अनुमति रहती है, और user को बाहर निकलने के लिए स्पष्ट रूप से opt out करना पड़ता है
संबंधित लेख
इसके अलावा, इतने बड़े प्रभाव वाले projects पर काम करने वाले लोग वास्तविक जीवन के अनुभव में कमज़ोर लगते हैं
और चमकदार, नई technology पर ही अटके रहते हैं, उसके प्रभाव और परिणामों में उनकी रुचि कम दिखती है
(Meta की Vibes भी इसी श्रेणी में आती है)
article में कहा गया है कि यह हिस्सा robot ने लिखा है, इसलिए सोच रहा हूँ कि क्या इसका कोई ज़्यादा सटीक source भी है
Grok में एक साल से भी ज़्यादा समय से copyrighted characters खुलकर इस्तेमाल हो रहे हैं, फिर भी अभी तक कोई lawsuit नहीं हुआ
यह technology आगे चलकर brands को license देकर
कहीं ज़्यादा customized ad videos बनाने की संभावना खोल सकती है
उदाहरण के लिए, अगर असली कपड़ा ऑर्डर करने से पहले मैं अपना video देख सकूँ जिसमें मैंने वही कपड़े पहने हों, तो यह काफ़ी अद्भुत अनुभव होगा
अगर real-time generation तक बात पहुँच जाए, तो यह कल्पना भी की जा सकती है कि mall में आईने के सामने से गुज़रते समय मेरा रूप अपने-आप अलग-अलग outfits में बदल जाए
काफ़ी रोमांचक समय है
अगर बात यहाँ तक पहुँच गई, तो शायद physically कपड़े ख़रीदने की ज़रूरत भी न रहे
influencers अपनी simulated videos को SNS पर पोस्ट करके ही संतुष्ट हो जाएँगे, और बिना actual visit के सिर्फ experience के आधार पर promotion कर सकेंगे
संबंधित meme tweet
इससे आगे, असल में बाहर जाए बिना दोस्तों के साथ party करते हुए fake videos बनाकर पोस्ट करना भी संभव होगा
आख़िरकार, घर में ice cream खाते हुए भी SNS पर एक बेहद active life दिखाई जा सकेगी
लगता है मैंने इसका मिलता-जुलता दृश्य Minority Report में पहले ही देख लिया था
फिल्म में Tom Cruise का नाम ads में सीधे पुकारा जाना काफ़ी यादगार था
Minority Report - फ़िल्म wiki
इसे 'Virtual Try On(VTO)' कहा जाता है और static images में इसका पहले से काफ़ी इस्तेमाल हो रहा है
video VTO का जल्द आना स्वाभाविक अपेक्षा है
आख़िरकार, ऐसे video models का सबसे आम उपयोग customized visualization, जैसे product virtual try-on, पर केंद्रित होने की संभावना ज़्यादा है
क्योंकि लोग अंततः AI की तुलना में इंसानों के साथ connection महसूस करना ज़्यादा पसंद करते हैं
Sora या VEO फ़िल्म और TV content production में भी बड़े बदलाव ला सकते हैं
AR furniture placement (यानि virtual तौर पर अपने घर में furniture की position पहले से रखकर देखना) को भी कभी innovation कहा गया था
लेकिन वास्तव में इसका उपयोग लगभग कोई नहीं करता
ChatGPT image generation ने पहले ही हफ़्ते 100 million से ज़्यादा users को आकर्षित किया था, उसका मुख्य कारण यह था
कि लोग अपने दोस्तों, परिवार और pets की तस्वीरों को AI से बनवाने में बहुत आनंद लेते हैं
'cameo feature' भी शायद इसी viral appeal को फिर से पकड़ने की कोशिश है
इसलिए जब तक PETA आपत्ति न करे, शायद कोई समस्या नहीं होगी
सबसे दिलचस्प बात यह है
कि जब user prompt में किसी व्यक्ति या product की video clip शामिल करता है
तो AI उस metadata के आधार पर realistic video तैयार कर देता है
तकनीकी रूप से देखें तो यह पहले से highly refined dataset पर training के असर जैसा लगता है
user के नज़रिए से यह सचमुच एक उपयोगी commercial feature बन सकता है
लेकिन इस तरह की data-driven innovation को Google भी YouTube की बदौलत जल्द पकड़ सकता है
और संभव है कि वह अंदरूनी तौर पर पहले से मिलती-जुलती technology चला भी रहा हो
अपने मेहनत के पैसे को निवेश करने वाले व्यक्ति के रूप में, अस्तित्वहीन illusion या manipulated product imagery मुझे लगभग fraud जैसी लगती है
किसी वास्तविक product के बजाय fantasy पर आधारित reviews और ads नैतिक रूप से समस्याग्रस्त हैं
यह पूरी बनावट दरअसल अंतहीन AI-personalized content stream की दिशा में एक और क़दम है
यह individual dopamine release को maximize करने के लिए optimized structure है
यह किसी Skinner box (यानि ऐसा तंत्र जो सुख के लिए बार-बार व्यवहार दोहराने को प्रेरित करे) जैसे Torment Nexus की तरह लगता है
फ़िलहाल energy या resources के लिहाज़ से यह structure sustainable नहीं दिखता
example prompts में से "नीली रोशनी से बनी तलवार पकड़े एक लड़का और दुष्ट आत्मा के बीच तीव्र animated battle"
जापानी manga Blue Exorcist के लगभग उसी concept जैसा है
Blue Exorcist (wiki)
example prompts में सीधे यह भी है: "'Studio Ghibli animation style में, एक लड़का और एक पिल्ला नीले पहाड़ पर चढ़ रहे हैं और दूर एक गाँव दिखता है'"
dragon character तो लगभग How to Train Your Dragon से सीधे उठाया हुआ लगता है
सोचने वाली बात है कि क्या rights holders के साथ कोई deal है, या फिर lawsuits को bait बनाकर media publicity लेने की कोशिश है
engineering के नज़रिए से यह वास्तव में प्रभावशाली result है
video quality अब इतनी अच्छी हो गई है कि वह ध्यान खींच सके, और uncanny valley का एहसास भी आता है
OpenAI जिस तरह ऐसी नई technology के प्रति आम लोगों को धीरे-धीरे अभ्यस्त कर रहा है, वह सराहनीय है
इस version में कई सीमाएँ हैं, लेकिन लगता है कि एक-दो generations में यह technical threshold पार कर सकता है
उदाहरण के लिए, LLM बाज़ार में Gemini 2.5 Pro एक वास्तविक threshold moment था, और Sora भी जल्द ऐसा turning point पा सकता है
creator के दृष्टिकोण से देखें तो, पहले कई assets (backgrounds, objects आदि) को set के रूप में बनाकर फिर कई scenes को स्वाभाविक रूप से जोड़ने की सुविधा आदर्श होगी
continuity वीडियो में आश्चर्यजनक रूप से काफ़ी बेहतर हुई है
फिर भी कुछ errors अभी साफ़ दिखाई देते हैं
जिज्ञासा है कि इससे भी जटिल storyboarding problems को कैसे हल किया जाएगा
वीडियो ने भारी cut editing और तेज़ camera transitions के ज़रिए continuity problems को छिपाया है
साफ़ दिखता है कि हर cut में duckweed, snowmobile और बाकी elements लगातार बदलते रहते हैं
अंत में सिर्फ़ चेहरे का हिस्सा ही consistent लगता है
कुल मिलाकर AI videos की typical problems अब भी बनी हुई हैं, और single environment में 5 seconds से ज़्यादा टिकने वाले shots लगभग नहीं हैं
duck race scene में भी Sam के आते ही घास बिल्कुल अलग हो जाती है
इस demo में ही इतने errors होना
यह संकेत देता है कि सामान्य users के results इससे कहीं अधिक कमज़ोर होंगे
pond में bo staff इस्तेमाल करने वाले scene में कलाई का angle अस्वाभाविक रूप से मुड़ा हुआ है
pond bo staff demo में लकड़ी की छड़ी अचानक धनुष जैसी shape में बदल जाती है, यानी साफ़ तौर पर 'AI जैसा' shot आसानी से पकड़ा जा सकता है