Nvidia Cosmos 3

(developer.nvidia.com)

1 पॉइंट द्वारा GN⁺ 2026-06-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

NVIDIA Cosmos 3 physical AI के लिए एक single open foundation model है, जो physical reasoning, world generation और action generation को एक ही मॉडल में जोड़ता है
Mixture-of-Transformers आर्किटेक्चर Reasoner tower और Generator tower को अलग रखकर input understanding और physics-aware generative output को जोड़ता है, जिससे कई मॉडलों और inference pipelines को orchestrate करने की जरूरत कम होती है
Cosmos 3 Nano 16B parameters के साथ workstation-grade inference के लिए बनाया गया है, जबकि Cosmos 3 Super 64B parameters के साथ datacenter deployment और high-quality synthetic data generation को लक्ष्य करता है
NVIDIA ने model checkpoints, training scripts, deployment tools, छह synthetic datasets और NIM microservices जारी किए हैं, ताकि robotics, autonomous driving और warehouse automation में domain adaptation को समर्थन मिल सके
HUE और कई public benchmarks में Cosmos 3 का physical AI reasoning, generation quality और domain performance के लिए मूल्यांकन किया गया, जहां Super और Nano ने VANTAGE-Bench के 32B और 8B tiers में क्रमशः बढ़त दिखाई

Cosmos 3 के मुख्य बदलाव

NVIDIA Cosmos 3 एक frontier foundation model है, जिसे robots, autonomous vehicles और smart spaces जैसे physical AI systems के लिए इस तरह डिज़ाइन किया गया है कि वे दुनिया को समझ सकें, अगली स्थिति का अनुमान लगा सकें, और खास environment, embodiment और task के अनुरूप actions generate कर सकें
पहले के Cosmos releases में world generation, physical understanding और controlled scene generation को अलग-अलग models और workflows में बांटा गया था, लेकिन Cosmos 3 इन्हें एक ही मॉडल में एकीकृत करता है
इस release में Hugging Face पर model checkpoints, GitHub पर code, public datasets, post-training scripts, और NVIDIA GPU deployment के लिए Cosmos NIM microservices उपलब्ध हैं

दो-tower आर्किटेक्चर

Cosmos 3 दो towers पर आधारित Mixture-of-Transformers आर्किटेक्चर का उपयोग करता है
Reasoner tower एक vision-language model (VLM) है, जो images, videos और text जैसी multimodal observations की व्याख्या करता है; यह autoregressive structure के जरिए inputs को समझता है और motion, object interaction और physical context को ग्रहण करता है
Generator tower Reasoner tower की समझ को condition के रूप में लेकर diffusion-based process से physics-aware video और action outputs generate करता है
Reasoner को स्वतंत्र रूप से call किया जा सकता है, लेकिन guided generation के लिए Generator हमेशा दोनों towers को सक्रिय करता है
यह आर्किटेक्चर reasoning और generation tasks को एक ही मॉडल में संभालता है, जिससे कई models और inference pipelines के बीच orchestration कम हो जाती है

मॉडल आकार के विकल्प

Cosmos 3 Nano 16B parameters वाला एक compact model है, जिसे efficient inference के लिए optimize किया गया है
Nano को NVIDIA RTX PRO 6000 GPU जैसे workstation-grade compute पर real-time robotics inference और physical AI applications चलाने के लिए डिज़ाइन किया गया है
Cosmos 3 Super 64B parameters वाला model है, जिसका लक्ष्य maximum quality और capability है
Super सबसे ऊंचे benchmark scores देता है और NVIDIA Hopper तथा NVIDIA Blackwell GPU आधारित datacenter deployments को लक्ष्य करता है
Super बड़े पैमाने पर synthetic data generation और advanced physical reasoning workloads के लिए उपयुक्त है

public datasets

NVIDIA ने Cosmos 3 release के साथ Hugging Face पर छह synthetic data generation (SDG) datasets भी जारी किए हैं
इन datasets का उपयोग Cosmos 3 और अन्य models के post-training में किया जा सकता है, और ये robotics, physical simulation, spatial reasoning, human motion, driving और warehouse environments को कवर करते हैं
public datasets:

HUE evaluation framework

NVIDIA Cosmos Human Evaluation(HUE) प्रतिनिधि domain tasks पर Cosmos 3 Generator की quality का मूल्यांकन करता है
नए video generation models पुराने automatic leaderboards पर saturation तक पहुंच रहे हैं, इसलिए releases के बीच score differences कई बार meaningful comparison के लिए पर्याप्त नहीं रहते
HUE subjective scoring की बजाय objective fact-checking पर आधारित evaluation अपनाता है, जिससे top models के बीच अधिक सूक्ष्म तुलना संभव होती है
HUE generated videos को चार dimensions में single-fact yes/no questions में विभाजित करता है
- semantic alignment
- laws of physics
- geometric reasoning
- visual integrity
ये questions robotics, autonomous vehicles और physics सहित सात physical AI domains को कवर करते हैं
questions एक VLM pipeline से generate किए जाते हैं, फिर human experts उन्हें refine करते हैं, और इन्हें Hugging Face पर open source के रूप में जारी किया गया है

benchmark परिणाम

Cosmos 3 का मूल्यांकन कई benchmark families में किया गया है, जो physical AI reasoning, generation quality और domain-specific performance को कवर करती हैं
reasoning benchmarks में Cosmos 3 Super और Cosmos 3 Nano ने VANTAGE-Bench के 32B tier और 8B tier में क्रमशः शीर्ष स्थान हासिल किया
VANTAGE-Bench warehouse, traffic और smart spaces की real-world fixed-camera footage पर vision-language models का मूल्यांकन करने वाला पहला public benchmark है
Traffic Anomaly Reasoning(TAR) traffic video में anomalous events को detect और reason करने के लिए एक नया leaderboard है, और यह AI City Challenge 2026 Track 3 का आधिकारिक leaderboard है
generation benchmarks में Cosmos 3 public leaderboards के आधार पर open-source SOTA है और PAI-Bench, R-Bench Physics-IQ तथा RoboLab में आगे है
Artificial Analysis में Cosmos 3 को Text to Image leaderboard और Image to Video (no audio) leaderboard पर leading open-source model माना गया है
R-Bench robotics video generation में video-based world models का मूल्यांकन करता है और structural consistency, physical plausibility तथा execution completeness जैसे sub-metrics का उपयोग करता है
PAI-Bench robotics, autonomous vehicles और physical common sense जैसे domains में video understanding और video generation का मूल्यांकन करता है
Physics-IQ यह जांचता है कि generated video models केवल visual realism हासिल करते हैं या वास्तव में physical principles को भी समझते हैं
RoboLab task-generalization robot policies का मूल्यांकन करने वाला एक simulation benchmark है

training recipes और domain adaptation

Cosmos 3 release model checkpoints से आगे बढ़कर code, configs और workflows भी उपलब्ध कराती है, ताकि models को नए domains, embodiments और datasets के अनुसार adapt किया जा सके
supervised fine-tuning (SFT) developers को Cosmos 3 models को अपने data के अनुसार tune करने में मदद करता है
public recipes custom video datasets के लिए vision generation post-training और robotics तथा physical AI workflows के लिए action-centric recipes को कवर करती हैं
developers Cosmos 3 को robotics, autonomous driving और warehouse automation जैसे target domains के लिए customize कर सकते हैं
post-training code और configs GitHub पर उपलब्ध हैं
action post-training Cosmos 3 को forward dynamics, inverse dynamics और policy generation जैसे action-aware physical AI applications के लिए अनुकूलित करता है
robotics में यह robot actions को condition बनाकर future observations generate करने, observed demonstrations के पीछे के actions infer करने, और current observations व task prompts से action sequences predict करने वाले workflows को समर्थन देता है

NIM microservices deployment

Cosmos 3 models optimized production deployment के लिए NVIDIA NIM microservices के रूप में भी उपलब्ध हैं
NIM microservices models और optimized inference runtime को package करती हैं, ताकि serving infrastructure को manually tune किए बिना भी high performance मिले
inference workflows में NIM microservices, Cosmos 3 GitHub repository की तुलना में उपयोग में आसान हैं, जबकि GitHub repository post-training workflows के लिए अधिक उपयुक्त है
Cosmos 3 Reasoner NIM फिलहाल Cosmos 3 models की reasoning capabilities प्रदान करता है
NIM BF16, FP8 और NVFP4 quantized checkpoint options को support करता है
NVFP4 quantization model की numerical precision को BF16 से 4-bit floating point तक घटाकर अधिकतम 2x inference speedup हासिल करती है
Cosmos 3 Reasoner NIM serving stack, vLLM पर आधारित है; vLLM एक open-source inference engine है जो continuous batching, paged attention और tensor parallelism जैसी techniques के जरिए LLMs को कुशलतापूर्वक serve करता है
Cosmos 3 Nano को vLLM-omni और NVIDIA Dynamo के साथ चलाया जा सकता है
Efficient Video Sampling(EVS) inference के दौरान VLM में जाने वाले video tokens की संख्या घटाकर Cosmos Reason NIM की speed बढ़ाता है
EVS हर frame में सबसे unique chunks को बनाए रखता है और बाकी को prune करता है; छोटे GPUs पर इस तकनीक का लाभ अधिक दिखाई देता है

इसे कैसे चलाएं

container प्राप्त करने और NGC से Cosmos 3 model डाउनलोड करने के लिए NVIDIA NGC API key की आवश्यकता होती है
Cosmos 3 Nano Reasoner NIM चलाने का उदाहरण इस प्रकार है
Cosmos 3 Super Reasoner NIM का उपयोग करने के लिए NIM_MODEL_SIZE=super सेट करें

docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

API usage और अतिरिक्त जानकारी documentation में उपलब्ध है

शुरुआत के लिए resources

Cosmos 3 Nano और Super checkpoints को Hugging Face से डाउनलोड किया जा सकता है
examples और code Cosmos 3 GitHub पर उपलब्ध हैं
Cosmos 3 Nano Reasoner model experience और Cosmos 3 Nano model experience को आज़माया जा सकता है
GitHub और Discord के जरिए Cosmos ecosystem में शामिल होकर issues खोले जा सकते हैं और योगदान दिया जा सकता है

1 टिप्पणियां

GN⁺ 2026-06-02

Hacker News की राय

यह इमेज·वीडियो जेनरेशन के लिए state-of-the-art open source model है
यह दूसरे मॉडलों से आगे है, लेकिन 64 billion parameters होने की वजह से ज़्यादातर पर्सनल कंप्यूटरों पर चलाने के लिए बहुत बड़ा है
फिर भी यह बात प्रभावशाली है कि इसमें कृत्रिम रूप से बनाए गए training datasets का इस्तेमाल किया गया है
यह Nano Banana 1 को हरा देता है, लेकिन अभी भी Nano Banana 2, Seedance2, Grok Imagine आदि से मुकाबला करने के स्तर पर नहीं है
- यह कड़वी विडंबना है कि बड़ी कंपनियों की घिसी-पिटी product announcement पोस्ट अब मैं क्लिक भी नहीं करता और सीधे comments पर चला जाता हूँ
  कॉर्पोरेट product announcements अक्सर पहले नौ शब्दों में बताई गई बुनियादी बात भी साफ़-साफ़ नहीं बता पातीं
  लेकिन एक nuance छूटा हुआ है: यह रोबोट और autonomous vehicle AI training में उपयोगी होने के लिए लक्षित world model है
  इसलिए यह Nano Banana या Seedance का सीधा competitor कम है; यह इमेज·वीडियो जेनरेशन भी कर सकता है, लेकिन इसका मुख्य काम AI training scenarios के लिए physical data और harnesses देना है
- इमेज·वीडियो जेनरेशन मॉडल इस बात का अंदाज़ा लगाने के लिए ज़्यादा सहज reality check benchmark हैं कि local models frontier models के कितने करीब पहुँचे हैं
“Cosmos 3 Nano 16 billion parameters वाला एक छोटा version है, और efficient inference के लिए optimized है. इसे NVIDIA RTX PRO 6000 GPU जैसे workstation-class compute environment में real-time robotics inference और physical AI applications चलाने के लिए डिज़ाइन किया गया है.”
इसे चलाने के लिए इतने महंगे $10,000+ workstation-class GPU पर टेस्ट करने का दिन देखने का इंतज़ार है
- GPU तो है, लेकिन रोबोट नहीं है. इसके साथ खेलने के लिए minimum viable robot कितना चाहिए होगा?
- अच्छी खबर यह है कि Nvidia आपको इसे चलाने के लिए नया RTX Spark laptop ख़ुशी-ख़ुशी बेच देगी
इस रिलीज़ में दो towers पर केंद्रित Mixture-of-Transformers(MoT) आर्किटेक्चर के ज़रिए capabilities को जोड़ा गया है
reasoning tower एक vision-language model (VLM) है, जो जेनरेशन होने से पहले दुनिया के बारे में reasoning करने वाले “brain” की भूमिका निभाता है
generation tower future observations और action sequences बनाता है, और reasoning tower की understanding को condition करके physics-aware वीडियो और action outputs को diffusion-based process से तैयार करता है
ऐसा approach अलग-अलग model architectures के बीच trade-offs को optimize और balance करके दोनों के फायदे जोड़ने वाली engineer instinct को लुभाता है
लेकिन Bitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html) की मेरी समझ के मुताबिक, लंबे समय में यह बिल्कुल ग़लत दिशा है
मैंने Bitter Lesson के असली लेख का लिंक इसलिए दिया, क्योंकि मुझे लगता है कि इस विचार को अक्सर ग़लत समझा जाता है, या कम से कम discourse में जिस तरह इस्तेमाल किया जाता है उससे मैं सहमत नहीं हूँ
इसका सार यह ऐतिहासिक अवलोकन है कि AI researchers एजेंट में knowledge भरने की कोशिश करते रहे; यह short term में मदद करता है और researchers को संतोष देता है, लेकिन long term में stagnate हो जाता है और प्रगति रोकता है, जबकि इसका उल्टा तरीका—search और learning के ज़रिए compute scaling—आख़िरकार breakthrough लाता है
यह आर्किटेक्चर short term में मददगार knowledge को एजेंट में भरने जैसा लगता है, और long term में इसके stagnate होने की संभावना ज़्यादा है
बेशक इसके ऊपर दिलचस्प learning या outputs निकल सकते हैं, लेकिन मुझे नहीं लगता कि इस approach से बहुत कुछ निचोड़ा जा सकेगा
- मुझे तो यह उल्टा लगता है
  MoT architecture, Bitter Lesson के implied ideal के काफ़ी करीब दिखता है. ऑडियो, इमेज, टेक्स्ट, actions, वीडियो जैसे सभी data formats को एक shared latent space में डालो और model को खुद व्यवस्थित करने दो
  बस sequence modeling·prediction के लिए autoregressive processing और generation के लिए diffusion processing जैसी अलग requirements और output formats को संभालने के लिए न्यूनतम structure रखा गया है
- यह ज़्यादातर decompression के काफ़ी करीब है, और आजकल यह काफ़ी standard तरीका है
  मकसद अंदर की compressed representation से data को इंसानों के काम आने वाले रूप में निकालना है
  तकनीकी रूप से pixel या character-level encoding पर भी reasoning की जा सकती है, लेकिन आम तौर पर वह बहुत महँगा पड़ता है
  पूरे technique को कंप्यूटर को तेज़ चलाने के तरीके की तरह देखा जा सकता है
  यह Qwen talker या ज़्यादातर multimodal projectors में भी देखा जा सकता है
- लेकिन यह मॉडल text LLMs की तुलना में domain scope में ज़्यादा चौड़ा है
  यह वीडियो input भी लेता है, इसलिए पुराने omni models से भी व्यापक है
  आर्किटेक्चर अनोखा है, लेकिन यह रोज़ जारी होने वाले open models की तुलना में कहीं ज़्यादा extreme tuning वाला नहीं लगता
warehouse safety वीडियो example सच में मज़ेदार है. लोग बिल्कुल react ही नहीं करते
- कार वाला वीडियो भी अजीब है. crossing van साफ़ तौर पर red light तोड़कर निकल जाती है
  intersection पर पड़े streetlight pole की बड़ी shadow भी बिल्कुल बेमेल है
दो-tower वाली Mixture-of-Transformers design, यानी autoregressive reasoner का diffusion generator को input देना, एक दिलचस्प architectural bet है
यह समझना मुश्किल है कि यह क्या करता है
“future observations और action sequences generate करता है” क्या बस वीडियो जेनरेशन कहने का जटिल तरीका है?
- नहीं. फ़र्क actions वाले हिस्से में है
  यह world model, उदाहरण के लिए, robot actions को condition के रूप में लेता है, इसलिए यह दो ऐसी चीज़ें कर सकता है जो सिर्फ़ वीडियो जेनरेशन से संभव नहीं हैं
  यह किसी खास action के बाद आने वाले future frames की भविष्यवाणी कर सकता है, और same starting frame पर actions बदलने से अलग future मिलता है
  और इसे उल्टा चलाकर observed frames के बाद हुए actions का inference किया जा सकता है, या किसी goal तक पहुँचने के लिए ज़रूरी actions निकाले जा सकते हैं
  उस समय output वीडियो frames नहीं बल्कि motor commands होते हैं
- मेरी समझ से यह computer vision और वीडियो जेनरेशन, दोनों को शामिल करता है, और इन्हें एक काफ़ी मज़बूत world model में जोड़ता है
  hosted examples में से एक सिर्फ़ मौजूदा वीडियो analysis करता है, जबकि दूसरा static image से वीडियो predict करता है, यानी वीडियो जेनरेशन करता है
- यह क्या है और इसे ऐसे क्यों कहा गया है, अगर इसका अंदाज़ा लगाएँ, तो AI robotics क्षेत्र को Unity या Unreal जैसी non-deformable rigid-body physics से बेहतर physics वाला surreal game engine चाहिए
  साथ ही engineering finite element simulations के उलट यह 1x speed से काफ़ी तेज़ भी होना चाहिए, और लगता है कि यह मॉडल उसी मांग को target करता है
- supported format table देख लो. यह image, video, text, action को input के रूप में ले सकता है और image, video, text, action को output कर सकता है
- इसे robot, car, drone जैसी physical AI को train करने के लिए synthetic data बनाने में इस्तेमाल किया जा सकता है
  रोबोट को लोगों के घर भेजे बिना first-person perspective में दुनिया को simulate करके training data बनाया जा सकता है
चुने गए ज़्यादातर examples अच्छे नहीं लगते
यह किसी खराब game engine और AI junk drawer के अजीब मिश्रण जैसा लगता है
यह कल्पना करना मुश्किल है कि ऐसी चीज़ें वास्तविक applications के लिए अच्छी training data बनेंगी
- सच कहूँ तो ये demos काफ़ी अच्छे लगते हैं
  और यह वस्तुनिष्ठ रूप से सच है कि ऐसी और मिलती-जुलती तकनीकें सभी leading autonomous vehicle makers में बड़े पैमाने पर इस्तेमाल हो रही हैं, इसलिए inductively देखें तो उस use case के लिए यह काफ़ी अच्छी है
  मैं Cosmos पर काम नहीं करता, लेकिन इस समय Nvidia में ऊपर-ऊपर से मिलती-जुलती non-public technology पर काम कर रहा हूँ, और कई leading कंपनियाँ इसका इस्तेमाल करती हैं
  मेरी राय में quality भी मिलती-जुलती है
  इससे जुड़ी कुछ public research यहाँ है
  https://github.com/nv-tlabs/3dgrut/
  https://github.com/NVIDIA/harmonizer
  https://github.com/NVIDIA/instant-nurec
  https://github.com/nvidia/ncore
  Nvidia कम से कम मेरे काम के कुछ हिस्सों में Gsplat को भी integrate कर रहा है और upstream में योगदान भी दे रहा है
  https://github.com/nerfstudio-project/gsplat
यह मज़ेदार है कि इतनी सारी तकनीकी प्रगति के बावजूद साइट अभी भी high load झेलने में संघर्ष कर रही है

Nvidia Cosmos 3

Cosmos 3 के मुख्य बदलाव

दो-tower आर्किटेक्चर

मॉडल आकार के विकल्प

public datasets

HUE evaluation framework

benchmark परिणाम

training recipes और domain adaptation

NIM microservices deployment

इसे कैसे चलाएं

शुरुआत के लिए resources

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय