AV2 वीडियो कोडेक ने AV1 की तुलना में 30% कम बिटरेट हासिल की, अंतिम स्पेसिफिकेशन 2025 के अंत में आने की उम्मीद

(videocardz.com)

6 पॉइंट द्वारा GN⁺ 2025-10-13 | 3 टिप्पणियां | WhatsApp पर शेयर करें

AV2, Alliance for Open Media द्वारा विकसित किया जा रहा अगली पीढ़ी का open video codec है, और 5 साल के विकास के बाद 2025 के अंत में अंतिम स्पेसिफिकेशन जारी होने वाला है
टेस्ट नतीजों के अनुसार, AV2 ने समान image quality पर AV1 की तुलना में लगभग 30% कम bitrate हासिल की है, और VMAF मानक पर 32.59% सुधार दर्ज किया है
इसकी खासियत यह है कि दक्षता बढ़ाने के लिए AI-आधारित नवाचार की बजाय गणितीय optimization और algorithm सुधार का उपयोग किया गया है
256×256 superblock, पूर्ण recursive partitioning, data-driven prediction mode, TIP(Temporal Interpolation) आदि के जरिए high resolution और तेज़ motion वाले वीडियो की प्रोसेसिंग क्षमता बेहतर हुई है
hardware efficiency verification पूरा हो चुका है, और आगे विकास का फोकस encoder optimization और AI-supported profile विस्तार की ओर जाने वाला है

AV2 विकास की स्थिति

AV2, AV1 की hybrid block-based structure को बनाए रखते हुए और बड़े 256×256 superblock और पूर्ण recursive partitioning तरीका अपनाता है
- luma और chroma partitioning को अलग करके अधिक सूक्ष्म prediction संभव हुआ है
- prediction system में data-driven intra mode, बेहतर chroma-from-luma modeling, और अधिकतम 7 reference frame का उपयोग करने वाला ranked reference system शामिल है
TIP(Temporal Interpolation Prediction) फीचर जोड़ा गया है, जो तेज़ी से चलने वाले या high-resolution दृश्यों में motion compensation की दक्षता बढ़ाता है

गुणवत्ता और compression efficiency

Netflix के Andrey Norkin ने घोषणा की कि PSNR-YUV मानक पर 28.63% और VMAF मानक पर 32.59% bitrate reduction की पुष्टि हुई है
- VMAF(Video Multi-Method Assessment Fusion), Netflix द्वारा विकसित video quality measurement metric है, जो subjective image quality evaluation को दर्शाता है
ये सुधार AI नहीं बल्कि गणितीय modeling और algorithm innovation का परिणाम हैं; AOM group ने AI विस्तार की संभावना का ज़िक्र किया है, लेकिन codec खुद पारंपरिक तरीकों पर आधारित है

transformation और quantization system

एकीकृत exponential quantizer पेश किया गया है, जो 8, 10, 12-bit video को अधिक व्यापक range और precision के साथ support करता है
Trellis-आधारित quantization और custom matrix के जरिए कम bitrate पर भी बारीक control संभव है
learning-based transform और cross-component transform के माध्यम से texture को बनाए रखते हुए compression artifact कम किए जाते हैं
coefficient coding को screen content और mixed content के अनुरूप बेहतर बनाया गया है

filtering और post-processing

एकीकृत general-purpose deblocker बेहतर तरीके से fine texture को सुरक्षित रखता है,
और Guided Detail Filter तथा Cross-Component Sample Offset जैसे नए filter noise removal क्षमता को बेहतर बनाते हैं
film grain synthesis को अब अधिक लचीले ढंग से लागू किया जा सकता है
multi-layer video और stereo video का support देकर यह अगली पीढ़ी के multimedia format के लिए तैयार है

आगे की योजना

AV2 के सभी टूल्स की hardware efficiency verification पूरी हो चुकी है
अगला चरण encoder optimization और high bit-depth तथा AI विस्तार profile के विकास पर केंद्रित होगा
अंतिम स्पेसिफिकेशन 2025 के अंत में घोषित होने की योजना है, और उसके बाद प्रमुख platform और streaming services में इसका क्रमिक commercial rollout होने की संभावना है

3 टिप्पणियां

kippler 2025-10-13

मुझे लगा था कि AV1 नाम थोड़ा अजीब है, लेकिन इसके पीछे पूरी योजना थी...

carnoxen 2025-10-13

मुझे लगा था कि बात AV1 पर ही खत्म हो जाएगी, लेकिन क्या इसमें और प्रगति की संभावना है?!
तकनीक वाकई कितनी अप्रत्याशित है...

GN⁺ 2025-10-13

Hacker News की राय

यह सोचकर हैरानी होती है कि streaming services आखिर कब over-compression बंद करेंगी। मेरे पास top-tier 4K TV और gigabit internet है, फिर भी compression artifacts की वजह से स्क्रीन कभी-कभी putty जैसी दिखती है। सच कहूँ तो मुझे सबसे अच्छी image quality 20 साल पहले एक साधारण digital antenna से देखने को मिली थी। खासकर gradients या फिल्मों के dark scenes में compression के निशान बहुत साफ दिखते हैं। वैसे मेरा TV पूरी तरह calibrated है, और मैं सबसे ऊँचे bandwidth वाले streaming plan पर हूँ। इसका visually similar उदाहरण यहाँ देखा जा सकता है
- streaming services के नज़रिए से content delivery cost बहुत बड़ी होती है, और content production के बाद यही सबसे बड़े खर्चों में से एक है। इसलिए bitrate घटाने के लिए वे काफ़ी extreme तरीके अपनाती हैं। Netflix ने camera grain (noise) हटाकर client side पर artificially generated noise जोड़ने वाला algorithm इसी वजह से अपनाया, और YouTube Shorts के हालिया उदाहरण में भी बहुत aggressive denoise technique दिखी। Noise random data होता है, इसलिए उसे compress करना बहुत मुश्किल है और वे उसे जितना हो सके हटाना चाहती हैं। लेकिन live camera footage से noise हटाने पर बहुत fine detail भी साथ में गायब हो जाती है। इस पर चर्चा यहाँ है
- gradients या dark scenes में compression artifacts दिखना अक्सर इस बात का संकेत है कि TV calibration सही नहीं है। बहुत बार contrast ज़रूरत से ज़्यादा बढ़ा दिया जाता है। लोग dark scenes की हर detail देखना चाहते हैं, इसलिए settings बदलते हैं, लेकिन असल में कुछ हिस्से वैसे दिखने ही नहीं चाहिए। सही तरह calibrated display पर dark areas लगभग न के बराबर दिखने चाहिए। ज़्यादातर codecs भी dark scene details हटाने के हिसाब से डिज़ाइन किए जाते हैं। हाँ, यह भी सच है कि streaming services इस मानक को कई बार बहुत ज़्यादा aggressively लागू कर देती हैं, लेकिन बहुत से लोग display गलत सेट करते हैं और वहीं से यह टकराव पैदा होता है
- Netflix COVID से पहले 1080P content के लिए लगभग 8Mbps इस्तेमाल करता था। x264/beamr पर quality काफ़ी अच्छी थी, और HEVC में तो उससे भी बेहतर। लेकिन COVID के बाद demand surge और bandwidth limits की वजह से सभी streaming services ने quality घटा दी। उसके बाद customers low quality के आदी हो गए, और अब उसे वापस बढ़ाने की संभावना कम लगती है। हालिया tests में bitrate 3~5Mbps के आसपास है। HEVC/AV1/AV2 codecs, H.264 की तुलना में 50% से ज़्यादा bitrate reduction दे सकते हैं, लेकिन 0.5~4Mbps रेंज से ऊपर जाते ही यह फ़ायदा तेज़ी से घटने लगता है, और high bitrate पर x264 encoder शायद उल्टा बेहतर लग सकता है
- Netflix जैसी बहुत low average bitrate हर service इस्तेमाल नहीं करती, हर platform अलग है। उदाहरण के तौर पर Netflix की Kate 11.15 Mbps, Disney की Andor 15.03 Mbps, Amazon की Jack Ryan 15.02 Mbps, Max की The Last of Us 19.96 Mbps, और Apple की For All Mankind 25.12 Mbps पर है। ज़्यादा detailed numbers और comparison इस लिंक में देखे जा सकते हैं
- शायद तुम्हारे लिए pirated version ही ज़्यादा सही बैठे
यह काफ़ी चौंकाने वाली बात है कि लोग अब भी video size और घटाने के नए तरीके खोज रहे हैं। सोचता हूँ कि यह सिर्फ smart लोगों के ideas की वजह से है, या फिर encoding/decoding के दौरान ज़्यादा powerful processing power की वजह से भी
- दोनों सही हैं। format आगे बढ़ते हैं तो उनमें ज़्यादा creative तरीके लागू किए जा सकते हैं, या ज़्यादा compute resources लगाए जा सकते हैं। उदाहरण के लिए frame changes को "superblock"(<a href="https://en.wikipedia.org/wiki/Macroblock">macroblock</a> जैसा) unit में encode किया जाता है। ये blocks frame के दूसरे हिस्सों या पिछले frame को reference करके changes का अनुमान लगाते हैं। block के changed area को जितना ज़्यादा precisely define किया जाए, efficiency उतनी बढ़ती है। लेकिन block position समझाने में भी data लगता है, इसलिए इस description को कम रखने के लिए constraints होते हैं। AV2 में block definition का तरीका बदल गया है, जिससे change areas के साथ match करना आसान हो गया है, और सबसे बड़ा block size भी 2 गुना हो गया है, इसलिए बड़े motion को कम blocks में ज़्यादा efficiently compress किया जा सकता है। इसके अलावा और भी कई बदलाव हुए हैं, और encoder की algorithmic creativity भी लगातार evolve हो रही है। इन प्रगतियों को वास्तव में लागू करने के लिए bitstream में allowed transforms, prediction methods वगैरह पर standard agreement चाहिए। संदर्भ video यहाँ देखा जा सकता है
- patents अब भी बड़ी भूमिका निभाते हैं। नई तकनीक को existing patents का infringement न हो, इसका बहुत ध्यान रखना पड़ता है। इसलिए AV1/AV2 में कुछ tricks या techniques इस्तेमाल ही नहीं की जा सकतीं
- दोनों की ज़रूरत है। modern codecs में image quality (PSNR, SSIM), computational complexity (CPU vs DSP vs memory), storage, bitrate जैसी चीज़ों के अलग-अलग trade-offs होते हैं, इसलिए हर स्थिति के लिए एक ही perfect codec नहीं हो सकता
- सोचता हूँ generative AI codec असली production में कब इस्तेमाल होगा। concept काफ़ी सीधा है। encoder को पता होगा कि decoder कौन-सा exact model इस्तेमाल करेगा, फिर वह सिर्फ key pixels भेजेगा और decoder बाकी हिस्सा AI से भर देगा। उदाहरण के लिए crowd में random लोगों के चेहरे generate किए जा सकते हैं, या ज़रूरत पड़ने पर उस क्षेत्र में ज़्यादा data भेजकर उसे किसी खास team mascot के चेहरे जैसा बनाया जा सकता है। compression अगर बहुत आगे बढ़ जाए, तो अंत में video के बजाय बस scene का text script जैसा data ही बचेगा
- मुझे AV2 की details ज़्यादा नहीं पता, लेकिन H.265 से H.266 की तरफ़ जाते समय angular prediction angles दोगुने हो गए, chroma को luma से predict करने वाले tools, pixel block copy जैसी कई techniques सिर्फ intra prediction में ही जुड़ीं। inter prediction में भी बहुत बड़े सुधार हुए। यह सब hardware decoder की logic circuitry/silicon area ज़रूर काफ़ी खाता है, लेकिन bitrate reduction भी बड़ा मिलता है। CPU decoder के हिसाब से extra compute burden उतना गंभीर नहीं है। असली cost encoding side पर है। compression efficiency maximize करनी हो तो चुनने के लिए prediction tools बहुत बढ़ जाते हैं, और encoding time लंबा हो जाता है। इसी वजह से Google AV1 encoding सिर्फ बहुत high-view videos पर लागू करता है
चूँकि यह दूसरी बार launch हो रहा है, उम्मीद है इस बार चीज़ें कुछ बेहतर होंगी। AOM की 20 अक्टूबर की live session का इंतज़ार है। उसमें और data, metrics, encoding/decoding complexity, hardware decoder roadmap, conformance और test kits, future profiles, AVIF और AV2 में सुधार, और JPEG-XL से comparison तक कवर होने की उम्मीद है। यह जानना दिलचस्प होगा कि 30% BDRATE reduction AV1 के latest encoder के मुकाबले है या 1.0 baseline के। शायद live encoding improvements पर भी बात होगी
AV1 के मुकाबले 30% reduction तो पागलपन जैसा है। लगता है जैसे अभी-अभी आया था, लेकिन यह 2019 में आया था
- मैंने भी पिछले साल ही पहला ऐसा device इस्तेमाल किया जिसमें AV1 hardware support था। codecs की तेज़ प्रगति का हमेशा एक downside होता है: या तो content को कई formats में store करते रहना पड़ता है, या client side software decoding के कारण battery ज़्यादा खर्च होती है। YouTube साफ़ तौर पर दूसरा रास्ता पसंद करता है
- यह इतना ज़्यादा प्रभावशाली लगता है कि उल्टा शक होने लगता है। अगर सच है, तो वाकई बहुत बड़ी बात है
codec implementation और optimization पर काम करना शायद मेरी ज़िंदगी के सबसे मज़ेदार कामों में से एक था। AV2 को गहराई से देखना चाहता हूँ, लेकिन अभी समय नहीं है
आख़िरकार ऐसा codec आया जिसका नाम AVI जैसा नहीं है, यह देखकर खुशी हुई
- AVI codec नहीं, container format है, है ना?
अब यह fast fiber internet कुछ कम मायने रखता लग रहा है...
- दुनिया के ज़्यादातर हिस्सों में लोग अभी भी mobile networks पर ही data और video consume करते हैं
- सही बात। अच्छा हुआ कि मेरे 1TB microSD card की refund window अभी भी खुली है
- आगे चलकर इसका इस्तेमाल 8K content streaming में हो सकता है, या शायद 16K VR video में
- आदर्श स्थिति यह है कि maximum efficiency और maximum availability दोनों साथ मिलें। यही सिद्धांत computing power और energy markets पर भी लागू होना चाहिए
- media जितना बढ़ता है, speed की demand उतनी बढ़ती है, और speed बढ़ती है तो media फिर और बढ़ता है — एक अनंत loop
मुझे लगा था AV1 नाम शायद AVI (audio video interlace) के लिए कोई tribute या मज़ाक है, लेकिन AV2 में वह एहसास नहीं है। AV1 में .av1 extension वाली files और video/AV1 MIME type भी है, तो अब AV2 आने पर क्या सब कुछ .av2 और video/AV2 के रूप में duplicate करना पड़ेगा? AVIF format का क्या होगा, यह भी सोच रहा हूँ
- .av1 extension raw AV1 data file के लिए है। AV2 शायद .av2 इस्तेमाल करेगा, और दोनों compatible नहीं होंगे। व्यवहार में video streams Matroska(.mkv), WebM, MP4 जैसे containers में रखी जाती हैं, और codec type code दिया जाता है (av01, av02)। AVIF भी container है, इसलिए नाम भले AV1 image format हो, चाहें तो उसे AV2 तक बढ़ाया जा सकता है। अगर पूरी clarity चाहिए, तो उसका नाम AOMedia Video Image Format रखा जा सकता है
- क्या मतलब यह है कि file extension सिर्फ file format को दिखाना चाहिए, अंदर के codec को नहीं? पहले कभी यह तरीका अपनाने से समस्याएँ भी हुई थीं। फिर भी सिर्फ extension देखकर यह समझ पाना सुविधाजनक होता है कि file पढ़ी जा सकेगी या नहीं
क्या किसी और को AV1 या AV2 formats में Cloudflare block message दिख रहा है?
सोच रहा हूँ gaussian splatting पर आधारित video codec कब आएगा