- OpenAI ने AI-जनित कंटेंट की पहचान के लिए C2PA conformity, SynthID वॉटरमार्किंग और एक सार्वजनिक verification tool को मिलाकर अपने बहु-स्तरीय provenance model को मज़बूत किया है
- C2PA metadata और cryptographic signatures के ज़रिए कंटेंट के निर्माण और संपादन के संदर्भ को साथ लेकर चलता है, लेकिन transformation की प्रक्रिया में यह क्षतिग्रस्त हो सकता है
- Google DeepMind का SynthID, ChatGPT, Codex और OpenAI API से बनी इमेज में अदृश्य वॉटरमार्क जोड़कर metadata की कमज़ोरियों की भरपाई करता है
- सार्वजनिक verification tool preview, अपलोड की गई इमेज में Content Credentials और SynthID की जांच करके यह समझने में मदद करता है कि वह OpenAI से जनरेट हुई है या नहीं
- केवल एक तकनीक पर्याप्त नहीं है; common standards, टिकाऊ watermarking और सार्वजनिक verification को जोड़ने पर ही provenance ecosystem मज़बूत बनता है
कंटेंट provenance approach को मज़बूत करना
- OpenAI ऑनलाइन भरोसा बनाने के लिए अपने multi-layered provenance model को मज़बूत कर रहा है और open standards व cross-platform collaboration के आधार पर AI-जनित कंटेंट की पहचान-क्षमता बढ़ाना चाहता है
- तीन मुख्य बदलाव हैं
- C2PA conformity के जरिए दूसरे tools और platforms के लिए provenance signals को आसानी से पहचानना संभव बनाना
- Google के साथ मिलकर इमेज में SynthID watermarking जोड़ना
- एक सार्वजनिक verification tool preview देना, जिससे लोग जांच सकें कि कोई इमेज OpenAI ने बनाई है या नहीं
- Provenance signals यह समझने के लिए ज़रूरी संदर्भ देते हैं कि कंटेंट कहाँ से आया, कैसे बनाया या संपादित किया गया, और क्या वह अपने दावे के अनुरूप है
C2PA conformity के ज़रिए trust ecosystem
- OpenAI 2024 से provenance standards के विकास और अपनाने में शामिल है, और DALL·E 3 से जनरेट की गई इमेज में Content Credentials जोड़ना शुरू किया था
- बाद में ImageGen और Sora में भी Content Credentials लागू किए गए
- OpenAI, कंटेंट provenance के लिए open technical standards को आगे बढ़ाने वाली cross-industry body Coalition for Content Provenance and Authenticity(C2PA) की steering committee में शामिल हो गया है
- C2PA, metadata और cryptographic signatures का उपयोग करके media-संबंधित जानकारी को कंटेंट के साथ सुरक्षित रूप से आगे ले जाने में मदद करता है
- यह जानकारी provenance का मूल्यांकन करने वाले पत्रकारों, integrity से जुड़े निर्णय लेने वाले platforms, और ऑनलाइन कंटेंट को समझने की कोशिश कर रहे लोगों को संदर्भ देती है
- OpenAI हाल ही में C2PA conformant generative product बना है
- C2PA conformity वह आधार देती है जिससे platforms कंटेंट से जुड़ी provenance जानकारी को भरोसेमंद तरीके से पढ़, सुरक्षित रख और आगे भेज सकें
- जब provenance जानकारी शुरुआती generation platform से आगे भी बनी रहती है, तब उसका महत्व बढ़ता है, और conformance compliance इसे संभव बनाता है
SynthID के साथ बहु-स्तरीय इमेज provenance
- C2PA metadata वह आधार है जो यह जानकारी साथ लेकर चलता है कि कंटेंट कहाँ से आया, कैसे बनाया या संपादित किया गया, और इस जानकारी पर किसने हस्ताक्षर किए
- Metadata हटाया जा सकता है, upload-download प्रक्रिया में गायब हो सकता है, या file format बदलने, resizing और screenshot जैसे transformations से क्षतिग्रस्त हो सकता है
- Provenance जानकारी को अधिक मज़बूत बनाने के लिए OpenAI ने Google DeepMind के SynthID के जरिए अदृश्य वॉटरमार्क अपनाया है
- इसकी शुरुआत ChatGPT, Codex और OpenAI API के जरिए जनरेट की गई इमेज से होगी
- SynthID, C2PA metadata-आधारित approach को पूरक करने वाली अतिरिक्त watermarking layer की तरह काम करता है
- OpenAI पहले भी provenance और watermarking तरीकों को वास्तविक deployment environments में परखता रहा है
- Sora में visible watermark का उपयोग किया जाता है
- Voice Engine में audio watermark का उपयोग किया जाता है
- समय के साथ accuracy और reliability बनी रहती है या नहीं, इस पर लगातार testing और research की जाती है
- C2PA और SynthID एक-दूसरे की अलग-अलग कमज़ोरियों की भरपाई करते हैं
- C2PA कंटेंट में विस्तृत संदर्भ जोड़ने में मदद करता है, लेकिन metadata हटाया या क्षतिग्रस्त किया जा सकता है
- SynthID metadata न रहने पर भी signals को बनाए रखने में मदद करता है, और screenshot जैसे transformations में भी अधिक समय तक टिक सकता है
- Metadata, केवल watermark से संभव न होने वाली अधिक जानकारी देता है
- दोनों तरीकों को साथ इस्तेमाल करने पर कंटेंट provenance जानकारी की resilience, किसी एक को अकेले इस्तेमाल करने की तुलना में अधिक मज़बूत हो जाती है
सार्वजनिक verification tool preview
- OpenAI ने preview version में एक सार्वजनिक verification tool उपलब्ध कराया है, जो यह जांचने में मदद करता है कि कोई इमेज ChatGPT, OpenAI API या Codex से जनरेट हुई है या नहीं
- यह tool जांचता है कि अपलोड की गई इमेज में Content Credentials और SynthID जैसे provenance signals मौजूद हैं या नहीं
- लक्ष्य यह है कि कई signals को मिलाकर उपयोगकर्ताओं के लिए कंटेंट provenance जानकारी को verify और interpret करना आसान बनाया जाए
- सार्वजनिक verification tool, OpenAI से जुड़े SynthID वॉटरमार्क को भरोसेमंद तरीके से detect कर सकता है, और C2PA metadata मिलने पर उसे भी साथ दिखा सकता है
- क्योंकि कोई भी detection method पूरी तरह परफेक्ट नहीं होती, इसलिए detection विफल होने पर यह कोई निर्णायक निष्कर्ष नहीं देता
- अगर metadata या वॉटरमार्क detect नहीं होता, तो यह निश्चित रूप से नहीं कहा जाता कि वह इमेज OpenAI tools से जनरेट नहीं हुई
- कुछ मामलों में provenance signals हटाए जा सकते हैं
- लॉन्च के समय verification tool केवल OpenAI-जनित कंटेंट तक सीमित है
- अगले कुछ महीनों में लक्ष्य उन cross-industry प्रयासों का समर्थन करना है, जो platform-wide verification को संभव बनाते हैं
- उम्मीद है कि समय के साथ यह ऑनलाइन मिलने वाले और अधिक प्रकार के कंटेंट को भी सपोर्ट करेगा
आगे की चुनौतियाँ
- केवल एक provenance technology पर्याप्त नहीं है
- एक मज़बूत provenance approach में common standards, लंबे समय तक टिकने वाले watermarking signals और सार्वजनिक verification का संयोजन होना चाहिए
- OpenAI, Content Credentials के मौजूदा समर्थन, C2PA conformity, SynthID की शुरुआत और सार्वजनिक verification tool preview के जरिए अधिक interoperable provenance ecosystem में योगदान देना चाहता है
1 टिप्पणियां
Hacker News की राय
अगर काली पृष्ठभूमि के साथ AI इमेज बनाई जाए, तो ठीक-ठाक मॉनिटर पर SynthID दिखाई देता है। यह बस एक दोहराया जाने वाला धुंधला पैटर्न है, इसमें कुछ खास नहीं है
मैंने हर दूसरे पिक्सेल को mask करके, फिर गायब पिक्सेल को regenerate करके, उसके बाद 1-pixel offset देकर फिर हर दूसरे पिक्सेल को mask करने के तरीके से इसे काफ़ी अच्छी तरह हटा दिया
पिक्सेल भरने के लिए मैंने एक मौजूदा मॉडल इस्तेमाल किया, लेकिन बदलाव से पहले पहले depth map export किया और noise कम किया ताकि नए बने masked pixels मूल सामग्री से मेल खाएँ। नतीजा 100% परफ़ेक्ट नहीं था, लेकिन ज़्यादा समय देकर और इस काम के लिए fine-tuned मॉडल इस्तेमाल करके लगता है कि किसी भी AI watermarking को बिना बड़े झंझट के हटाया जा सकता है
https://deepwalker.xyz/blog/bypassing-synthid-in-gemini-phot...
metadata या SynthID में कैसी जानकारी जाती है? SynthID में अधिकतम कितने bits encode किए जा सकते हैं?
क्या synthetic content के लिए nutrition label जैसी कोई चीज़ बनाई जा सकती है? जैसे synthetic text 10%, synthetic image 30%
आज आपकी reality 15% synthetic थी (75% बड़ी कॉरपोरेट, 25% open-weight neocloud)
असल deployed version शायद काफ़ी अलग होगा
[0]:https://arxiv.org/html/2510.09263v1
SynthID पूरी तरह टूट चुका लगता है, लेकिन OpenAI का नया watermark शायद अभी नहीं टूटा है, यह दिलचस्प है [1]
[1] https://github.com/wiltodelta/remove-ai-watermarks
यह बस दिखावे के लिए की गई बकवास है
कई मीडिया में टूल्स से चीज़ें बनाने वाले व्यक्ति के तौर पर, ऐसे टूल्स जिनमें मेरी पसंद के बिना मनमाना metadata डाला जाता है, मैं बस उनसे बचूँगा
क्या video game textures बनाते समय मुझे ऐसा अजीब DRM कचरा भी डालना पड़ेगा? Photoshop को इतना समय हो गया, फिर वह अपवाद क्यों है?
Photoshop को Google या OpenAI ने नहीं बनाया, और Photoshop से photorealistic deceptive images बनाना AI की तुलना में कहीं कठिन है। पारंपरिक image editing के उपयोग को, भले ही अधूरा सही, detect करने की techniques पहले से मौजूद हैं
SynthID तभी DRM होगा जब Google या OpenAI अपनी images पर intellectual property rights का दावा करें, और मुझे नहीं पता कि वह क़ानूनी भी है या नहीं
अच्छा है। लोग कहते हैं कि इसे हटाया जा सकता है, लेकिन इसे reproducible तरीके से दिखाने वाला कोई repository मैंने अभी तक नहीं देखा
मैंने Nano Banana Pro के रिलीज़ वाले पहले दिन यह टेस्ट किया था और यह काम करता था। अभी भी Nano Banana 2 में काम करता है
मैंने इसे कहीं पोस्ट नहीं किया क्योंकि मुझे अहंकारी ढंग से लगा कि अगर इसे सार्वजनिक कर दूँ तो इंटरनेट और खराब हो जाएगा। लेकिन अगर यह बात मुझे पहले दिन ही सूझ गई, तो साफ़ है कि लाखों दूसरे programmers को भी सूझी होगी, इसलिए यह सिर्फ मेरा अहंकार था
हालाँकि, इसमें SD मॉडल के खास artifacts आ जाते हैं, और उन्हें किसी और तरीके से detect किया जा सकता है। या फिर अगर बहुत zoom करके ध्यान से देखें तो वे दिख सकते हैं
अभी इस पोस्ट के ठीक बगल में यह पोस्ट होना कमाल है: https://news.ycombinator.com/item?id=48200569
क्या यह mp3 metadata जैसी चीज़ है?
अगर AI इमेज का screenshot लिया जाए, तो क्या वह भी AI इमेज के रूप में दिखेगा? यह जानना चाहता हूँ कि यह इमेज के अंदर छिपा होता है या सिर्फ metadata है
पहले वे verify करेंगे कि फोटो OpenAI से आई है या नहीं, फिर उसमें subscriber data और location information डालेंगे
आख़िर में उन्हें पता चलेगा कि कोई भी AI-generated फोटो या text देखना ही नहीं चाहता। तब यह टूल आम जनता के लिए असफल होगा और सिर्फ सरकार के काम आएगा
क्या ऐसे watermarks हटाना या बिगाड़ना आसान नहीं है? लगता है यह सिर्फ तब तक मददगार है जब तक लोग इन पर कम निर्भर करते हैं और इन्हें बायपास करना मेहनत के लायक नहीं लगता
अगर social media platforms ऐसे watermark वाली images को ban करना शुरू कर दें, तो लगता है एक रात में सब इन्हें हटा देंगे
अब तक मैंने जो तरीके देखे हैं वे या तो editing features इस्तेमाल करते समय transparency या original image overlay जैसी अजीब tricks हैं, या diffusion model से NB-generated image को low noise level पर फिर से generate करना है, लेकिन उस स्थिति में मूल इमेज भी बदल जाती है
https://github.com/aloshdenny/reverse-SynthID
यह वास्तविक खुले मानक C2PA से कमतर लगता है: https://contentauthenticity.org/