2 पॉइंट द्वारा GN⁺ 2 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenAI ने AI-जनित कंटेंट की पहचान के लिए C2PA conformity, SynthID वॉटरमार्किंग और एक सार्वजनिक verification tool को मिलाकर अपने बहु-स्तरीय provenance model को मज़बूत किया है
  • C2PA metadata और cryptographic signatures के ज़रिए कंटेंट के निर्माण और संपादन के संदर्भ को साथ लेकर चलता है, लेकिन transformation की प्रक्रिया में यह क्षतिग्रस्त हो सकता है
  • Google DeepMind का SynthID, ChatGPT, Codex और OpenAI API से बनी इमेज में अदृश्य वॉटरमार्क जोड़कर metadata की कमज़ोरियों की भरपाई करता है
  • सार्वजनिक verification tool preview, अपलोड की गई इमेज में Content Credentials और SynthID की जांच करके यह समझने में मदद करता है कि वह OpenAI से जनरेट हुई है या नहीं
  • केवल एक तकनीक पर्याप्त नहीं है; common standards, टिकाऊ watermarking और सार्वजनिक verification को जोड़ने पर ही provenance ecosystem मज़बूत बनता है

कंटेंट provenance approach को मज़बूत करना

  • OpenAI ऑनलाइन भरोसा बनाने के लिए अपने multi-layered provenance model को मज़बूत कर रहा है और open standards व cross-platform collaboration के आधार पर AI-जनित कंटेंट की पहचान-क्षमता बढ़ाना चाहता है
  • तीन मुख्य बदलाव हैं
    • C2PA conformity के जरिए दूसरे tools और platforms के लिए provenance signals को आसानी से पहचानना संभव बनाना
    • Google के साथ मिलकर इमेज में SynthID watermarking जोड़ना
    • एक सार्वजनिक verification tool preview देना, जिससे लोग जांच सकें कि कोई इमेज OpenAI ने बनाई है या नहीं
  • Provenance signals यह समझने के लिए ज़रूरी संदर्भ देते हैं कि कंटेंट कहाँ से आया, कैसे बनाया या संपादित किया गया, और क्या वह अपने दावे के अनुरूप है

C2PA conformity के ज़रिए trust ecosystem

  • OpenAI 2024 से provenance standards के विकास और अपनाने में शामिल है, और DALL·E 3 से जनरेट की गई इमेज में Content Credentials जोड़ना शुरू किया था
  • बाद में ImageGen और Sora में भी Content Credentials लागू किए गए
  • OpenAI, कंटेंट provenance के लिए open technical standards को आगे बढ़ाने वाली cross-industry body Coalition for Content Provenance and Authenticity(C2PA) की steering committee में शामिल हो गया है
  • C2PA, metadata और cryptographic signatures का उपयोग करके media-संबंधित जानकारी को कंटेंट के साथ सुरक्षित रूप से आगे ले जाने में मदद करता है
  • यह जानकारी provenance का मूल्यांकन करने वाले पत्रकारों, integrity से जुड़े निर्णय लेने वाले platforms, और ऑनलाइन कंटेंट को समझने की कोशिश कर रहे लोगों को संदर्भ देती है
  • OpenAI हाल ही में C2PA conformant generative product बना है
  • C2PA conformity वह आधार देती है जिससे platforms कंटेंट से जुड़ी provenance जानकारी को भरोसेमंद तरीके से पढ़, सुरक्षित रख और आगे भेज सकें
  • जब provenance जानकारी शुरुआती generation platform से आगे भी बनी रहती है, तब उसका महत्व बढ़ता है, और conformance compliance इसे संभव बनाता है

SynthID के साथ बहु-स्तरीय इमेज provenance

  • C2PA metadata वह आधार है जो यह जानकारी साथ लेकर चलता है कि कंटेंट कहाँ से आया, कैसे बनाया या संपादित किया गया, और इस जानकारी पर किसने हस्ताक्षर किए
  • Metadata हटाया जा सकता है, upload-download प्रक्रिया में गायब हो सकता है, या file format बदलने, resizing और screenshot जैसे transformations से क्षतिग्रस्त हो सकता है
  • Provenance जानकारी को अधिक मज़बूत बनाने के लिए OpenAI ने Google DeepMind के SynthID के जरिए अदृश्य वॉटरमार्क अपनाया है
  • इसकी शुरुआत ChatGPT, Codex और OpenAI API के जरिए जनरेट की गई इमेज से होगी
  • SynthID, C2PA metadata-आधारित approach को पूरक करने वाली अतिरिक्त watermarking layer की तरह काम करता है
  • OpenAI पहले भी provenance और watermarking तरीकों को वास्तविक deployment environments में परखता रहा है
    • Sora में visible watermark का उपयोग किया जाता है
    • Voice Engine में audio watermark का उपयोग किया जाता है
    • समय के साथ accuracy और reliability बनी रहती है या नहीं, इस पर लगातार testing और research की जाती है
  • C2PA और SynthID एक-दूसरे की अलग-अलग कमज़ोरियों की भरपाई करते हैं
    • C2PA कंटेंट में विस्तृत संदर्भ जोड़ने में मदद करता है, लेकिन metadata हटाया या क्षतिग्रस्त किया जा सकता है
    • SynthID metadata न रहने पर भी signals को बनाए रखने में मदद करता है, और screenshot जैसे transformations में भी अधिक समय तक टिक सकता है
    • Metadata, केवल watermark से संभव न होने वाली अधिक जानकारी देता है
  • दोनों तरीकों को साथ इस्तेमाल करने पर कंटेंट provenance जानकारी की resilience, किसी एक को अकेले इस्तेमाल करने की तुलना में अधिक मज़बूत हो जाती है

सार्वजनिक verification tool preview

  • OpenAI ने preview version में एक सार्वजनिक verification tool उपलब्ध कराया है, जो यह जांचने में मदद करता है कि कोई इमेज ChatGPT, OpenAI API या Codex से जनरेट हुई है या नहीं
  • यह tool जांचता है कि अपलोड की गई इमेज में Content Credentials और SynthID जैसे provenance signals मौजूद हैं या नहीं
  • लक्ष्य यह है कि कई signals को मिलाकर उपयोगकर्ताओं के लिए कंटेंट provenance जानकारी को verify और interpret करना आसान बनाया जाए
  • सार्वजनिक verification tool, OpenAI से जुड़े SynthID वॉटरमार्क को भरोसेमंद तरीके से detect कर सकता है, और C2PA metadata मिलने पर उसे भी साथ दिखा सकता है
  • क्योंकि कोई भी detection method पूरी तरह परफेक्ट नहीं होती, इसलिए detection विफल होने पर यह कोई निर्णायक निष्कर्ष नहीं देता
    • अगर metadata या वॉटरमार्क detect नहीं होता, तो यह निश्चित रूप से नहीं कहा जाता कि वह इमेज OpenAI tools से जनरेट नहीं हुई
    • कुछ मामलों में provenance signals हटाए जा सकते हैं
  • लॉन्च के समय verification tool केवल OpenAI-जनित कंटेंट तक सीमित है
  • अगले कुछ महीनों में लक्ष्य उन cross-industry प्रयासों का समर्थन करना है, जो platform-wide verification को संभव बनाते हैं
  • उम्मीद है कि समय के साथ यह ऑनलाइन मिलने वाले और अधिक प्रकार के कंटेंट को भी सपोर्ट करेगा

आगे की चुनौतियाँ

  • केवल एक provenance technology पर्याप्त नहीं है
  • एक मज़बूत provenance approach में common standards, लंबे समय तक टिकने वाले watermarking signals और सार्वजनिक verification का संयोजन होना चाहिए
  • OpenAI, Content Credentials के मौजूदा समर्थन, C2PA conformity, SynthID की शुरुआत और सार्वजनिक verification tool preview के जरिए अधिक interoperable provenance ecosystem में योगदान देना चाहता है

1 टिप्पणियां

 
GN⁺ 2 시간 전
Hacker News की राय
  • अगर काली पृष्ठभूमि के साथ AI इमेज बनाई जाए, तो ठीक-ठाक मॉनिटर पर SynthID दिखाई देता है। यह बस एक दोहराया जाने वाला धुंधला पैटर्न है, इसमें कुछ खास नहीं है
    मैंने हर दूसरे पिक्सेल को mask करके, फिर गायब पिक्सेल को regenerate करके, उसके बाद 1-pixel offset देकर फिर हर दूसरे पिक्सेल को mask करने के तरीके से इसे काफ़ी अच्छी तरह हटा दिया
    पिक्सेल भरने के लिए मैंने एक मौजूदा मॉडल इस्तेमाल किया, लेकिन बदलाव से पहले पहले depth map export किया और noise कम किया ताकि नए बने masked pixels मूल सामग्री से मेल खाएँ। नतीजा 100% परफ़ेक्ट नहीं था, लेकिन ज़्यादा समय देकर और इस काम के लिए fine-tuned मॉडल इस्तेमाल करके लगता है कि किसी भी AI watermarking को बिना बड़े झंझट के हटाया जा सकता है

    • यह मानना मुश्किल है कि 0.5-bit watermark जैसे watermark, जो सिर्फ मौजूदगी बताने के लिए होते हैं, हटाए जा सकते हैं। जो दिख रहा है वह शायद एक functional decoy हो सकता है
    • क्या इमेज को बस थोड़ा सा stretch या compress कर देने से काम नहीं चल जाएगा?
    • यह दिलचस्प है कि ज़्यादा समय देकर और किसी खास उपयोग के लिए fine-tuned मॉडल के साथ किसी भी AI watermarking को बिना बड़ी दिक्कत हटाया जा सकता है। AI को AI के खिलाफ इस्तेमाल करना हमेशा मज़ेदार होता है
    • इसे बायपास करना निश्चित रूप से संभव है। हमारे कुछ engineers ने भी बहुत पहले इस पर काम किया था
      https://deepwalker.xyz/blog/bypassing-synthid-in-gemini-phot...
  • metadata या SynthID में कैसी जानकारी जाती है? SynthID में अधिकतम कितने bits encode किए जा सकते हैं?
    क्या synthetic content के लिए nutrition label जैसी कोई चीज़ बनाई जा सकती है? जैसे synthetic text 10%, synthetic image 30%
    आज आपकी reality 15% synthetic थी (75% बड़ी कॉरपोरेट, 25% open-weight neocloud)

    • अक्टूबर 2025 का SynthID-Image paper[0] शायद 512x512 इमेज में flag verification या 136-bit payload को टेस्ट करता था, और कई तरह के transformations के बाद watermark की robustness देखता था, ऐसा encoder-decoder लगता है
      असल deployed version शायद काफ़ी अलग होगा
      [0]:https://arxiv.org/html/2510.09263v1
    • इसमें user ID या व्यक्तिगत fingerprint भी डाला जा सकता है। बहुत पहले printers में ऐसा डाला जाता था, और अब हर generated photo और image में भी यह आसानी से संभव हो जाएगा
    • शायद यह संभव नहीं होगा। अगर synthetic टुकड़ों को किसी मूल इमेज पर चिपका दिया जाए, तो SynthID शायद उसे जान नहीं पाएगा
  • SynthID पूरी तरह टूट चुका लगता है, लेकिन OpenAI का नया watermark शायद अभी नहीं टूटा है, यह दिलचस्प है [1]
    [1] https://github.com/wiltodelta/remove-ai-watermarks

  • यह बस दिखावे के लिए की गई बकवास है
    कई मीडिया में टूल्स से चीज़ें बनाने वाले व्यक्ति के तौर पर, ऐसे टूल्स जिनमें मेरी पसंद के बिना मनमाना metadata डाला जाता है, मैं बस उनसे बचूँगा
    क्या video game textures बनाते समय मुझे ऐसा अजीब DRM कचरा भी डालना पड़ेगा? Photoshop को इतना समय हो गया, फिर वह अपवाद क्यों है?

    • यह परफ़ेक्ट नहीं है, इसका मतलब यह नहीं कि बेकार है। मैंने ऑनलाइन ऐसे पोस्ट देखे हैं जहाँ किसी ने Google के SynthID checker से इमेज चलाकर साबित किया कि वह नकली थी
      Photoshop को Google या OpenAI ने नहीं बनाया, और Photoshop से photorealistic deceptive images बनाना AI की तुलना में कहीं कठिन है। पारंपरिक image editing के उपयोग को, भले ही अधूरा सही, detect करने की techniques पहले से मौजूद हैं
    • मुझे यक़ीन है कि Photoshop और generative AI में फ़र्क करने वाले कई तत्व आसानी से सोचे जा सकते हैं
    • सख़्ती से देखें तो DRM का मतलब digital rights management है, और यह intellectual property से जुड़ा है
      SynthID तभी DRM होगा जब Google या OpenAI अपनी images पर intellectual property rights का दावा करें, और मुझे नहीं पता कि वह क़ानूनी भी है या नहीं
    • संदर्भ के लिए: https://en.wikipedia.org/wiki/Printer_tracking_dots
    • आज प्रति मिनट संभव अधिकतम सैद्धांतिक misinformation production rate की तुलना 2021 के Photoshop से कैसी होगी?
  • अच्छा है। लोग कहते हैं कि इसे हटाया जा सकता है, लेकिन इसे reproducible तरीके से दिखाने वाला कोई repository मैंने अभी तक नहीं देखा

    • Stable Diffusion में 10~15% denoise strength काफ़ी है
      मैंने Nano Banana Pro के रिलीज़ वाले पहले दिन यह टेस्ट किया था और यह काम करता था। अभी भी Nano Banana 2 में काम करता है
      मैंने इसे कहीं पोस्ट नहीं किया क्योंकि मुझे अहंकारी ढंग से लगा कि अगर इसे सार्वजनिक कर दूँ तो इंटरनेट और खराब हो जाएगा। लेकिन अगर यह बात मुझे पहले दिन ही सूझ गई, तो साफ़ है कि लाखों दूसरे programmers को भी सूझी होगी, इसलिए यह सिर्फ मेरा अहंकार था
      हालाँकि, इसमें SD मॉडल के खास artifacts आ जाते हैं, और उन्हें किसी और तरीके से detect किया जा सकता है। या फिर अगर बहुत zoom करके ध्यान से देखें तो वे दिख सकते हैं
    • शुरुआत से ही कोई दूसरा मॉडल इस्तेमाल करना कहीं आसान लगता है
    • हटाया तो जाएगा, लेकिन बहुत से लोग ऐसा नहीं करेंगे। मैंने वास्तव में SynthID से detect होने वाली misinformation देखी है
  • अभी इस पोस्ट के ठीक बगल में यह पोस्ट होना कमाल है: https://news.ycombinator.com/item?id=48200569

  • क्या यह mp3 metadata जैसी चीज़ है?
    अगर AI इमेज का screenshot लिया जाए, तो क्या वह भी AI इमेज के रूप में दिखेगा? यह जानना चाहता हूँ कि यह इमेज के अंदर छिपा होता है या सिर्फ metadata है

    • यह इमेज के अंदर होता है, और इसे इस तरह डिज़ाइन किया गया है कि ऐसे कामों के बाद भी बचा रहे
  • पहले वे verify करेंगे कि फोटो OpenAI से आई है या नहीं, फिर उसमें subscriber data और location information डालेंगे
    आख़िर में उन्हें पता चलेगा कि कोई भी AI-generated फोटो या text देखना ही नहीं चाहता। तब यह टूल आम जनता के लिए असफल होगा और सिर्फ सरकार के काम आएगा

    • फोटो जैसी यथार्थवादी AI generation का एकमात्र उपयोग धोखा देना ही लगता है। अमेरिका के राजनीतिक विज्ञापनों में AI-generated वीडियो पहले से इस्तेमाल हो रहे हैं
  • क्या ऐसे watermarks हटाना या बिगाड़ना आसान नहीं है? लगता है यह सिर्फ तब तक मददगार है जब तक लोग इन पर कम निर्भर करते हैं और इन्हें बायपास करना मेहनत के लायक नहीं लगता
    अगर social media platforms ऐसे watermark वाली images को ban करना शुरू कर दें, तो लगता है एक रात में सब इन्हें हटा देंगे

    • नहीं। जो transformations आसानी से किए जा सकते हैं, उनके खिलाफ यह काफ़ी मज़बूत है। फिर भी मैं यह नहीं कहूँगा कि इसे हटाना असंभव है
    • असली Nano Banana 2/NBPro output से वास्तविक SynthID watermark हटाने वाला एक भी GitHub repository मैंने अभी तक नहीं देखा। ज़्यादातर अभी भी ऐसे research projects हैं जिनमें अभी तक ठोस नतीजे नहीं आए
      अब तक मैंने जो तरीके देखे हैं वे या तो editing features इस्तेमाल करते समय transparency या original image overlay जैसी अजीब tricks हैं, या diffusion model से NB-generated image को low noise level पर फिर से generate करना है, लेकिन उस स्थिति में मूल इमेज भी बदल जाती है
    • “आसान” की परिभाषा चाहिए। इमेज के spectrum analysis पर आधारित approaches हैं, और ऊपर-ऊपर देखने पर वे काम करती लगती हैं
      https://github.com/aloshdenny/reverse-SynthID
    • यह कुछ साल पहले सार्वजनिक हुआ था और लगता है अभी तक टूटा नहीं है। कभी न कभी टूटेगा, लेकिन अगर deepfake बनाने के बाद उसे Facebook पर पोस्ट करने से पहले 1~2 साल इंतज़ार करना पड़े, तो शायद उतना भी काफ़ी हो। शायद एक महीने की देरी भी काफ़ी हो सकती है
    • बहुत विस्तार से दिए गए निर्देशों के आधार पर AI से इमेज को शुरू से फिर बनवाने का तरीका शायद काम कर जाए
  • यह वास्तविक खुले मानक C2PA से कमतर लगता है: https://contentauthenticity.org/