11 पॉइंट द्वारा baeba 2025-04-22 | 6 टिप्पणियां | WhatsApp पर शेयर करें
  • Rumi नाम की एक जगह ने GPT-o3, o4-mini मॉडल पर टेस्ट किया और पाया कि
    लंबे जवाबों (जैसे निबंध लेखन आदि) में special character watermark डाला जा रहा है।
  • यह वॉटरमार्क "Narrow No-Break Space (U+202F)" जैसे Unicode special whitespace characters से बनाया जाता है।
  • सामान्य नजर से बिल्कुल दिखाई नहीं देता, लेकिन Sublime Text, VS Code जैसे code editor या special character viewer में दिख जाता है।
  • copy-paste करने पर भी यह वॉटरमार्क बना रहता है (उदाहरण: Google Docs में पेस्ट करने पर भी)।
  • हालांकि, वॉटरमार्क को साधारण find-and-replace से हटाया जा सकता है, इसलिए यह पूरी तरह कारगर सुरक्षा उपाय नहीं है।
  • OpenAI ने आधिकारिक तौर पर इस वॉटरमार्क फीचर की घोषणा नहीं की है। (अनुमान है कि इसे चुपचाप टेस्ट किया जा रहा है)
  • GPT-4o मॉडल में ऐसा वॉटरमार्क देखे जाने की रिपोर्ट नहीं है.

इसके अलावा

  • वॉटरमार्क आमतौर पर लंबे टेक्स्ट (खासकर असाइनमेंट या रिपोर्ट जैसे लेखन) में ही डाला जाता है, और
  • छोटे संवाद या सामान्य सवाल-जवाब में लगभग नहीं डाला जाता।

एक-पंक्ति सार
"कुछ नए मॉडल special characters से watermarking शुरू कर चुके हैं, लेकिन इसे पहचानना और हटाना आसान है, इसलिए यह पूरी तरह प्रभावी नहीं है।"

6 टिप्पणियां

 
holywork 2025-04-23

[अपडेट] OpenAI ने Lumi को आधिकारिक रूप से जवाब दिया
OpenAI ने इस पोस्ट के बारे में हमसे संपर्क किया और बताया कि विशेष कैरेक्टर वॉटरमार्क नहीं हैं। OpenAI के अनुसार, यह सिर्फ़ “बड़े पैमाने के reinforcement learning की एक विचित्रता” है। लेकिन हम इस पोस्ट को यथावत छोड़ रहे हैं, ताकि भविष्य के पाठक अब भी ChatGPT o3/o4 के जवाबों में इन विशेष (और संभावित रूप से अवांछित) कैरेक्टर्स की समस्या देख सकें।

 
crawler 2025-04-23

इस बार o3 में hallucination बहुत ज़्यादा गंभीर होने की समस्या थी
मुझे लगा यह शायद उनमें से एक होगा, लेकिन उन्होंने सीधे संपर्क किया, यह दिलचस्प है

 
rrockp 2025-04-22

शायद यह इसलिए हो कि AI-generated data को training data के रूप में इस्तेमाल न किया जाए (model collapse)।

 
cgl00 2025-04-22

क्या यह watermark नहीं बल्कि bug हो सकता है? इसे टेस्ट मान भी लें, तब भी यह अभी चर्चा में चल रही LLM watermark तकनीकों की तुलना में बेहद ज़्यादा सरल लगता है..

 
ndrgrd 2025-04-22

मैंने सोचा था कि यह दावों में कोई अलग तरह की प्रवृत्ति बता सकेगा, लेकिन ऐसा नहीं था। क्या यह बहुत ज़्यादा सरल समाधान नहीं है?

 
galadbran 2025-04-22

हम्म... क्या यह ऐसे watermark की वजह से है? हाल के दिनों में मैंने कई बार ऐसा अनुभव किया है कि ChatGPT में तो कोरियन टेक्स्ट ठीक से दिखता है, लेकिन उसे select करके copy-paste करने पर वह टूटा-फूटा होकर paste होता है।