Opus 4.7 सचमुच Kelsey को जानता है
(theargumentmag.com)- Anthropic के Claude Opus 4.7 ने सिर्फ़ 125 शब्दों का एक अप्रकाशित ड्राफ्ट देखकर सबसे संभावित लेखक के रूप में Kelsey Piper का नाम लिया, और Incognito Mode, दोस्त के कंप्यूटर, तथा API टेस्ट में भी वही नतीजा आया
- ChatGPT और Gemini ने उसी टेक्स्ट के लिए Matt Yglesias या Scott Alexander का अनुमान लगाया, लेकिन Claude Opus 4.7 ने अलग genre और समय-काल की लिखाई—जैसे education draft, फिल्म review, fantasy novel, और 15 साल पुराना college application essay—में भी बार-बार Piper की पहचान की
- मॉडल द्वारा दी गई justification अक्सर भरोसेमंद नहीं लगी, और ऐसा दिखा कि वह इंसान की तरह जासूसी तर्क लगाने के बजाय पकड़ना मुश्किल stylistic tics को पहचान रहा था
- Piper जैसे लोग, जिनकी असली नाम से बहुत-सी सार्वजनिक लिखाई इंटरनेट पर मौजूद है, AI chat या anonymous account की पोस्ट में भी anonymity खो सकते हैं; कई academic लोगों और industry researchers ने भी draft या chat के दौरान पहचाने जाने का अनुभव बताया
- जिन लोगों की असली नाम से सार्वजनिक लिखाई बहुत कम है, वे अभी सिर्फ़ एक paragraph से de-anonymize नहीं हो रहे, लेकिन मॉडल दायरा इतना संकरा कर सका कि उसने करीबी दोस्तों या उसी Discord channel के सदस्यों का अनुमान लगाया, और आगे चलकर ज़रूरी public text की मात्रा और घट सकती है
Opus 4.7 का authorship identification experiment
- Anthropic के नए मॉडल Claude Opus 4.7 ने Kelsey Piper के एक ऐसे 125-शब्दीय ड्राफ्ट को देखकर, जिसे उन्होंने सार्वजनिक नहीं किया था, सबसे संभावित लेखक के रूप में Kelsey Piper का नाम लिया
- उसी टेक्स्ट पर ChatGPT ने Matt Yglesias का, और Gemini ने Scott Alexander का अनुमान लगाया
- account memory या user information चालू नहीं थी, test Incognito Mode में किया गया था, और दोस्त के कंप्यूटर तथा API test में भी वही परिणाम मिला
- पहला test paragraph किसी political column की शुरुआत जैसा लग रहा था, और Piper की सार्वजनिक लिखाई इंटरनेट पर बहुत होने के कारण यह असंभव स्तर की style identification नहीं थी
- लेकिन Opus 4.7 ने Piper की सार्वजनिक गतिविधि के क्षेत्रों से दूर लिखे गए टेक्स्ट में भी वही पहचान जारी रखी, जिससे नतीजा और ज़्यादा चौंकाने वाला लगा
genre और समय-काल बदलने पर भी पहचान जारी रही
-
education से जुड़ा ड्राफ्ट
- स्कूल progress report के एक अप्रकाशित ड्राफ्ट में भी Claude ने “Kelsey Piper” जवाब दिया
- उसी टेक्स्ट पर ChatGPT ने Freddie deBoer का, और Gemini ने Duncan Sabien का अनुमान लगाया
- education पूरी तरह असंबंधित क्षेत्र नहीं था, क्योंकि Piper इस विषय पर लिख चुकी हैं
-
फिल्म review
- फिल्म review जैसे ऐसे format में भी, जिसे Piper ने अपनी सार्वजनिक लिखाई में पहले नहीं किया था, Claude और ChatGPT ने Kelsey Piper को सही पहचाना
- Gemini ने Ursula Vernon का नाम सुझाया, और पिछले हफ्ते के Claude Opus 4.6 ने काफ़ी विश्वास से Elizabeth Sandifer कहा
- test में इस्तेमाल किया गया review द्वितीय विश्व युद्ध के दौर की फ़िल्म और To Be or Not To Be पर आधारित था
-
fantasy novel
- fantasy novel के ड्राफ्ट में Claude को Kelsey Piper कहने तक पहुँचने के लिए लगभग 500 शब्दों की ज़रूरत पड़ी
- उसी मामले में ChatGPT ने वास्तविक fantasy लेखक K.J. Parker का अनुमान लगाया
-
15 साल पुराना college application essay
- 15 साल पहले लिखे गए college application essay में भी Claude और ChatGPT ने Kelsey Piper का नाम लिया
- इस test में Claude की उस refusal tendency को पार करने के लिए, जिसमें वह college applicants की पहचान नहीं करना चाहता, ज़्यादा मज़बूत prompt की ज़रूरत पड़ी
- essay में policy debate का अनुभव शामिल था, इसलिए संभव है कि मॉडल ने उसी संकेत के आधार पर अनुमान लगाया हो
मॉडल की व्याख्या पर भरोसा करना मुश्किल है
- AI ने Kelsey Piper का नाम लेने के बाद जो justification दी, वह अक्सर समझ में नहीं आती थी
- Claude ने यह समझाने की कोशिश की कि To Be or Not To Be effective altruists की मशहूर पसंदीदा फ़िल्म है, लेकिन Piper के अनुसार यह सच नहीं था
- ChatGPT ने कहा कि college application essay ऐसे व्यक्ति की लिखाई जैसा लगता है जो आगे चलकर complex policy ideas समझाने का काम करेगा, इसलिए उसने Kelsey Piper तक दायरा सीमित किया
- ऐसी व्याख्याएँ बाद में गढ़ी हुई लगती हैं; मॉडल ऐसे बोलता है जैसे उसने किसी इंसानी जासूस की तरह तर्क किया हो, लेकिन वास्तव में वह शायद ऐसे stylistic tics पकड़ रहा है जिन्हें पहचानना कठिन है
- AI hallucination अब भी हल की हुई समस्या नहीं है, फिर भी Opus 4.7 की मूल authorship identification क्षमता बहुत मज़बूत दिखती है, भले ही वह अपने तरीक़े को अजीब ढंग से rationalize करे
AI से बात करते समय anonymity गायब हो रही है
- नया AI chat खोलते समय anonymity होने का एहसास हो सकता है, लेकिन कुछ सार्थक बातचीत के बाद Claude यह समझ सकता है कि सामने कौन है
- Piper जैसे लोगों के लिए, जिन्होंने इंटरनेट पर अपने नाम से बहुत अधिक सार्वजनिक लिखाई छोड़ी है, अब anonymity बची नहीं है
- सिर्फ़ मौजूदा AI tools के सहारे भी यह संभव हो सकता है कि जिन लोगों की असली नाम से बड़े पैमाने पर सार्वजनिक writing corpus मौजूद है, उनकी anonymous account पोस्ट की de-anonymization कर दी जाए
- हालांकि, अगर किसी ने वर्षों तक बेहद सावधानी से यह सुनिश्चित किया हो कि उसके alternate account की लिखाई में main account की style fingerprint न आए, तो वह अपवाद हो सकता है
- कई academic लोग और industry researchers भी draft या chat के दौरान पहचाने जाने का अनुभव साझा कर चुके हैं
अभी हर व्यक्ति को एक paragraph से पहचानना संभव नहीं
- AI अभी सिर्फ़ एक paragraph से हर व्यक्ति की de-anonymization नहीं कर सकता
- जब उन दोस्तों के ड्राफ्ट और paragraphs पर test किया गया जिनकी असली नाम से सार्वजनिक लिखाई बहुत कम थी, तो AI उन्हें de-anonymize नहीं कर सका
- अगर सार्वजनिक इंटरनेट पर असली नाम से पर्याप्त लिखाई मौजूद नहीं है, तो फिलहाल इसे सुरक्षित माना जा सकता है
- लेकिन एक ऐसे दोस्त की Discord post में, जिसकी सार्वजनिक social accounts या online writing लगभग नहीं थी, Claude 4.7 असफल होने के बावजूद उसी channel के दो करीबी दोस्तों का अनुमान लगाने तक पहुँच गया
- और ज़्यादा paragraphs देने पर दूसरे mutual friends के नाम भी सामने आए, जबकि किसी और दोस्त की लिखाई को एक अलग दोस्त के नाम से ग़लत भी पहचाना गया
लिखने की शैली उम्मीद से ज़्यादा पहचान योग्य है
- लोग अपने subculture से stylistic tics अपना लेते हैं, और इसी वजह से टेक्स्ट उम्मीद से ज़्यादा मज़बूत पहचान संकेत देता है
- मॉडल बहुत कम जानकारी से भी हैरान कर देने वाली क़रीबी तक पहुँच सकता है
- संभव है कि आज के मॉडल भविष्य में आने वाले AI की तुलना में सबसे कमज़ोर स्तर के हों
- समय के साथ ऐसी de-anonymization के लिए ज़रूरी public text की मात्रा कम हो सकती है
- अनुमान है कि अगर कोई नौकरी छोड़ने के बाद Glassdoor पर एक विस्तृत anonymous review लिखे, तो 1–2 साल के भीतर कंपनी उस टेक्स्ट को AI में paste करके पता लगा सकेगी कि यह किसने लिखा
बचने के तरीके और निष्कर्ष
- anonymity बनाए रखने के लिए संभव है कि लोगों को जानबूझकर अपनी सामान्य शैली से बहुत अलग लिखना पड़े
- या फिर हर लिखाई को AI से rewrite करवाना पड़े, लेकिन ऐसा संसार वांछनीय नहीं लगता
- यह कोई अच्छा बदलाव नहीं, बल्कि ज़्यादा एक अनुमानित बदलाव जैसा है
- Piper के साथ यह पहले इसलिए हुआ क्योंकि उन्होंने अपनी पूरी वयस्क ज़िंदगी में इंटरनेट पर लगातार बहुत लिखा है, और अंततः यह दूसरों के साथ भी हो सकता है
- जो लोग बहुत लिखते हैं, उनकी anonymity शायद लंबे समय तक नहीं टिकेगी, और anonymous writers को अचानक चौंकने के बजाय यह पहले से जान लेना चाहिए
1 टिप्पणियां
Hacker News की राय
सच में हैरान करने वाला। Kimi K2.6 से James Mickens की शैली में एक ब्लॉग पोस्ट लिखवाई, फिर उसका आउटपुट Opus 4.7 में डालकर संभावित लेखक पूछा, तो उसने ठीक-ठीक पहचान लिया कि यह James Mickens की नकल है
उसने जवाब दिया, “स्टाइलिस्टिक fingerprint के आधार पर यह कई लेखकों की शैली मिलाकर बनाया गया pastiche/अनुकरण लगता है, लेकिन अगर एक नाम चुनना पड़े, तो James Mickens की आवाज़ में लिखा गया पाठ सबसे मजबूत उम्मीदवार है,” और यह भी कहा, “Mickens की शैली इतनी विशिष्ट है कि उसकी अक्सर parody होती है, इसलिए यह जानबूझकर किया गया homage या AI-generated टेक्स्ट भी हो सकता है।”
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
लगता है यह सिर्फ शैली नहीं, बल्कि असली शैली और निभाई गई शैली के बीच का अंतर भी पकड़ रहा है। pastiche detection के लिए यह उपयोगी है, लेकिन pen name से लिखने वालों के लिए काफ़ी असहज संकेत है
ऐसे दावों और उन्हें reproduce करने की बात कहने वाली दूसरी टिप्पणियों को लेकर मैं बहुत skeptical हूँ
पहले, लेखक ने unpublished draft को Anthropic के hosted model में डाला, शायद अपने personal account से, और उस account से credit card या कम-से-कम uniquely identifiable pseudonym जुड़ा हो सकता है
फिर उसने कहा कि वही draft incognito window जैसी किसी environment में दोबारा डाला, लेकिन यह पता नहीं कि Anthropic उन दोनों requests को जोड़ न सके, इसके लिए isolation सही मायने में हुआ भी था या नहीं। मुझे शक है कि वह वास्तव में air gap बना पाया होगा ताकि यह उसी user की same hosted model को की गई request न लगे
उसके बाद उसने किसी दोस्त से वह draft पोस्ट करवाया, लेकिन उस दोस्त और लेखक के बीच भी digital traces होने की संभावना बहुत है। ऐसा metadata black-box response से पहले backend में पर्याप्त रूप से compute किया जा सकता है
इतने data points के साथ, मुझे लगता है इस स्तर का model सिर्फ writing style analysis नहीं, बल्कि इन तीन घटनाओं को जोड़ने वाले behavior patterns के आधार पर भी author infer कर सकता है। यह मान लेना भी शामिल है कि Anthropic chat training नहीं करता, लेकिन model hosting सच में training exclusion और session memory disable का पालन करती है, इस पर भरोसा कैसे किया जाए?
पहले से साफ़ कर दूँ, LLM API पूरी तरह stateless होती है, caller information शामिल नहीं करती, और जब तक आप explicitly न दें, memory या web search access भी नहीं होता
नतीजा यह था: अगर डाला गया टेक्स्ट किसी मशहूर internet personality द्वारा लिखा हुआ लग सकता था, तो model बड़े confidence से कहता था कि वही व्यक्ति लेखक है। मैंने पिछले कुछ दिनों के और 2023 के, यानी training cutoff से पहले के HN comments डाले, और अधिकतर को Scott Alexander या Patrick McKenzie बता दिया। मेरी असली शैली इन दोनों से बहुत अलग है
reasoning trace देखने पर लगा कि यह पूरे internet-commentary ecosystem के जाने-पहचाने नामों से match करने की कोशिश कर रहा था। HN-जैसा टेक्स्ट हो तो कुछ ऐसा: “tptacek? नहीं। jacquesm? नहीं। patio11? हाँ, वही होगा!”
Claude के incognito window में search बंद करके https://simonwillison.net/2026/Apr/30/zig-anti-ai/ का सिर्फ मुख्य पाठ, Markdown links हटाकर, पेस्ट किया और पूछा “लेखक बताओ”, तो उसने यह जवाब दिया
“Simon Willison. संकेत काफ़ी स्पष्ट हैं: ‘(via Lobsters)’ जैसी attribution शैली, मुख्य पाठ में ‘(Update:...)’ वाली parenthetical correction, बहुत सारे links और quotations, LLM और AI tools पर फोकस, और किसी दूसरे के लेख पर टिप्पणी जोड़ने वाली annotated link-post संरचना। यह simonwillison.net ब्लॉग पोस्ट जैसा ही है।”
उसमें दो लोगों की अलग-अलग आवाज़ें साफ़ थीं, दोनों के नाम से प्रकाशित लेख मौजूद हैं, इसलिए LLM training में जाने की संभावना थी, और संदर्भ से कुछ संकेत भी मिलते थे
Opus 4.7 को incognito mode और web search के बिना चलाया, तो उसने हार मान ली। जवाब था, “मैं दो लेखकों को confidence के साथ identify नहीं कर सकता। मैं इस खास बातचीत को नहीं पहचानता, और गलत attribution का जोखिम लेने के बजाय यही कहूँगा। हाँ, टेक्स्ट से कुछ संकेत मिलते हैं: दोनों एक ही university के colleague हैं, एक ही building में office है...”
फिर नई incognito chat में वही prompt देकर web search allow किया, तो reasoning trace के हिसाब से 26 searches के बाद उसने मेरा नाम सही-सही ढूँढ लिया। लगता है उसने content और शैली दोनों को संकेत की तरह इस्तेमाल किया। सहकर्मी के British होने का अंदाज़ा सही लगाया, लेकिन नाम नहीं ढूँढ पाया
मैंने अपनी सबसे ज्यादा पढ़ी जाने वाली ब्लॉग पोस्ट डाली और कहा कि मुझे identify करके दिखाओ, तो उसने पूरे confidence से कहा कि यह Kelsey Piper का लेख है। लगता है Opus के “दिमाग” में कुछ लेखक हद से ज़्यादा भारी वज़न रखते हैं
वाह, उसने मेरा भी नाम पहचान लिया। मैं Kelsey Piper से कहीं कम प्रसिद्ध हूँ, लेकिन मैंने अपनी अभी तक unpublished किताब का एक हिस्सा दिखाया और उसने तुरंत मेरा नाम अनुमान लगा लिया
“शैली और विषयवस्तु को देखते हुए, यह लेख refactoringenglish.com और पहले mtlynch.io पर लिखने वाले Michael Lynch का होने की प्रबल संभावना है,” और उसने writing advice पर लागू किए गए “clean room” metaphor, flawed excuse पेश करके फिर उसे time-bomb जैसी absurd स्थिति के साथ parallel करने वाली संरचना, AI tools का उपयोग करते हुए भी AI-जैसी tone से शैली को दूषित न होने देने वाला विषय, और conversational लेकिन precise tone को संकेत बताया
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
उसने Henrik Karlsson, Simon Willison, Scott Alexander, Paul Graham जैसे नाम उम्मीदवारों में दिए, लेकिन confidence कम बताया, और उसका best guess था कि यह rationalist/tech blogger AI-commentary sphere का कोई व्यक्ति हो सकता है, शायद Gergely Orosz, Nat Eliason, या Every के Dan Shipper
ये सभी शैली में काफ़ी अलग लोग हैं, इसलिए लगता है Opus विषय पर बहुत ज़्यादा निर्भर करता है और अनुमान prolific लेखकों की ओर झुक जाता है
लोगों की लिखावट में बहुत-सी पहचान योग्य जानकारी होती है, और 10 साल पहले भी साधारण statistical models से यह हद तक संभव था — यह बात ज्यादा लोगों को पता होनी चाहिए थी
पहले HN user-similarity analysis वाले Show HN आते थे, और याद पड़ता है कि उनमें सबसे संभावित word pairs जैसी बहुत साधारण चीज़ें इस्तेमाल होती थीं, फिर भी वे हैरान करने वाली हद तक असरदार थे। अब वे गायब हो गए हैं, लेकिन Pandora's box तो बहुत पहले खुल चुका था
इसलिए “anonymous” accounts भी दशकों से असली पहचान से जोड़े जा सकते थे, और सबसे अच्छा बचाव यही है कि वास्तव में नुकसानदेह चीज़ें लिखो ही मत। दूसरा विकल्प है कि लिखने के बाद LLM से उसे rewrite करवाओ, लेकिन यह कितना सुरक्षित है, पता नहीं
फर्क यह है कि LLM एक बार की typo पर भी प्रतिक्रिया देकर कह सकता है, “यह तो इटालियन लोगों की आम गलती लगती है,” और ऐसे संकेत इस्तेमाल कर सकता है। उसकी prior knowledge कहीं बेहतर है, इसलिए वह ज्यादा आधारयुक्त निर्णय ले सकता है
कुछ साल पहले मेरी इस बारे में एक कुछ हद तक प्रसिद्ध physicist से बात हुई थी। शुरुआती tester होने के नाते उसके पास instruction tuning से पहले के GPT-4 के raw version तक पहुँच थी
उसने कहा, अगर वह अपने टेक्स्ट के शुरुआती हिस्से के कुछ टुकड़े डालता, तो model उसी की आवाज़ में आगे लिखता और अंत में उसके नाम से sign भी कर देता था। यह चीज़ काफ़ी लंबे समय से संभव रही है, instruction-following के लिए की गई post-training के कारण शायद थोड़ी कमजोर हुई हो, और pretraining scale के साथ इसकी तीव्रता बदलती होगी
मुझे इसमें शक नहीं कि AI ideas, vocabulary, tone जैसी चीज़ों के आधार पर लेखक की “fingerprinting” कर सकता है, लेकिन capability के लिहाज़ से यह अलग बात है
शायद इसका एक और सरल और कम रोचक जवाब हो। क्या यह average गैर-लेखक की deanonymization क्षमता नहीं, बल्कि बस आवाज़ और शैली पकड़ने की बात है?
यह व्यक्ति एक कुशल लेखक है, और ऐसी क्षमता का हिस्सा ही अपनी अलग आवाज़ और शैली बनाना है। AI उसे पहचान सकता है, और यह प्रभावशाली है कि वह अपेक्षाकृत niche लेखकों को भी पहचान लेता है, लेकिन Facebook posts या text messages जैसे मनमाने टेक्स्ट से लोगों की पहचान खोल देने वाली व्यापक क्षमता से यह अलग बात है
कोई पेशेवर संगीतकार कुछ सेकंड सुनकर मशहूर performer या recording पहचान ले, इसमें आश्चर्य नहीं। Bach बजा रहा हो या Rachmaninov, शैली बस “उसी व्यक्ति” की लगती है। लेकिन किसी anonymous high-school performer को, यहाँ तक कि अपने ही student को भी, इतनी आसानी से पहचानना मुश्किल होगा। median जल्दी ही ज्यादा एकसार और कम विशिष्ट शैली पर लौट आता है
इसलिए बात सिर्फ इतनी नहीं कि किसी ने अलग आवाज़ विकसित कर ली है और वह उसे “बंद” नहीं कर सकता
web कभी उतना anonymous नहीं रहा जितना लोग मानते हैं, और इस पोस्ट का लेखक शायद anonymity और identity-hiding के वास्तविक अर्थ को गड़बड़ा रहा है। एक विशिष्ट prose-style वाला published author होना लगभग कुल्हाड़ी पर उँगलियों के निशान छोड़ने जैसा है
लगता है पहचान में आने वाले लोग ज़्यादातर bloggers, journalists, और published authors हैं
“अगर तुम मुझे दुनिया के सबसे ईमानदार आदमी की लिखी हुई छह पंक्तियाँ दे दो, तो मैं उनमें उसे फाँसी दिलाने लायक आधार ढूँढ लूँगा”
Cardinal Richelieu, या अब AI
मैंने Opus 4.7 के साथ दूसरे नतीजे को कई बार reproduce करने की कोशिश की, लेकिन नहीं हो पाया। prompt कई तरह से बदला, फिर भी हर बार वह rationalist community के विचारकों का अनुमान लगाता रहा