- हालिया Hacker News के नए अकाउंट्स के comment patterns के विश्लेषण में, मौजूदा यूज़र्स की तुलना में स्पष्ट अंतर देखा गया
- नए अकाउंट्स के comments में 17.47% में EM dash (—), arrows जैसे special symbols का उपयोग मिला, जो मौजूदा अकाउंट्स के 1.83% की तुलना में लगभग 10 गुना अधिक है
- इसके अलावा, नए अकाउंट्स में AI और LLM से जुड़े शब्दों का उल्लेख होने की संभावना 18.67% रही, जो मौजूदा अकाउंट्स के 11.8% से अधिक है
- यह विश्लेषण
/newcomments और /noobcomments डेटा के आधार पर लगभग 700-700 samples की तुलना का परिणाम है
- ये आँकड़े HN कम्युनिटी में automated accounts (bots) बढ़ने की संभावना की ओर संकेत करते हैं
HN comments में असामान्य संकेतों का अवलोकन
- पिछले कुछ महीनों में HN पर bots के तेज़ी से बढ़ने जैसी स्थिति देखी गई
- कुछ अकाउंट्स केवल अर्थहीन strings या numbers पोस्ट करते हैं
- उदाहरण के तौर पर “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” जैसे उलझे हुए टेक्स्ट या “1662476506”, “Аё” जैसे single-character comments शामिल हैं
- इन अकाउंट्स के अलावा भी सामान्य दिखने वाले लेकिन अटपटे या विषय से मेल न खाने वाले comments बड़ी संख्या में मौजूद हैं
डेटा संग्रह और विश्लेषण की विधि
/newcomments (हाल के comments) और /noobcomments (नए अकाउंट्स के comments) पेजों को scrape करके comparative analysis किया गया
- हर समूह से लगभग 700 comment samples इकट्ठा कर simple statistics की गणना की गई
प्रमुख सांख्यिकीय परिणाम
- नए अकाउंट्स के comments में 17.47% में EM dash, arrows जैसे special symbols शामिल थे, जो मौजूदा अकाउंट्स के 1.83% की तुलना में लगभग 10 गुना अंतर है
- सांख्यिकीय महत्व p = 7e-20
- नए अकाउंट्स के comments में 18.67% में AI या LLM से जुड़े उल्लेख थे, जो मौजूदा अकाउंट्स के 11.8% से अधिक है
- सांख्यिकीय महत्व p = 0.0018
व्याख्या और सवाल
- मानव यूज़र्स भी EM dash का उपयोग कर सकते हैं, लेकिन नए अकाउंट्स में इसका अत्यधिक उपयोग समझाना कठिन है
- यह अंतर HN के नए अकाउंट्स में auto-generated accounts की मौजूदगी की संभावना का संकेत देता है
संदर्भ सामग्री
- विश्लेषण में इस्तेमाल किया गया source code और data GitHub repository(vlofgren/hn-green-clankers) में सार्वजनिक है
- Marginalia.nu ने इस शोध को “Weird AI Crap” series के हिस्से के रूप में प्रकाशित किया
1 टिप्पणियां
Hacker News की रायें
पहले HN पर em dash और en dash का काफ़ी इस्तेमाल होता था
मुझे बस typography पसंद थी, इसलिए semicolon की जगह dash इस्तेमाल करने की आदत थी
मैंने AHK से keyboard shortcut सेट कर रखा था, लेकिन अब उसी वजह से लोग मेरे लिखे को LLM द्वारा लिखा हुआ समझ लेते हैं
कई बार AI समझ लिया गया, इसलिए अफ़सोस होता है कि जो typography की पसंद पहले मज़ेदार लगती थी, अब उसे नकारात्मक नज़र से देखा जाता है
असल में कुछ लोग बस पूरे वाक्य, spelling, grammar और capitalization का ध्यान रखते हैं, लेकिन अब दुनिया ऐसी हो गई है कि वही AI जैसा लगने लगा है
आजकल तो लगता है कि जानबूझकर थोड़ा बिखरा हुआ लिखना ही इंसान होने का संकेत बन गया है। और भविष्य के chatbot शायद वही सीख लेंगे
वाक्य थोड़ा अटपटा हो जाता है, लेकिन उल्टा उसमें हाथ से गढ़ी हुई प्रामाणिकता महसूस होती है
हाँ, वाक्य के अंत में दो spaces देना मैं कभी नहीं छोड़ सकता। 1993 में typing सिखाने वाले शिक्षक ने कहा था कि वाक्यों को भी साँस लेने की जगह चाहिए
Mac पर option+8 से लिखने की आदत पुरानी है, लेकिन अब वह भी LLM style जैसा दिखता है
HN के नए यूज़र comments में बार-बार आने वाले शब्दों की सांख्यिकीय तुलना की गई
“ai”, “actually”, “code”, “real”, “built” जैसे शब्द नए accounts में कहीं ज़्यादा दिखते हैं
डेटा तालिका में यह विस्तार से दर्ज है
अकादमिक तौर पर यह ठीक नहीं, लेकिन यहाँ इसे एक दिलचस्प insight की तरह देखा जा सकता है
इसके बजाय Cohen’s d जैसे effect size निकालें, तो अंतर का असली आकार समझ आता है
ज़्यादातर समय यह एक बेकार filler word होता है, जो लिखाई की clarity घटा देता है
शायद कुछ bot AI-संबंधित topics को कृत्रिम रूप से ऊपर ला रहे हैं — ऐसी परिकल्पना रखी गई
मैं पहले से em-dash का आनंद लेकर इस्तेमाल करता था, लेकिन अब AI समझे जाने के डर से नहीं कर पाता
Mac पर इसे
alt+shift+-से आसानी से टाइप किया जा सकता है, लेकिन लगता है जैसे typography की एक अच्छी परंपरा दूषित हो गई होअगर वह मौजूद हो, तो कोई भी punctuation इस्तेमाल करें, लिखाई इंसानी लगेगी
typography को वापस अपनाने के भाव से Mac के लिए Alt code guide साझा की गई
आख़िरकार इंसान का अपना ख़ास अभिव्यक्ति-तरीका सामने आ ही जाता है
डेटा GitHub repository में SQLite DB के रूप में सार्वजनिक है
Datasette Lite से browser में सीधे SQL query चलाई जा सकती है
em-dash ज़्यादा इस्तेमाल करने वाले users की सूची देखने पर अधिकांश सामान्य accounts लगते हैं
sourceजोड़ने पर, em-dash का ज़्यादा इस्तेमाल करने वाले green accounts ध्यान खींचते हैंयह सिर्फ HN की नहीं, बल्कि पूरे anonymous online discourse के संकट जैसी बात लगती है
भरोसा टूट जाए तो platform ही बिखर जाता है
identity verification ही शायद एकमात्र समाधान लगता है, लेकिन वह भी परफ़ेक्ट नहीं
मेरे blog post में उस idea का परिचय दिया गया है
लगता है कि अंततः ऐसा समय आएगा जब इंसान होने का प्रमाण देना पड़ेगा
अगर किसी comment की वैल्यू hash computation से साबित हो, तो identity के बिना भी trust संभव है
अगर bot positive karma बनाए नहीं रख पाते, तो उन्हें अधिकार नहीं मिलते, इसलिए पूरी identity verification के बिना भी बचाव संभव है
आजकल HN पर औपचारिक लेकिन फीके comment patterns साफ़ दिखते हैं
“this is [summary] / not just x, it’s y / punchy ending” जैसी संरचना बार-बार दोहराई जाती है
उदाहरण के लिए snowhale account देखें, बात साफ़ हो जाती है
यह शायद vote network बनाकर narrative को manipulate करने की रणनीति हो सकती है
search results में कई accounts वही वाक्य दोहराते दिखते हैं
वे बातचीत का context पढ़ नहीं पाते, और जवाब अजीब तरह से अलग-थलग लगता है
वह इंसानों की तरह neutral होने का दिखावा करता है, लेकिन उसके भीतर training data के biases घुले रहते हैं
पूरी neutrality शायद एक भ्रम हो
prompt में “मेरी तरह बोलो, AI की तरह मत लिखो, concise लिखो” जोड़ दें, तो आधी समस्या हल हो जाती है
उल्टा, इस विवाद की वजह से बहुत से लोगों को em-dash के अस्तित्व का पहली बार पता चला
अब तो काफ़ी नए इंसानी users भी हर वाक्य में em-dash डालने लगे हैं
मैंने जिन ज़्यादातर bot accounts को पकड़ा, वे em-dash लगभग इस्तेमाल ही नहीं करते
उदाहरण के लिए aplomb1026 ने 30 सेकंड के अंतर पर दो लंबे comments पोस्ट किए
पहला comment, दूसरा comment देखें, बात साफ़ है
अगर इस तरह की सेटिंग में गड़बड़ी न हुई होती, तो शायद ज़्यादातर लोग पकड़ ही नहीं पाते
दूसरे bots में dirtytoken7, fdefitte आदि शामिल हैं
English literature majors पहले से em-dash इस्तेमाल करते आए हैं, लेकिन अब AI जैसे दिखने के डर से बच रहे हैं
अगर AI ने New Yorker-style diaeresis तक इस्तेमाल करना शुरू कर दिया, तो सच में पागलपन हो जाएगा
फिर भी मैं अंदरूनी उपयोग में इसे लिखता रहा
अगर “AI जैसा न दिखना” छोड़कर “robot uprising में घुल-मिल जाना” चुना जाए, तो?
मैं ⸻ (U+2E3B dash) का प्रस्ताव रखता हूँ