HN के नए अकाउंट्स में EM dash इस्तेमाल करने की संभावना 10 गुना अधिक

(marginalia.nu)

1 पॉइंट द्वारा GN⁺ 2026-02-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हालिया Hacker News के नए अकाउंट्स के comment patterns के विश्लेषण में, मौजूदा यूज़र्स की तुलना में स्पष्ट अंतर देखा गया
नए अकाउंट्स के comments में 17.47% में EM dash (—), arrows जैसे special symbols का उपयोग मिला, जो मौजूदा अकाउंट्स के 1.83% की तुलना में लगभग 10 गुना अधिक है
इसके अलावा, नए अकाउंट्स में AI और LLM से जुड़े शब्दों का उल्लेख होने की संभावना 18.67% रही, जो मौजूदा अकाउंट्स के 11.8% से अधिक है
यह विश्लेषण /newcomments और /noobcomments डेटा के आधार पर लगभग 700-700 samples की तुलना का परिणाम है
ये आँकड़े HN कम्युनिटी में automated accounts (bots) बढ़ने की संभावना की ओर संकेत करते हैं

HN comments में असामान्य संकेतों का अवलोकन

पिछले कुछ महीनों में HN पर bots के तेज़ी से बढ़ने जैसी स्थिति देखी गई
- कुछ अकाउंट्स केवल अर्थहीन strings या numbers पोस्ट करते हैं
- उदाहरण के तौर पर “13 60 well and t6ctctfuvuh7hguhuig8h88gd…” जैसे उलझे हुए टेक्स्ट या “1662476506”, “Аё” जैसे single-character comments शामिल हैं
इन अकाउंट्स के अलावा भी सामान्य दिखने वाले लेकिन अटपटे या विषय से मेल न खाने वाले comments बड़ी संख्या में मौजूद हैं

डेटा संग्रह और विश्लेषण की विधि

/newcomments (हाल के comments) और /noobcomments (नए अकाउंट्स के comments) पेजों को scrape करके comparative analysis किया गया
हर समूह से लगभग 700 comment samples इकट्ठा कर simple statistics की गणना की गई

प्रमुख सांख्यिकीय परिणाम

नए अकाउंट्स के comments में 17.47% में EM dash, arrows जैसे special symbols शामिल थे, जो मौजूदा अकाउंट्स के 1.83% की तुलना में लगभग 10 गुना अंतर है
- सांख्यिकीय महत्व p = 7e-20
नए अकाउंट्स के comments में 18.67% में AI या LLM से जुड़े उल्लेख थे, जो मौजूदा अकाउंट्स के 11.8% से अधिक है
- सांख्यिकीय महत्व p = 0.0018

व्याख्या और सवाल

मानव यूज़र्स भी EM dash का उपयोग कर सकते हैं, लेकिन नए अकाउंट्स में इसका अत्यधिक उपयोग समझाना कठिन है
यह अंतर HN के नए अकाउंट्स में auto-generated accounts की मौजूदगी की संभावना का संकेत देता है

संदर्भ सामग्री

विश्लेषण में इस्तेमाल किया गया source code और data GitHub repository(vlofgren/hn-green-clankers) में सार्वजनिक है
Marginalia.nu ने इस शोध को “Weird AI Crap” series के हिस्से के रूप में प्रकाशित किया

1 टिप्पणियां

GN⁺ 2026-02-26

Hacker News की रायें

पहले HN पर em dash और en dash का काफ़ी इस्तेमाल होता था
मुझे बस typography पसंद थी, इसलिए semicolon की जगह dash इस्तेमाल करने की आदत थी
मैंने AHK से keyboard shortcut सेट कर रखा था, लेकिन अब उसी वजह से लोग मेरे लिखे को LLM द्वारा लिखा हुआ समझ लेते हैं
कई बार AI समझ लिया गया, इसलिए अफ़सोस होता है कि जो typography की पसंद पहले मज़ेदार लगती थी, अब उसे नकारात्मक नज़र से देखा जाता है
- मेरे किशोर बच्चे ने भी मुझसे पूछा कि मैं chatbot की तरह क्यों लिखता हूँ
  असल में कुछ लोग बस पूरे वाक्य, spelling, grammar और capitalization का ध्यान रखते हैं, लेकिन अब दुनिया ऐसी हो गई है कि वही AI जैसा लगने लगा है
  आजकल तो लगता है कि जानबूझकर थोड़ा बिखरा हुआ लिखना ही इंसान होने का संकेत बन गया है। और भविष्य के chatbot शायद वही सीख लेंगे
- अगर Oxford comma को जानबूझकर हटाना मज़ाक था, तो एक साथ तारीफ़ भी और बद्दुआ भी
- मैं भी पहले em-dash का बड़ा उपयोगकर्ता था, लेकिन आजकल comma से काम चलाता हूँ
  वाक्य थोड़ा अटपटा हो जाता है, लेकिन उल्टा उसमें हाथ से गढ़ी हुई प्रामाणिकता महसूस होती है
  हाँ, वाक्य के अंत में दो spaces देना मैं कभी नहीं छोड़ सकता। 1993 में typing सिखाने वाले शिक्षक ने कहा था कि वाक्यों को भी साँस लेने की जगह चाहिए
- साक्षरता का संकट इतना गंभीर है, और chatbot ही अगर इकलौता writing teacher रह गया है, तो यह दुखद है
- मुझे भी ऐसा ही मसला होता है, लेकिन मेरे मामले में वजह bullet points हैं
  Mac पर option+8 से लिखने की आदत पुरानी है, लेकिन अब वह भी LLM style जैसा दिखता है
HN के नए यूज़र comments में बार-बार आने वाले शब्दों की सांख्यिकीय तुलना की गई
“ai”, “actually”, “code”, “real”, “built” जैसे शब्द नए accounts में कहीं ज़्यादा दिखते हैं
डेटा तालिका में यह विस्तार से दर्ज है
- कई metrics में सिर्फ p-value देखकर उसे meaningful मान लेना p-hacking है
  अकादमिक तौर पर यह ठीक नहीं, लेकिन यहाँ इसे एक दिलचस्प insight की तरह देखा जा सकता है
  इसके बजाय Cohen’s d जैसे effect size निकालें, तो अंतर का असली आकार समझ आता है
- “actually building full, real AI app project code…” जैसे शब्द जोड़कर लिखी गई मज़ाकिया comment भी थी
- मैं भी “actually” बहुत ज़्यादा इस्तेमाल करता हूँ, इसलिए उसे कम करने की कोशिश कर रहा हूँ
  ज़्यादातर समय यह एक बेकार filler word होता है, जो लिखाई की clarity घटा देता है
- “ai” शब्द का नतीजा हाल के HN topic bias की वजह से विकृत हुआ हो सकता है
- इतनी कम p-value देखकर लगता है कि कुछ गड़बड़ है
  शायद कुछ bot AI-संबंधित topics को कृत्रिम रूप से ऊपर ला रहे हैं — ऐसी परिकल्पना रखी गई
मैं पहले से em-dash का आनंद लेकर इस्तेमाल करता था, लेकिन अब AI समझे जाने के डर से नहीं कर पाता
Mac पर इसे alt+shift+- से आसानी से टाइप किया जा सकता है, लेकिन लगता है जैसे typography की एक अच्छी परंपरा दूषित हो गई हो
- LLM fatigue सचमुच मौजूद है। ज़रूरी चीज़ style नहीं, बल्कि इंसानी नज़रिया और व्यक्तित्व है
  अगर वह मौजूद हो, तो कोई भी punctuation इस्तेमाल करें, लिखाई इंसानी लगेगी
- बस लिखते रहो। मैं भी 20 साल से ऐसा ही कर रहा हूँ
- आजकल semicolon से बदल देता हूँ। डर है कि कहीं एक दिन वह भी AI का प्रतीक न बन जाए
- 2010 से em-dash इस्तेमाल कर रहा हूँ, और curly quotes व ellipsis भी पसंद हैं
  typography को वापस अपनाने के भाव से Mac के लिए Alt code guide साझा की गई
- लोग जो भी कहें, फ़र्क नहीं पड़ता। हो सकता है LLM ने मेरी लिखाई से ही सीखा हो
  आख़िरकार इंसान का अपना ख़ास अभिव्यक्ति-तरीका सामने आ ही जाता है
डेटा GitHub repository में SQLite DB के रूप में सार्वजनिक है
Datasette Lite से browser में सीधे SQL query चलाई जा सकती है
em-dash ज़्यादा इस्तेमाल करने वाले users की सूची देखने पर अधिकांश सामान्य accounts लगते हैं
- query में source जोड़ने पर, em-dash का ज़्यादा इस्तेमाल करने वाले green accounts ध्यान खींचते हैं
- iPhone, iPad और Mac की auto-correct सुविधा कभी-कभी em-dash या ellipsis अपने-आप डाल देती है, इसलिए डेटा विकृत हो सकता है
- एक मज़ाकिया comment यह भी थी कि “क्या HN comments को HN के अलावा Sweden के किसी व्यक्ति को भी license किया गया है?”
- “great repo name!” जैसी छोटी-सी तारीफ़ भी थी
यह सिर्फ HN की नहीं, बल्कि पूरे anonymous online discourse के संकट जैसी बात लगती है
भरोसा टूट जाए तो platform ही बिखर जाता है
identity verification ही शायद एकमात्र समाधान लगता है, लेकिन वह भी परफ़ेक्ट नहीं
- मैं भी यही सोचता हूँ। anonymity बनाए रखते हुए trust की गारंटी देने वाला system बनाया जा सकता है
  मेरे blog post में उस idea का परिचय दिया गया है
  लगता है कि अंततः ऐसा समय आएगा जब इंसान होने का प्रमाण देना पड़ेगा
- anonymity हटाना समाधान नहीं, बल्कि एक दूसरी समस्या की शुरुआत है
- identity की जगह proof-of-work या hashcash से trust verify किया जा सकता है
  अगर किसी comment की वैल्यू hash computation से साबित हो, तो identity के बिना भी trust संभव है
- आजकल HN इस्तेमाल करने का मन नहीं करता। अच्छा हो अगर यह invite-only हो जाए। HN, HN जैसा एक अलग स्थान था, यह खलता है
- HN का karma system भी एक तरह का proof-of-work है
  अगर bot positive karma बनाए नहीं रख पाते, तो उन्हें अधिकार नहीं मिलते, इसलिए पूरी identity verification के बिना भी बचाव संभव है
आजकल HN पर औपचारिक लेकिन फीके comment patterns साफ़ दिखते हैं
“this is [summary] / not just x, it’s y / punchy ending” जैसी संरचना बार-बार दोहराई जाती है
उदाहरण के लिए snowhale account देखें, बात साफ़ हो जाती है
- उस user ने सिर्फ 4 फीकी posts से 160 points हासिल किए
  यह शायद vote network बनाकर narrative को manipulate करने की रणनीति हो सकती है
- “is real” जैसा phrase भी LLM का निशान लगता है
  search results में कई accounts वही वाक्य दोहराते दिखते हैं
- मैं भी आजकल ऐसे summary-type comments अक्सर देखता हूँ
  वे बातचीत का context पढ़ नहीं पाते, और जवाब अजीब तरह से अलग-थलग लगता है
- AI भी आखिरकार पक्षपाती value judgments करता है
  वह इंसानों की तरह neutral होने का दिखावा करता है, लेकिन उसके भीतर training data के biases घुले रहते हैं
  पूरी neutrality शायद एक भ्रम हो
- असल में ऐसे patterns से बचना आसान है
  prompt में “मेरी तरह बोलो, AI की तरह मत लिखो, concise लिखो” जोड़ दें, तो आधी समस्या हल हो जाती है
उल्टा, इस विवाद की वजह से बहुत से लोगों को em-dash के अस्तित्व का पहली बार पता चला
अब तो काफ़ी नए इंसानी users भी हर वाक्य में em-dash डालने लगे हैं
मैंने जिन ज़्यादातर bot accounts को पकड़ा, वे em-dash लगभग इस्तेमाल ही नहीं करते
उदाहरण के लिए aplomb1026 ने 30 सेकंड के अंतर पर दो लंबे comments पोस्ट किए
पहला comment, दूसरा comment देखें, बात साफ़ है
अगर इस तरह की सेटिंग में गड़बड़ी न हुई होती, तो शायद ज़्यादातर लोग पकड़ ही नहीं पाते
दूसरे bots में dirtytoken7, fdefitte आदि शामिल हैं
English literature majors पहले से em-dash इस्तेमाल करते आए हैं, लेकिन अब AI जैसे दिखने के डर से बच रहे हैं
अगर AI ने New Yorker-style diaeresis तक इस्तेमाल करना शुरू कर दिया, तो सच में पागलपन हो जाएगा
- GitHub में काम करते समय कंपनी ने diaeresis को पाठकों के प्रति असुविधाजनक और elitist कहकर मना किया था
  फिर भी मैं अंदरूनी उपयोग में इसे लिखता रहा
- मेरे साथ double-dash के ज़रिए manual typing की सौंदर्यपरक परंपरा बचाने का प्रस्ताव भी रखा गया
- मैं भी emails और लिखाई में em-dash बहुत इस्तेमाल करता था, लेकिन AI के निशान जैसा लगने पर बंद कर दिया
- मुझे पता ही नहीं था कि ऐसा चिन्ह होता है, लेकिन अब इसे अपने अभिव्यक्ति repertoire में जोड़ने वाला हूँ
- किसी ने मेरी em-dash usage का histogram देखना चाहा
अगर “AI जैसा न दिखना” छोड़कर “robot uprising में घुल-मिल जाना” चुना जाए, तो?
मैं ⸻ (U+2E3B dash) का प्रस्ताव रखता हूँ
- एक रिपोर्ट आई कि यह comment HN की previous/next navigation सुविधा को तोड़ देती है
- इसे “Big Chungus of dashes” कहकर मज़ाक किया गया, मानो यह सबसे चौड़ा character हो
- “डरने की कोई बात नहीं, मानव मित्र!” जैसी हास्यपूर्ण reply भी आई
- “हमें ⸻ का ज़्यादा इस्तेमाल करना चाहिए ताकि ⸻ के बारे में ज़्यादा बात हो” जैसी व्यंग्यात्मक प्रतिक्रियाएँ भी चलीं

HN के नए अकाउंट्स में EM dash इस्तेमाल करने की संभावना 10 गुना अधिक

HN comments में असामान्य संकेतों का अवलोकन

डेटा संग्रह और विश्लेषण की विधि

प्रमुख सांख्यिकीय परिणाम

व्याख्या और सवाल

संदर्भ सामग्री

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें