2 पॉइंट द्वारा GN⁺ 2026-01-07 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Hacker News के पोस्ट sentiment analysis अध्ययन में कुल लगभग 65% पोस्टों को नकारात्मक भावना वाला वर्गीकृत किया गया, और इन पोस्टों ने औसतन अधिक स्कोर दर्ज किया
  • नकारात्मक पोस्टों का औसत स्कोर 35.6 अंक रहा, जबकि कुल औसत 28 अंक था, यानी लगभग 27% performance premium देखा गया
  • विश्लेषण 32,000 पोस्ट और 3.4 लाख टिप्पणियों पर किया गया, और 6 प्रकार के models में लगातार नकारात्मक bias दिखाई दिया
  • इस्तेमाल किए गए models में DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B शामिल थे, जबकि अंतिम dashboard ने efficiency के कारण DistilBERT के परिणामों का उपयोग किया
  • तकनीकी आलोचना, उद्योग संबंधी असंतोष, API frustration जैसी रचनात्मक आलोचना-केंद्रित नकारात्मकता प्रमुख रही, जो engagement और विवादास्पदता के सहसंबंध की ओर इशारा करती है

Hacker News sentiment analysis के परिणाम

  • Hacker News पोस्टों का औसत स्कोर 28 अंक रहा, जबकि नकारात्मक भावना वाले पोस्टों ने औसतन 35.6 अंक के साथ अधिक engagement दर्ज किया
    • नकारात्मक पोस्टों का प्रदर्शन कुल औसत की तुलना में 27% अधिक रहा
  • यह अध्ययन HN (Hacker News) attention dynamics पर केंद्रित है, जिसमें decay curves, preferential attachment, survival probability, early engagement prediction आदि शामिल हैं
    • संबंधित preprint पेपर SSRN पर सार्वजनिक है

डेटा और model संरचना

  • विश्लेषण का दायरा 32,000 पोस्ट और 340,000 टिप्पणियां था
  • कुल का लगभग 65% नकारात्मक भावना के रूप में वर्गीकृत किया गया
    • शोधकर्ता ने यह संभावना बताई कि classifier नकारात्मक दिशा में biased हो सकता है, लेकिन सभी 6 models में यही रुझान दिखा
  • इस्तेमाल किए गए models थे DistilBERT, BERT Multi, RoBERTa (transformer-आधारित) और Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B (LLM-आधारित)
    • sentiment distribution model के अनुसार अलग-अलग था, लेकिन नकारात्मक झुकाव सभी में समान रूप से बना रहा
    • अंतिम dashboard ने Cloudflare-आधारित pipeline में efficiently चलने वाले DistilBERT परिणामों का उपयोग किया

नकारात्मक भावना की परिभाषा और विशेषताएं

  • “नकारात्मक” के रूप में वर्गीकृत सामग्री में तकनीकी आलोचना, घोषणाओं को लेकर संदेह, industry practices पर असंतोष, API से जुड़ी निराशा आदि शामिल थे
  • अधिकांश नकारात्मकता व्यक्तिगत हमलों के बजाय ठोस आलोचना से बनी थी
    • तकनीकी आलोचना का स्वभाव व्यक्तिगत हमलों से अलग होता है
  • शोधकर्ता ने दोनों संभावनाओं को स्वीकार किया: क्या नकारात्मकता engagement पैदा करती है, या क्या विवादास्पद सामग्री नकारात्मक अभिव्यक्ति और attention दोनों को साथ आकर्षित करती है

आगे की सार्वजनिक रिलीज़ योजना

  • शोधकर्ता जल्द ही पूरा code, dataset, और HN archiver के लिए dashboard सार्वजनिक करने वाले हैं

2 टिप्पणियां

 
shakespeares 2026-01-07

लोग गॉसिप और शोर-शराबे में ज़्यादा दिलचस्पी लेते हैं। [included जल्दबाज़ी में किया गया सामान्यीकरण]

 
GN⁺ 2026-01-07
Hacker News की राय
  • मुझे लगता है कि OP का classifier दो ऐसी मान्यताएँ कर रहा है जो नतीजों को प्रभावित करती हैं

    1. संदेहपूर्ण रवैये को negative में बाँध देता है
    2. neutral category की अनुमति नहीं देता
      मैं अभी एक आलोचनात्मक टिप्पणी लिख रहा हूँ, लेकिन वह ज़रूरी नहीं कि “negative” हो। बल्कि OP के data और निष्कर्ष साफ़ हैं, इसलिए उनकी आलोचना करना संभव हुआ है। इस तरह की रचनात्मक आलोचना ही अच्छी चर्चा का प्रमाण है
    • मैं ही OP हूँ :)
      यह बात आंशिक रूप से सही है कि संदेहपूर्ण रवैया negative के रूप में classify हो जाता है। SST-2 training data आलोचनात्मक मूल्यांकन को negative मानता है। लेकिन यहाँ “negative” का अर्थ hostile नहीं, बल्कि evaluative है। HN की आलोचनात्मक संस्कृति ऐसे model में negative के रूप में पढ़ी जाती है, लेकिन technical discourse की प्रकृति को देखते हुए यह स्वाभाविक है।
      neutrality 0.5 के आसपास एक continuous score के रूप में मौजूद है। HN users मज़बूत रुख अपनाने की ओर झुकते हैं, इसलिए polar distribution दिखता है। आगे चलकर 3-class model आज़माने की गुंजाइश है।
      तुम्हारी टिप्पणी आलोचनात्मक है, लेकिन यह उच्च-गुणवत्ता वाला विमर्श है। HN की negativity को मैं hostility नहीं, बल्कि भागीदारी बढ़ाने वाली रचनात्मक आलोचना मानता हूँ
    • मैं भी यही बताने वाला था कि संदेहपूर्ण रवैया negative में बाँध दिया जाता है। HN का आलोचनात्मक नज़रिया दरअसल एक positive विशेषता है, लेकिन इस तरह के सूक्ष्म भावनात्मक भेद को तकनीकी रूप से पकड़ना अभी भी मुश्किल है
    • जायज़ आलोचना बहुत होती है, लेकिन “reply guy” शैली की बेकार की पकड़-धकड़ या किसी खास company के बारे में बार-बार की जाने वाली शिकायतें भी होती हैं। इन्हें classify करना मुश्किल है, और Reddit की तुलना में HN काफ़ी बेहतर लगता है
    • OP ने जो model इस्तेमाल किया वह ठीक यही है या नहीं, पता नहीं, लेकिन इसने तुम्हारी टिप्पणी को 99.9% positive classify किया
      DistilBERT SST-2 model लिंक
    • हाँ, यही तो समस्या का मूल है कि critical thinking को negative classify किया जाता है
  • मैंने जो negative posts डाले, उन्हें neutral या positive पोस्ट्स से ज़्यादा प्रतिक्रिया मिली।
    “Richard Stallman is Dead” शीर्षक ने सबसे ऊँचा click-through rate दिखाया, और एक दूसरे model ने comment/vote ratio के 0.5 से ऊपर होने की संभावना का अनुमान लगाया। clickbait, gender debates, और car-related topics खास तौर पर मज़बूत रहे।
    average score 35 होना यक़ीन करना मुश्किल है। पहले average लगभग 8 होता था, इसलिए sampling criteria जानने की उत्सुकता है

    • sample पिछले 35 दिनों के सभी posts और comments को hn-archiver API से इकट्ठा करके बनाया गया था।
      संभव है कि 0-point posts छूट गए हों, इसलिए average ज़्यादा आया हो। feedback के लिए धन्यवाद, paper publish करने से पहले इसे दोबारा जाँचूँगा। तुम्हारा classifier भी दिलचस्प है
    • “Richard Stallman is Dead” वाला उदाहरण बहुत मज़ेदार है। पुराने अख़बार की headline “Generalissimo Francisco Franco Is Still Dead” याद आ गई। बेशक RMS अभी ज़िंदा हैं
    • एक निजी सवाल है, तुम scientific papers बहुत ज़्यादा पोस्ट करते हो। मैंने एक दिन में 30 से ज़्यादा पोस्ट देखी हैं, लेकिन इतना सब पढ़ पाना मुश्किल होगा, इसलिए motivation और सामग्री चुनने की प्रक्रिया के बारे में जानना चाहता हूँ
  • comments में भी मैंने ऐसा ही देखा है। छोटी और निंदक टिप्पणियाँ लंबे analysis से कहीं ज़्यादा प्रतिक्रिया पाती हैं।
    मेहनत से लिखी लंबी टिप्पणियाँ नज़रअंदाज़ हो जाती हैं, जबकि तुरंत लिखी गई छोटी टिप्पणियाँ अक्सर “explode” कर जाती हैं, जो निराशाजनक है

    • मेरा karma 104,872 है। HN Leaders और Best Comments pages दिलचस्प हैं।
      HN jokes को पसंद नहीं करता, सिवाय उन मामलों के जहाँ उनके साथ explanation भी हो
    • लंबा लिखना हमेशा अच्छा नहीं होता। संक्षिप्तता का सौंदर्य भी होता है। 2,000 अक्षरों से ज़्यादा 20 अक्षरों में असर छोड़ना कठिन और मूल्यवान है
    • मैं भी दो accounts इस्तेमाल करता हूँ, और emotional या impulsive comments वाले account की karma efficiency मेरे main से 4 गुना ज़्यादा है। हालाँकि उसका average कम है और variance ज़्यादा
    • “अच्छे content को reward नहीं मिलता” — शायद इसका मतलब यह भी हो सकता है कि हम उतना अच्छा content बना ही नहीं रहे जितना हम सोचते हैं।
      blog चलाकर देखने से शायद engagement के इस पैमाने को बेहतर महसूस किया जा सकता है
    • यह देखकर मैं भी अपनी upvote आदतें बदलने की सोच रहा हूँ। HN पर quiet upvote क्या सहमति की अभिव्यक्ति है, यह जानने की उत्सुकता है
  • अगर “negative” में technical criticism, industry complaints, और API frustration शामिल हैं, तो HN की ज़्यादातर चर्चा उसी दायरे में आती है।
    OpenAI के promotional post पर सिर्फ “like” लिख देना अर्थहीन है, और आलोचनात्मक विश्लेषण ही मूल्यवान भागीदारी है।
    बिना comments वाले popular posts को मैं उल्टा इस बात का प्रमाण मानता हूँ कि site ठीक से काम कर रही है

    • अच्छा लगा कि data पेश किया गया और व्याख्या पाठक पर छोड़ी गई
    • मैं सहमत हूँ कि “negativity” को critical vs toxic के रूप में अलग करना चाहिए। इन दोनों अवधारणाओं को मिलाना गलती है
  • हम खुद ही अपने को negative reactions पसंद करने के लिए filter करते हैं। positive content अक्सर self-contained होता है और प्रतिक्रिया नहीं खींचता, जबकि negative content interaction पैदा करता है

    • site की संरचना में साधारण positive comments की जगह upvote button ले लेता है
    • सिर्फ “like” लिखने वाली टिप्पणियों को अर्थहीन माना जाता है, इसलिए नतीजतन neutral या आलोचनात्मक टिप्पणियाँ ज़्यादा हो जाती हैं
    • मनुष्य विकासवादी रूप से negative stimuli के प्रति संवेदनशील हैं। जो जीव ख़तरे को नज़रअंदाज़ करते थे, वे बच नहीं पाए।
      इसलिए हम negative news की ओर ज़्यादा खिंचते हैं, और positive खबरों को बस scroll कर देते हैं। यही attention economy का मूल है
    • मुझे विनाशकारी आलोचना की तुलना में जानकारी जोड़ने वाली टिप्पणियों से ज़्यादा सीखने को मिलता है। ऐसे लिखे गए comments अधिक नए और विशेषज्ञतापूर्ण होते हैं
    • (मज़ाकिया अंदाज़ में) “सही कहा! … अरे, एक मिनट”
  • technical criticism व्यक्तिगत हमलों से अलग होती है। HN की negativity ज़्यादातर रचनात्मक आलोचना है।
    जब निंदकता ज़्यादा हो जाती है, तो “शिकायत पर शिकायत” ज़रूर सामने आ जाती है।
    मुझे तारीफ़ से ज़्यादा यह सुनना पसंद है कि “दाँत में कुछ फँसा है”

    • paper में इस भेद को और साफ़ तरह से लेना चाहिए। model “इस API design में खामी है” और “यह company बेकार है” के बीच फ़र्क नहीं कर पाता।
      HN की moderation hostile content को जल्दी हटा देती है, इसलिए जो बचता है वह ज़्यादातर productive criticism होता है।
      दिलचस्प बात यह है कि ऐसी “negativity” 27% higher engagement rate से जुड़ी है। यानी technical communities promotion की तुलना में criticism को अधिक मूल्य देती हैं
      paper में यह स्पष्ट रूप से लिखने का इरादा है कि “negative sentiment” से मतलब SST-2 model के अनुसार evaluative criticism है, toxic speech नहीं
    • निंदकता सच्चाई बोलने का दर्शन नहीं है। तथ्य कहना आलोचना नहीं होता
  • पहले जब Reddit API access उपलब्ध था, मैंने rif reader app के साथ negative sentiment वाले subreddits को block करने का प्रयोग किया था।
    सैकड़ों block करने के बाद सिर्फ जानवरों और hobbies से जुड़ा positive content बचा। तब समझ आया कि Reddit कितना negativity-centered है, और साथ ही यह भी कि उसके बिना वह काफ़ी उबाऊ हो जाता है
    block list लिंक

    • Reddit का निंदक माहौल किसी संक्रामक बीमारी जैसा है। दुखी लोग इकट्ठा होकर एक-दूसरे की निराशा को और मज़बूत करते हैं। ज़्यादातर लोग युवा और कम अनुभव वाले होते हैं
    • विवादास्पद content पर ज़्यादा चर्चा होना मानव स्वभाव है। दोस्त की relationship problems तो हम देर तक सुनते हैं, लेकिन अगर वह ठीक हो तो कहने को कुछ नहीं होता
    • मैं भी politics या उत्तेजक content से बचता हूँ, और सिर्फ hobby या creation-related posts देखता हूँ। Reddit सच में मिला-जुला स्थान है
    • मुझे लगता है 45:65 के आसपास का positive/negative ratio सबसे दिलचस्प संतुलन है। 50:50 होने पर content साधारण लगने लगता है। उस मायने में HN social media से बेहतर है
    • मैं अभी भी rif इस्तेमाल करता हूँ। Revanced से API key बदलकर चला रहा हूँ। Reddit पर AI bait-style posts बढ़ गए हैं, इसलिए उनसे जुड़े subreddits को block कर देता हूँ।
      ऐसे posts में सचमुच bot के bot से बात करने जैसा एहसास होता है। शक है कि Reddit ad impressions बढ़ाने के लिए इस ढाँचे को ऐसे ही चलने दे रहा है
  • इंटरनेट पर शिकायत करना या किसी को सुधारना — इससे ज़्यादा शक्तिशाली संयोजन शायद ही कोई हो।
    ESL(English as a Second Language) user होने के नाते, मैंने इंटरनेट पर सबसे पहले “flamewar” शब्द सीखा था

    • कुछ लोग यह भी पूछ रहे थे कि ESL क्या है
  • paper के अनुसार HN में attention inequality बहुत गंभीर है। Gini coefficient 0.89 है, जो Twitter से भी ऊँचा है
    इसकी वजह HN की exposure structure हो सकती है। नई पोस्ट /newest से शुरू होती हैं, और अगर शुरुआती कुछ लोगों का ध्यान न मिले तो वे व्यावहारिक रूप से गायब हो जाती हैं।
    Reddit की तरह default exposure वाले ढाँचे के विपरीत, HN में main पर आने के लिए शुरुआती gate पार करना पड़ता है

    • इसी संरचना की वजह से शुरुआती प्रतिक्रिया success prediction indicator की तरह काम करती है
  • engineers का काम समस्याएँ हल करना है, इसलिए वे स्वाभाविक रूप से critical thinking की ओर जाते हैं।
    industry trade shows में engineers बाँहें बाँधकर ठंडे दिमाग़ से पास आते थे, जबकि maker community positive energy से भरी होती थी।
    आख़िर में यह “गिलास आधा खाली है बनाम आधा भरा है” जैसा फ़र्क है