Hacker News पोस्टों में 65% नकारात्मक भावनाएं दिखीं, और इन्हीं का प्रदर्शन बेहतर रहा
(philippdubach.com)- Hacker News के पोस्ट sentiment analysis अध्ययन में कुल लगभग 65% पोस्टों को नकारात्मक भावना वाला वर्गीकृत किया गया, और इन पोस्टों ने औसतन अधिक स्कोर दर्ज किया
- नकारात्मक पोस्टों का औसत स्कोर 35.6 अंक रहा, जबकि कुल औसत 28 अंक था, यानी लगभग 27% performance premium देखा गया
- विश्लेषण 32,000 पोस्ट और 3.4 लाख टिप्पणियों पर किया गया, और 6 प्रकार के models में लगातार नकारात्मक bias दिखाई दिया
- इस्तेमाल किए गए models में DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B शामिल थे, जबकि अंतिम dashboard ने efficiency के कारण DistilBERT के परिणामों का उपयोग किया
- तकनीकी आलोचना, उद्योग संबंधी असंतोष, API frustration जैसी रचनात्मक आलोचना-केंद्रित नकारात्मकता प्रमुख रही, जो engagement और विवादास्पदता के सहसंबंध की ओर इशारा करती है
Hacker News sentiment analysis के परिणाम
- Hacker News पोस्टों का औसत स्कोर 28 अंक रहा, जबकि नकारात्मक भावना वाले पोस्टों ने औसतन 35.6 अंक के साथ अधिक engagement दर्ज किया
- नकारात्मक पोस्टों का प्रदर्शन कुल औसत की तुलना में 27% अधिक रहा
- यह अध्ययन HN (Hacker News) attention dynamics पर केंद्रित है, जिसमें decay curves, preferential attachment, survival probability, early engagement prediction आदि शामिल हैं
- संबंधित preprint पेपर SSRN पर सार्वजनिक है
डेटा और model संरचना
- विश्लेषण का दायरा 32,000 पोस्ट और 340,000 टिप्पणियां था
- कुल का लगभग 65% नकारात्मक भावना के रूप में वर्गीकृत किया गया
- शोधकर्ता ने यह संभावना बताई कि classifier नकारात्मक दिशा में biased हो सकता है, लेकिन सभी 6 models में यही रुझान दिखा
- इस्तेमाल किए गए models थे DistilBERT, BERT Multi, RoBERTa (transformer-आधारित) और Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B (LLM-आधारित)
- sentiment distribution model के अनुसार अलग-अलग था, लेकिन नकारात्मक झुकाव सभी में समान रूप से बना रहा
- अंतिम dashboard ने Cloudflare-आधारित pipeline में efficiently चलने वाले DistilBERT परिणामों का उपयोग किया
नकारात्मक भावना की परिभाषा और विशेषताएं
- “नकारात्मक” के रूप में वर्गीकृत सामग्री में तकनीकी आलोचना, घोषणाओं को लेकर संदेह, industry practices पर असंतोष, API से जुड़ी निराशा आदि शामिल थे
- अधिकांश नकारात्मकता व्यक्तिगत हमलों के बजाय ठोस आलोचना से बनी थी
- तकनीकी आलोचना का स्वभाव व्यक्तिगत हमलों से अलग होता है
- शोधकर्ता ने दोनों संभावनाओं को स्वीकार किया: क्या नकारात्मकता engagement पैदा करती है, या क्या विवादास्पद सामग्री नकारात्मक अभिव्यक्ति और attention दोनों को साथ आकर्षित करती है
आगे की सार्वजनिक रिलीज़ योजना
- शोधकर्ता जल्द ही पूरा code, dataset, और HN archiver के लिए dashboard सार्वजनिक करने वाले हैं
2 टिप्पणियां
लोग गॉसिप और शोर-शराबे में ज़्यादा दिलचस्पी लेते हैं। [included जल्दबाज़ी में किया गया सामान्यीकरण]
Hacker News की राय
मुझे लगता है कि OP का classifier दो ऐसी मान्यताएँ कर रहा है जो नतीजों को प्रभावित करती हैं
मैं अभी एक आलोचनात्मक टिप्पणी लिख रहा हूँ, लेकिन वह ज़रूरी नहीं कि “negative” हो। बल्कि OP के data और निष्कर्ष साफ़ हैं, इसलिए उनकी आलोचना करना संभव हुआ है। इस तरह की रचनात्मक आलोचना ही अच्छी चर्चा का प्रमाण है
यह बात आंशिक रूप से सही है कि संदेहपूर्ण रवैया negative के रूप में classify हो जाता है। SST-2 training data आलोचनात्मक मूल्यांकन को negative मानता है। लेकिन यहाँ “negative” का अर्थ hostile नहीं, बल्कि evaluative है। HN की आलोचनात्मक संस्कृति ऐसे model में negative के रूप में पढ़ी जाती है, लेकिन technical discourse की प्रकृति को देखते हुए यह स्वाभाविक है।
neutrality 0.5 के आसपास एक continuous score के रूप में मौजूद है। HN users मज़बूत रुख अपनाने की ओर झुकते हैं, इसलिए polar distribution दिखता है। आगे चलकर 3-class model आज़माने की गुंजाइश है।
तुम्हारी टिप्पणी आलोचनात्मक है, लेकिन यह उच्च-गुणवत्ता वाला विमर्श है। HN की negativity को मैं hostility नहीं, बल्कि भागीदारी बढ़ाने वाली रचनात्मक आलोचना मानता हूँ
DistilBERT SST-2 model लिंक
मैंने जो negative posts डाले, उन्हें neutral या positive पोस्ट्स से ज़्यादा प्रतिक्रिया मिली।
“Richard Stallman is Dead” शीर्षक ने सबसे ऊँचा click-through rate दिखाया, और एक दूसरे model ने comment/vote ratio के 0.5 से ऊपर होने की संभावना का अनुमान लगाया। clickbait, gender debates, और car-related topics खास तौर पर मज़बूत रहे।
average score 35 होना यक़ीन करना मुश्किल है। पहले average लगभग 8 होता था, इसलिए sampling criteria जानने की उत्सुकता है
संभव है कि 0-point posts छूट गए हों, इसलिए average ज़्यादा आया हो। feedback के लिए धन्यवाद, paper publish करने से पहले इसे दोबारा जाँचूँगा। तुम्हारा classifier भी दिलचस्प है
comments में भी मैंने ऐसा ही देखा है। छोटी और निंदक टिप्पणियाँ लंबे analysis से कहीं ज़्यादा प्रतिक्रिया पाती हैं।
मेहनत से लिखी लंबी टिप्पणियाँ नज़रअंदाज़ हो जाती हैं, जबकि तुरंत लिखी गई छोटी टिप्पणियाँ अक्सर “explode” कर जाती हैं, जो निराशाजनक है
HN jokes को पसंद नहीं करता, सिवाय उन मामलों के जहाँ उनके साथ explanation भी हो
blog चलाकर देखने से शायद engagement के इस पैमाने को बेहतर महसूस किया जा सकता है
अगर “negative” में technical criticism, industry complaints, और API frustration शामिल हैं, तो HN की ज़्यादातर चर्चा उसी दायरे में आती है।
OpenAI के promotional post पर सिर्फ “like” लिख देना अर्थहीन है, और आलोचनात्मक विश्लेषण ही मूल्यवान भागीदारी है।
बिना comments वाले popular posts को मैं उल्टा इस बात का प्रमाण मानता हूँ कि site ठीक से काम कर रही है
हम खुद ही अपने को negative reactions पसंद करने के लिए filter करते हैं। positive content अक्सर self-contained होता है और प्रतिक्रिया नहीं खींचता, जबकि negative content interaction पैदा करता है
इसलिए हम negative news की ओर ज़्यादा खिंचते हैं, और positive खबरों को बस scroll कर देते हैं। यही attention economy का मूल है
technical criticism व्यक्तिगत हमलों से अलग होती है। HN की negativity ज़्यादातर रचनात्मक आलोचना है।
जब निंदकता ज़्यादा हो जाती है, तो “शिकायत पर शिकायत” ज़रूर सामने आ जाती है।
मुझे तारीफ़ से ज़्यादा यह सुनना पसंद है कि “दाँत में कुछ फँसा है”
HN की moderation hostile content को जल्दी हटा देती है, इसलिए जो बचता है वह ज़्यादातर productive criticism होता है।
दिलचस्प बात यह है कि ऐसी “negativity” 27% higher engagement rate से जुड़ी है। यानी technical communities promotion की तुलना में criticism को अधिक मूल्य देती हैं
paper में यह स्पष्ट रूप से लिखने का इरादा है कि “negative sentiment” से मतलब SST-2 model के अनुसार evaluative criticism है, toxic speech नहीं
पहले जब Reddit API access उपलब्ध था, मैंने rif reader app के साथ negative sentiment वाले subreddits को block करने का प्रयोग किया था।
सैकड़ों block करने के बाद सिर्फ जानवरों और hobbies से जुड़ा positive content बचा। तब समझ आया कि Reddit कितना negativity-centered है, और साथ ही यह भी कि उसके बिना वह काफ़ी उबाऊ हो जाता है
block list लिंक
ऐसे posts में सचमुच bot के bot से बात करने जैसा एहसास होता है। शक है कि Reddit ad impressions बढ़ाने के लिए इस ढाँचे को ऐसे ही चलने दे रहा है
इंटरनेट पर शिकायत करना या किसी को सुधारना — इससे ज़्यादा शक्तिशाली संयोजन शायद ही कोई हो।
ESL(English as a Second Language) user होने के नाते, मैंने इंटरनेट पर सबसे पहले “flamewar” शब्द सीखा था
paper के अनुसार HN में attention inequality बहुत गंभीर है। Gini coefficient 0.89 है, जो Twitter से भी ऊँचा है
इसकी वजह HN की exposure structure हो सकती है। नई पोस्ट /newest से शुरू होती हैं, और अगर शुरुआती कुछ लोगों का ध्यान न मिले तो वे व्यावहारिक रूप से गायब हो जाती हैं।
Reddit की तरह default exposure वाले ढाँचे के विपरीत, HN में main पर आने के लिए शुरुआती gate पार करना पड़ता है
engineers का काम समस्याएँ हल करना है, इसलिए वे स्वाभाविक रूप से critical thinking की ओर जाते हैं।
industry trade shows में engineers बाँहें बाँधकर ठंडे दिमाग़ से पास आते थे, जबकि maker community positive energy से भरी होती थी।
आख़िर में यह “गिलास आधा खाली है बनाम आधा भरा है” जैसा फ़र्क है