10 साल पुराने Hacker News चर्चाओं का LLM से स्वतः ग्रेडिंग

(karpathy.bearblog.dev)

4 पॉइंट द्वारा GN⁺ 2025-12-11 | 1 टिप्पणियां | WhatsApp पर शेयर करें

दस साल पुराने Hacker News पोस्ट और टिप्पणियों का LLM से विश्लेषण करके उनकी ‘पूर्वानुमान क्षमता’ का आकलन करने वाला एक प्रोजेक्ट, जो अतीत की चर्चाओं की अंतर्दृष्टि का स्वतः स्कोर करता है
ChatGPT 5.1 Thinking और Opus 4.5 का उपयोग करके दिसंबर 2015 के एक महीने के Hacker News front page (कुल 930 लेख) को एकत्रित और विश्लेषित किया गया
प्रत्येक लेख और टिप्पणी थ्रेड के आधार पर सारांश, वास्तविक परिणाम, सबसे सही और सबसे गलत टिप्पणियाँ तथा रुचि स्कोर जैसी चीजें स्वतः उत्पन्न की गईं
परिणामों को स्टैटिक HTML पेज में बदलकर karpathy.ai/hncapsule पर उपलब्ध कराया गया है, और ‘Hall of Fame’ में सबसे अंतर्दृष्टिपूर्ण टिप्पणीकारों की रैंकिंग देखी जा सकती है
पुराने डेटा पर LLM के बड़े पैमाने पर रेट्रोस्पेक्टिव विश्लेषण की संभावना और “future LLMs are watching us” संदेश पर जोर दिया गया है

परियोजना का अवलोकन

दिसंबर 2015 के Hacker News front page को लक्ष्य बनाकर एक LLM आधारित ऑटोमेटिक रेट्रोस्पेक्टिव विश्लेषण प्रणाली बनाई गई
- 30 लेख प्रति दिन × 31 दिन = कुल 930 लेख
- प्रत्येक लेख और टिप्पणी थ्रेड को Algolia API से एकत्र करने के बाद, ChatGPT 5.1 Thinking से विश्लेषण कराने का अनुरोध किया गया
विश्लेषण परिणामों को स्टैटिक HTML पेज के रूप में रेंडर करके वेबसाइट पर पोस्ट किया गया
- परिणाम पृष्ठ: https://karpathy.ai/hncapsule/
- मूल डेटा (data.zip) भी इसी पथ पर उपलब्ध है

विश्लेषण प्रॉम्प्ट संरचना

प्रत्येक लेख के लिए 6 सेक्शन वाला प्रॉम्प्ट उपयोग किया गया
1. लेख और चर्चा का सारांश
2. बाद में वास्तविक दुनिया में क्या हुआ
3. सबसे सटीक टिप्पणी और सबसे गलत टिप्पणी का चयन
4. अन्य रोचक पहलू
5. प्रति टिप्पणीकर्ता अंतिम ग्रेड (Final grades) सूची
6. लेख पोस्ट‑मॉर्टम रुचि स्कोर (0~10)
उदाहरण फॉर्मेट को कठोरता से ऐसा तय किया गया कि प्रोग्राम इसे ऑटोमैटिकली पार्स कर सके
प्रत्येक खाते के औसत स्कोर को जोड़कर सबसे भविष्यदर्शी उपयोगकर्ता की पहचान की गई

कार्यान्वयन और लागत

Opus 4.5 से लगभग 3 घंटे में कार्यान्वित, कुछ त्रुटियों को छोड़कर बाकी सुचारू रहा
930 कुल LLM अनुरोधों की प्रोसेसिंग की लागत लगभग $58 और प्रोसेसिंग समय लगभग 1 घंटा रहा
GitHub repository: karpathy/hn-time-capsule
- कोई भी परिणाम को दोहरा या मॉडिफाई कर सकता है

प्रमुख उदाहरण थ्रेड

3 दिसंबर 2015: Swift का ओपन-सोर्स संस्करण जारी होना
6 दिसंबर 2015: Figma लॉन्च
11 दिसंबर 2015: OpenAI के गठन की घोषणा
16 दिसंबर 2015: geohot का Comma प्रोजेक्ट
22 दिसंबर 2015: SpaceX Orbcomm-2 लॉन्च
28 दिसंबर 2015: Theranos विवाद की रिपोर्टिंग
प्रत्येक लिंक संबंधित तिथि के विश्लेषण पेज से जुड़ा है, जहाँ उस समय की चर्चा और वास्तविक परिणामों की तुलना की जा सकती है

Hall of Fame

दिसंबर 2015 में Hacker News के सबसे अंतर्दृष्टिपूर्ण टिप्पणीकारों को IMDb शैली के औसत स्कोर से क्रमबद्ध किया गया
शीर्ष उपयोगकर्ता: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
नीचे ‘HN noise’ के रूप में वर्गीकृत कम स्कोर वाले उपयोगकर्ताओं की सूची भी शामिल है

दार्शनिक संदेश

“Be good, future LLMs are watching” पंक्ति का उद्धरण करते हुए,
भविष्य के LLMs द्वारा अतीत के मानव व्यवहार का सूक्ष्म विश्लेषण संभव होने की ओर संकेत किया गया
वर्तमान ऑनलाइन व्यवहार यह सुझाता है कि ‘बुद्धिमत्ता सस्ती होती जाने’ वाले भविष्य में उसे लगभग पूर्णतः पुनर्निर्मित किया जा सकेगा
यह संभावना भी दिखाती है कि मानव क्रियाएँ ‘अदृश्य निगरानी’ नहीं बल्कि पूर्ण रिकॉर्डिंग और रिकंस्ट्रक्शन का विषय बन सकती हैं

निष्कर्ष

यह प्रयोग दिखाता है कि LLM को पुराने डेटा का बड़े पैमाने पर पुनर्मूल्यांकन करने वाला टूल की तरह इस्तेमाल किया जा सकता है
ऐतिहासिक चर्चाओं की अंतर्दृष्टि का स्वतः स्कोरिंग का नया उपयोग मामला प्रस्तुत करते हुए, यह संकेत देता है कि AI मानव ज्ञान का रेट्रोस्पेक्टिव analyst बन सकता है

1 टिप्पणियां

GN⁺ 2025-12-11

Hacker News की राय

2015 में किया गया मेरा कमेंट इस तरह फिर से ध्यान में आएगा, यह नहीं सोचा था
पुराने कमेंट का लिंक देखकर थोड़ा गर्व महसूस हो रहा है
कोड जब threads को evaluation के लिए भेजता है, तो user names को anonymize नहीं करना एक समस्या लगती है
इससे किसी खास user की reputation score में bias ला सकती है
user names को random तरीके से फिर से assign करना, या procedurally generated pseudonyms का इस्तेमाल करके bias कम करने का experiment दिलचस्प हो सकता है
साथ ही, Gemini API की तरह sources को cite करने वाले model इस्तेमाल किए जाएँ तो evaluation की reliability बढ़ सकती है
पुराने comments को फिर से पढ़ना सच में मज़ेदार है
पहले discussions कैसे आगे बढ़े थे, यह देखने के लिए मैंने खुद एक replay system बनाया था
Karpathy की evaluation post list को visualize करने वाले example के तौर पर कुछ links शेयर कर रहा हूँ
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- दिन के अलग-अलग समय के हिसाब से sentiment analysis भी करके देखना चाहता हूँ
  सुबह और शाम की राय में काफ़ी बड़ा फ़र्क दिखता है, इसलिए इसे numbers में verify करना दिलचस्प होगा
- साइट वाकई बहुत मज़ेदार है। धन्यवाद
अगर हर user name के बगल में reality match score दिखाने वाला कोई Chrome extension हो तो अच्छा होगा
मतलब किसने सच में सही prediction किया, या कौन ग़लत निकला, यह score से दिखे
आगे बढ़कर, अगर users को सही comments पर दिए गए upvotes के ratio से weight दिया जाए तो ranking और fair हो सकती है
- Reddit Enhancement Suite अप्रत्यक्ष रूप से कुछ ऐसा feature देती है
  मैं जिन users को अक्सर upvote करता हूँ, उन्हें track करके “यह इंसान भरोसेमंद है” जैसा एक मानदंड बना लेता हूँ
  यह पूरी तरह subjective है, लेकिन transparency है
- इस तरह के score system को बढ़ाकर “इस इंसान में नैतिक विश्वास नहीं है” जैसे score भी बनाए जा सकते हैं
  ऐसा system community को और छोटा और घनिष्ठ बना सकता है
- Elon द्वारा Twitter खरीदने से पहले, journalists के लिए digital credibility tracking system (Pravda) बनाने की कोशिश याद आ रही है
  असल में हम भी दोस्तों या journalists की credibility याद रखकर ही जीते हैं
- stock communities में भी मैंने ऐसा ही idea सोचा था
  WSB या Twitter पर stock predictions करने वाले लोगों की accuracy rank करना
  लेकिन सामान्य comments के मामले में “prediction क्या है” इसे define करना कहीं ज़्यादा मुश्किल है
- “सही comment” की definition साफ़ नहीं है
  “कल सूरज उगेगा” जैसी बात शायद सबसे ऊँचा score ले ले, लेकिन उसका कोई मतलब नहीं
मैंने मज़ाक में कहा था, “pcwalton, चलो!”, लेकिन असल में thread-level evaluation कुछ हद तक random लगती है
यह thread prediction के मामले में बहुत अच्छा था, लेकिन comments सिर्फ 11 थे और मेरा एक लाइन का था
फिर भी startup equity accessibility पर मेरी राय का ऊपर आना अच्छा लगा
- अपना comment evaluate होते देखकर हैरानी हुई
  system जिस तरह “prediction” को define करता है, वह काफ़ी subjective है
  मैं तो उल्टा prediction से बचने की कोशिश कर रहा था, लेकिन लगता है उसे prediction मान लिया गया
“trillion tamagotchi” vision पूरा नहीं हुआ, ऐसा आकलन मिलने पर मैं अपना low score विनम्रता से स्वीकार करता हूँ
इस project को देखकर लगा कि आख़िरकार उबाऊ राय ही सबसे ज़्यादा सही निकलती है
जितने ज़्यादा सनसनीखेज़ और आत्मविश्वास से भरे comments होते हैं, समय बीतने पर उनके ग़लत निकलने की संभावना उतनी ही ज़्यादा होती है
उदाहरण के लिए, “lithium-ion battery की क़ीमत $108/kWh तक गिरना” जैसी बात लगातार cost curve prediction होने की वजह से काफ़ी भरोसेमंद है
वहीं “LLM mental health में fail हो रहे हैं” जैसे headline बहुत जल्दी बदलने वाले benchmarks पर निर्भर करते हैं
आख़िरकार, काश कोई ऐसा तरीका हो जिससे पहले से “उबाऊ लेकिन सही” राय पहचानी जा सके
- एक राय यह है कि “उबाऊ लेकिन सही” बातें तो पहले से ही दुनिया में reflect हो चुकी predictions होती हैं, इसलिए उन्हें score देना मुश्किल है
- “2035 में 1+1=2” जैसा मज़ाक, बहुत ज़ाहिर prediction की निरर्थकता पर व्यंग्य करता है
- “LLM और mental health” prediction नहीं, बल्कि मौजूदा news है
  लेकिन AI की लगातार प्रगति आखिरकार इंसानों की आर्थिक भूमिका को तोड़ सकती है, इस नज़रिए से देखें तो यह डरावनी तरह से सही prediction भी हो सकती है
- algorithmic feeds engagement-based तरीके से काम करते हैं, इसलिए सनसनीखेज़ content को reward मिलता है
  इसी वजह से उबाऊ और सावधान राय आसानी से दब जाती है
- predictions को evaluate करते समय उस समय की uncertainty को weight में शामिल करना चाहिए
  prediction markets की तरह, उस समय की probability के मुकाबले कितना फ़र्क निकला, इसे score करने का तरीका चाहिए
Gmail के 90% भर जाने की warning मिलने के बाद, मैंने weekend में email analysis project किया
65,000 से ज़्यादा mails classify किए, जिनमें आधे से ज़्यादा कचरा निकले
मूल रूप से मैं बेकार mails delete करना चाहता था, लेकिन अब लगता है कि personal और valuable mails को delete कर देना
और Google के पास सिर्फ newsletters या receipts जैसा बेकार data छोड़ना ज़्यादा सुरक्षित हो सकता है
मैं अक्सर LLM से HN comments का summary बनवाता हूँ
कई बार original text से ज़्यादा insightful summary मिलती है, इसलिए मुझे यह पूरी तरह game changer लगता है
यह देखकर हैरानी हुई कि author को लगा कि इसने quality check pass कर लिया
LLM की evaluation ज़्यादातर बेतुकी लगती है
असली साइट पर reviews देखें तो ऐसा लगता है कि model ने “prediction सही था या नहीं” के बजाय “मैं सहमत हूँ या नहीं” के आधार पर score किया
आखिर में अनुरूपवादी राय को ऊँचा score मिलने वाली संरचना बन जाती है
- उदाहरण के तौर पर, DF पर tptacek के comment को ‘A’ मिला,
  LLM review में
  “game की harsh nature को अच्छी तरह describe किया” कहा गया है
  लेकिन यह भविष्यवाणी नहीं, बल्कि उस समय की मौजूदा स्थिति का वर्णन भर है
  ऊपर से, असल में इसका मतलब उल्टा भी हो सकता है
  ऐसे cases का top ranks में होना दिखाता है कि evaluation criteria बुरी तरह गड़बड़ हैं
- लेकिन हर review के तीसरे section में “सबसे insightful” और “सबसे ग़लत” comments अलग से दिए गए हैं
  उदाहरण के लिए Kickstarter is Debt post में,
  Oculus और Pebble के future की तुलना करने वाली prediction को बिल्कुल सही माना गया है
  ऐसे हिस्से काफ़ी सटीक और उपयोगी analysis लगते हैं
- कुल मिलाकर LLM evaluation असटीक और असंगत है
  यह instructions को ignore करता है, अपनी राय मिलाता है, और calibration भी नहीं है
  एक “अच्छा” LLM judging system कई साधारण binary judgments (सही/ग़लत) को जोड़कर काम करना चाहिए
  यह project मज़े के लिए तो ठीक है, लेकिन असल evaluation tool के रूप में अनुपयुक्त लगता है

10 साल पुराने Hacker News चर्चाओं का LLM से स्वतः ग्रेडिंग

परियोजना का अवलोकन

विश्लेषण प्रॉम्प्ट संरचना

कार्यान्वयन और लागत

प्रमुख उदाहरण थ्रेड

Hall of Fame

दार्शनिक संदेश

निष्कर्ष

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय