2 पॉइंट द्वारा GN⁺ 2025-11-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • A16Z की सिफारिशी पुस्तक सूची में शामिल कुछ कृतियों के विवरण से यह तथ्यों से अलग वाक्यांश सामने आया कि “अधिकांश किताबें वाक्य के बीच में ही समाप्त हो जाती हैं”
  • Neal Stephenson ने स्पष्ट किया कि उनके कई उपन्यास विवादित हो सकते हैं, लेकिन वास्तव में कोई भी किताब वाक्य के बीच में खत्म नहीं हुई
  • उन्होंने इस गलती को AI-जनित टेक्स्ट को बिना किसी मानवीय समीक्षा के पोस्ट करने का परिणाम होने की संभावना सबसे अधिक मानी
  • GitHub रेपो इतिहास से Cursor IDE द्वारा बनाया गया प्रारंभिक ड्राफ्ट और बाद में मानव की लापरवाह संशोधन प्रक्रिया दोनों की पुष्टि मिली
  • यह उदाहरण AI-जनित कंटेंट की विश्वसनीयता और सत्यापन की कमी के सवाल को उजागर करने की दृष्टि से महत्वपूर्ण है

A16Z की पुस्तक सूची और गलत वाक्यांश

  • A16Z के सार्वजनिक सिफारिशी रीडिंग लिस्ट में Neal Stephenson की कई रचनाएँ थीं
    • सूची विवरण में यह लाइन शामिल थी कि “अधिकांश किताबें वाक्य के बीच में ही समाप्त होती हैं (यानी सीधे शब्दों में mid-sentence पर समाप्त होती हैं)”
  • Stephenson ने कहा कि यह बयान सच नहीं है, और इसमें “literally” शब्द होने के कारण यह कोई रूपकात्मक टिप्पणी नहीं, बल्कि एक साफ़ गलती है
  • उन्होंने बताया कि कुछ पाठकों को अंत पसंद न आए, लेकिन 《Snow Crash》, 《The Diamond Age》, 《Seveneves》 आदि सबके स्पष्ट अंत हैं

गलती का स्वरूप और समस्या

  • यह वाक्य मात्र साहित्यिक राय(opinion) नहीं, बल्कि तथ्यात्मक दावा(factual assertion) था, और गलत था
  • Stephenson ने कहा कि यह गलती लेखक और संपादक की ईमानदारी पर सवाल उठाती है
  • उन्होंने यह सवाल भी उठाया कि “यह दावा A16Z की वेबसाइट पर कैसे चढ़ गया”

परिकल्पना 1: AI द्वारा बनाई गई भाषा

  • सबसे संभावित कारण के तौर पर AI द्वारा लिखे वाक्य को बिना मानवीय जाँच के प्रकाशित करने की संभावना बताई गई
    • नाम की वर्तनी की गलतियाँ और शैली की खासियतें इसे सहारा देती हैं
  • यह पैटर्न पहले से ही कानून, अकादमिक क्षेत्र, मीडिया आदि कई डोमेन में बार-बार दिख चुका है
  • Stephenson ने इस प्रक्रिया की तुलना “Inhuman Centipede” से करते हुए बताया कि गलत जानकारी के अगली पीढ़ी के LLM में पुनः सीख लिए जाने का जोखिम होता है

परिकल्पना 2: मानव द्वारा गलत डेटा का उपयोग

  • दूसरी संभावना के तौर पर गलत स्रोत सामग्री पर आधारित मानवीय गलती को रखा गया
    • उप-परिकल्पना A: किसी अवैध प्रति (bootleg PDF) पर भरोसा करके बीच में कटे हुए संस्करण से संदर्भ लेने की संभावना
    • उप-परिकल्पना B: अनुवाद की खराब गुणवत्ता की वजह से ऐसा लगा हो कि वाक्य सच में बीच में कट जाता है

वास्तविक कारण की खोज

  • Stephenson ने साइट की जाँच में GitHub repository के commit history में सुराग पाया
    • जुलाई 21, 2023 के commit में Cursor IDE द्वारा बनाई गई मूल प्रति मौजूद थी
    • मूल टेक्स्ट में “segfault” का एक रूपक था, लेकिन बाद में किसी इंसान ने उसे “वाक्य के बीच में रुकना” में बदलकर गलत संशोधन कर दिया
    • बाद में किसी और ने सारांश बनाते हुए टाइपोग्राफिकल गलती जोड़ दी, जिससे त्रुटि पूरी तरह पुख्ता हो गई
  • उन्होंने इसे AI उपयोग की सुस्ती और मानव की लापरवाही के मेल का परिणाम बताया

इंटरनेट विश्वसनीयता और AI कंटेंट

  • Stephenson ने कहा कि इंटरनेट यूज़र्स अब भी ऑनलाइन जानकारी पर अंधविश्वास करते हैं
  • उन्होंने अपने उपन्यास Cryptonomicon के वाक्य-टुकड़ों के यादृच्छिक रूप से स्पैम मेल में डाले जाने का पुराना उदाहरण याद दिलाया
    • उन अंशों में वाक्य सच में बीच में कटे हुए थे, और उन्होंने कहा कि LLM द्वारा ऐसे डेटा का ट्रेन हो जाना संभव है
  • इस घटना से उन्होंने इस जोखिम को रेखांकित किया कि AI तथ्य और कल्पना में अंतर किए बिना सामग्री बना देता है

निष्कर्ष

  • Stephenson ने A16Z की सिफारिशों के लिए आभार व्यक्त करते हुए भी इस गलत वाक्य पर ठोस fact-check की जरूरत पर जोर दिया
  • यह उदाहरण AI-निर्मित कंटेंट में सत्यापन की कमी और मानव समीक्षा की जवाबदेही को दिखाने वाला मामला माना गया

1 टिप्पणियां

 
GN⁺ 2025-11-29
Hacker News राय
  • commit history सार्वजनिक है, इसलिए यह आसानी से पता चलता है कि वह reading list AI के हाथों से गुज़री है
    संबंधित commit link देखें

    • यह version कहीं ज़्यादा natural है। Opus द्वारा बनाई गई पंक्ति थी, “यह मेरी पसंदीदा functions में से एक के बीच में segfault होने की तरह अचानक खत्म हो जाती है”, लेकिन बाद की commit में इसे “ज़्यादातर किताबें वाक्य के बीच में रुक जाती हैं” में बदल दिया गया
      commit message सिर्फ “stephenson” है, इसलिए यह क्यों बदला गया, यह स्पष्ट नहीं है
      संशोधित commit link
    • एक पंक्ति थी, “Stephenson सिर्फ एक SF लेखक नहीं हैं, बल्कि भविष्य के operating manual लिखने वाले व्यक्ति हैं”, और यह सच में एकदम典型 AI-generated writing style जैसी थी। अच्छा है कि इसे ठीक कर दिया गया
    • इस commit में “THIS IS AI GENERATED, NEED TO EDIT” वाली टिप्पणी थी। यानी उन्होंने मान लिया था कि draft शुरू से AI से लिखा गया था
    • अभी तक इस हिस्से को ठीक करने वाली कोई pull request नहीं दिख रही
  • LLM के साथ मेरा अनुभव दूसरों जितना सकारात्मक नहीं रहा
    Google के Gemini promotion का उदाहरण लें, उसने Thanksgiving dinner तैयार करने की timeline दी, लेकिन सवाल पूछने पर तीन अलग-अलग और एक-दूसरे से टकराने वाले version दे दिए
    बस “ब्रेड पर तौलिया ढककर उसे गरम रखो” जैसा सीधा जवाब काफी था, लेकिन उसने बार-बार पूरी तरह बेमेल जवाब दिए
    code generation 6 में 1 बार सफल, StackOverflow-टाइप सवाल 6 में 5 बार सफल, और general questions में प्रदर्शन उतार-चढ़ाव वाला है
    जब यह fail होता है, तो इतनी बुरी तरह fail होता है कि दुनिया का इस large-scale LLM usage की तरफ भागना डरावना लगता है

    • हैरानी की बात है कि Google ने ऐसे बेकार जवाब बनाने वाले generator को अपनी core service के सामने लगा दिया और फिर भी उसका stock दोगुना हो गया
      यहाँ तक कि “AI Overview लॉन्च होने के एक दिन पहले stock price क्या था” यह भी उसने गलत बताया
    • ज़्यादातर LLM fans शायद नतीजों को सिर्फ ऊपर-ऊपर देखकर प्रभावित हो जाते हैं, और असली content की गलतियाँ या code quality को ध्यान से नहीं देखते
    • मैंने भी मज़े के लिए Copilot से AVR-GCC के लिए Makefile लिखने को कहा था, और उसने 2500 lines का एक राक्षसी output दे दिया
      वह code से भी लंबा था, और सिर्फ variable declarations दोहराने वाली मतलबहीन spaghetti था। मैं उसे फिर कभी इस्तेमाल नहीं करूँगा
  • मुझे नहीं लगता कि A16Z को गंभीरता से लेना चाहिए। वे पूरी तरह ठगों का समूह लगते हैं

    • अगर कोई recruiter A16Z investment का घमंड करे, तो मैं उसे उल्टा negative signal मानता हूँ
    • “Software is eating the world, AI is eating the VCs” बिल्कुल फिट बैठता है
    • “...and a conehead” जैसी तंज भरी प्रतिक्रिया भी थी
  • अगर blog post को वाक्य के बीच में खत्म कर दिया होता, तो वह सच में कमाल होता

    • David Foster Wallace का पहला novel The Broom of the System “I am a man of my” पर खत्म होता है
      उनकी दूसरी रचनाएँ भी इंसान के अव्यवस्थित inner world को दिखाती हैं, लेकिन किसी अंत या moral के बिना
      2000 से ज़्यादा pages पढ़ने के बाद भी निष्कर्ष यही है: “recommend नहीं करूँगा”
      Neal Stephenson से बस इतना कहना है, “धन्यवाद कि आपने पूरा वाक्य लिखकर खत्म किया”
    • पढ़ते हुए बीच में ending पहले देख लेने की इच्छा को मैंने रोका
      उनकी किताबें हमेशा बहुत जल्दी या बहुत देर से खत्म होने जैसी लगती हैं, इसलिए दिलचस्प setup होने के बावजूद हाथ कम जाता है
    • एक comment ने मज़ाक में कहा, “मेरे पास भी कोई original ideas नहीं हैं”
    • किसी ने यह भी pointed out किया कि “असल में वह किताब बीच में खत्म होती है”
    • “मैं भी यही उम्मीद कर रहा था, अफ़सोस” जैसी हँसती हुई प्रतिक्रिया भी थी
  • इससे Werner Herzog की autobiography याद आती है
    प्रस्तावना में वह कहते हैं कि “किसी sniper की गोली लगने से जीवन अचानक खत्म हो सकता है”, और इसे किताब को अचानक खत्म करने की device के रूप में इस्तेमाल करने की बात कहते हैं
    और वह सच में ऐसा करते भी हैं, लेकिन तुरंत उसके बाद “यही वह ending है जिसकी मैंने पहले घोषणा की थी” जोड़ देते हैं—एकदम Herzog-style twist

  • साल के अंत में बड़ी कंपनियों का reading list निकालना दरअसल यह PR message होता है कि “हम भावनाओं और पसंद वाले लोग हैं”
    लेकिन इस मामले ने दिखा दिया कि वह बस PR के लिए किया गया प्रदर्शन था

  • “जीवन का अर्थ एक integer था” जैसी पंक्ति पर खत्म होते देख तुरंत लगा कि यह निश्चित ही AI द्वारा लिखी गई line है

  • पूरी list LLM-विशेष tone से भरी हुई है
    स्रोत को देखते हुए इसमें हैरानी भी नहीं है। सच कहूँ तो पहली hypothesis ही काफी होनी चाहिए थी: LLM ने लिखा

    • वे दावा करते हैं कि “हमने सारी किताबें पढ़ी हैं”, लेकिन अगर सच में पसंद थीं तो कम-से-कम कुछ पंक्तियाँ खुद लिखते, ऐसा सवाल उठता है
  • Stephenson का व्यंग्य करते हुए उन्हें वाक्य के बीच में खत्म करने वाला Dadaist लेखक कहा गया

    • इसके बाद आत्म-व्यंग्य जैसा quote आता है: “100 साल बाद लोग मुझे ऐसे ही लेखक के रूप में याद करेंगे”
  • एक दूसरी hypothesis यह है कि यह बस याददाश्त की गलती हो सकती है
    शायद बहुत पहले पढ़ी हुई किसी Stephenson किताब का फीका ending याद रहा हो, और किसी दूसरी किताब के “वाक्य के बीच में खत्म होने” वाले हिस्से से गड़बड़ा गया हो

    • अगर यह कंपनी की आधिकारिक review थी, तो कम-से-कम किताब खोलकर कुछ pages फिर से देख लेने चाहिए थे
    • व्यक्तिगत रूप से मुझे hypothesis A (AI writing theory) कहीं ज़्यादा convincing लगती है
    • या फिर यह AI से बनी Top 50 list में अपनी कंपनी के प्रचार वाली किताबें घुसा देने वाला low-cost marketing भी हो सकता है
    • एक hypothesis D-for-Delany भी सामने आई: “कोई इंसान जिसने गलती से समझ लिया कि Stephenson ने Dhalgren लिखी थी।” यह कहते हुए उसने “I have come to” पर खत्म होने वाली उस पंक्ति का हवाला दिया