- A16Z की सिफारिशी पुस्तक सूची में शामिल कुछ कृतियों के विवरण से यह तथ्यों से अलग वाक्यांश सामने आया कि “अधिकांश किताबें वाक्य के बीच में ही समाप्त हो जाती हैं”
- Neal Stephenson ने स्पष्ट किया कि उनके कई उपन्यास विवादित हो सकते हैं, लेकिन वास्तव में कोई भी किताब वाक्य के बीच में खत्म नहीं हुई
- उन्होंने इस गलती को AI-जनित टेक्स्ट को बिना किसी मानवीय समीक्षा के पोस्ट करने का परिणाम होने की संभावना सबसे अधिक मानी
- GitHub रेपो इतिहास से Cursor IDE द्वारा बनाया गया प्रारंभिक ड्राफ्ट और बाद में मानव की लापरवाह संशोधन प्रक्रिया दोनों की पुष्टि मिली
- यह उदाहरण AI-जनित कंटेंट की विश्वसनीयता और सत्यापन की कमी के सवाल को उजागर करने की दृष्टि से महत्वपूर्ण है
A16Z की पुस्तक सूची और गलत वाक्यांश
- A16Z के सार्वजनिक सिफारिशी रीडिंग लिस्ट में Neal Stephenson की कई रचनाएँ थीं
- सूची विवरण में यह लाइन शामिल थी कि “अधिकांश किताबें वाक्य के बीच में ही समाप्त होती हैं (यानी सीधे शब्दों में mid-sentence पर समाप्त होती हैं)”
- Stephenson ने कहा कि यह बयान सच नहीं है, और इसमें “literally” शब्द होने के कारण यह कोई रूपकात्मक टिप्पणी नहीं, बल्कि एक साफ़ गलती है
- उन्होंने बताया कि कुछ पाठकों को अंत पसंद न आए, लेकिन 《Snow Crash》, 《The Diamond Age》, 《Seveneves》 आदि सबके स्पष्ट अंत हैं
गलती का स्वरूप और समस्या
- यह वाक्य मात्र साहित्यिक राय(opinion) नहीं, बल्कि तथ्यात्मक दावा(factual assertion) था, और गलत था
- Stephenson ने कहा कि यह गलती लेखक और संपादक की ईमानदारी पर सवाल उठाती है
- उन्होंने यह सवाल भी उठाया कि “यह दावा A16Z की वेबसाइट पर कैसे चढ़ गया”
परिकल्पना 1: AI द्वारा बनाई गई भाषा
- सबसे संभावित कारण के तौर पर AI द्वारा लिखे वाक्य को बिना मानवीय जाँच के प्रकाशित करने की संभावना बताई गई
- नाम की वर्तनी की गलतियाँ और शैली की खासियतें इसे सहारा देती हैं
- यह पैटर्न पहले से ही कानून, अकादमिक क्षेत्र, मीडिया आदि कई डोमेन में बार-बार दिख चुका है
- Stephenson ने इस प्रक्रिया की तुलना “Inhuman Centipede” से करते हुए बताया कि गलत जानकारी के अगली पीढ़ी के LLM में पुनः सीख लिए जाने का जोखिम होता है
परिकल्पना 2: मानव द्वारा गलत डेटा का उपयोग
- दूसरी संभावना के तौर पर गलत स्रोत सामग्री पर आधारित मानवीय गलती को रखा गया
- उप-परिकल्पना A: किसी अवैध प्रति (bootleg PDF) पर भरोसा करके बीच में कटे हुए संस्करण से संदर्भ लेने की संभावना
- उप-परिकल्पना B: अनुवाद की खराब गुणवत्ता की वजह से ऐसा लगा हो कि वाक्य सच में बीच में कट जाता है
वास्तविक कारण की खोज
- Stephenson ने साइट की जाँच में GitHub repository के commit history में सुराग पाया
- जुलाई 21, 2023 के commit में Cursor IDE द्वारा बनाई गई मूल प्रति मौजूद थी
- मूल टेक्स्ट में “segfault” का एक रूपक था, लेकिन बाद में किसी इंसान ने उसे “वाक्य के बीच में रुकना” में बदलकर गलत संशोधन कर दिया
- बाद में किसी और ने सारांश बनाते हुए टाइपोग्राफिकल गलती जोड़ दी, जिससे त्रुटि पूरी तरह पुख्ता हो गई
- उन्होंने इसे AI उपयोग की सुस्ती और मानव की लापरवाही के मेल का परिणाम बताया
इंटरनेट विश्वसनीयता और AI कंटेंट
- Stephenson ने कहा कि इंटरनेट यूज़र्स अब भी ऑनलाइन जानकारी पर अंधविश्वास करते हैं
- उन्होंने अपने उपन्यास Cryptonomicon के वाक्य-टुकड़ों के यादृच्छिक रूप से स्पैम मेल में डाले जाने का पुराना उदाहरण याद दिलाया
- उन अंशों में वाक्य सच में बीच में कटे हुए थे, और उन्होंने कहा कि LLM द्वारा ऐसे डेटा का ट्रेन हो जाना संभव है
- इस घटना से उन्होंने इस जोखिम को रेखांकित किया कि AI तथ्य और कल्पना में अंतर किए बिना सामग्री बना देता है
निष्कर्ष
- Stephenson ने A16Z की सिफारिशों के लिए आभार व्यक्त करते हुए भी इस गलत वाक्य पर ठोस fact-check की जरूरत पर जोर दिया
- यह उदाहरण AI-निर्मित कंटेंट में सत्यापन की कमी और मानव समीक्षा की जवाबदेही को दिखाने वाला मामला माना गया
1 टिप्पणियां
Hacker News राय
commit history सार्वजनिक है, इसलिए यह आसानी से पता चलता है कि वह reading list AI के हाथों से गुज़री है
संबंधित commit link देखें
commit message सिर्फ “stephenson” है, इसलिए यह क्यों बदला गया, यह स्पष्ट नहीं है
संशोधित commit link
LLM के साथ मेरा अनुभव दूसरों जितना सकारात्मक नहीं रहा
Google के Gemini promotion का उदाहरण लें, उसने Thanksgiving dinner तैयार करने की timeline दी, लेकिन सवाल पूछने पर तीन अलग-अलग और एक-दूसरे से टकराने वाले version दे दिए
बस “ब्रेड पर तौलिया ढककर उसे गरम रखो” जैसा सीधा जवाब काफी था, लेकिन उसने बार-बार पूरी तरह बेमेल जवाब दिए
code generation 6 में 1 बार सफल, StackOverflow-टाइप सवाल 6 में 5 बार सफल, और general questions में प्रदर्शन उतार-चढ़ाव वाला है
जब यह fail होता है, तो इतनी बुरी तरह fail होता है कि दुनिया का इस large-scale LLM usage की तरफ भागना डरावना लगता है
यहाँ तक कि “AI Overview लॉन्च होने के एक दिन पहले stock price क्या था” यह भी उसने गलत बताया
वह code से भी लंबा था, और सिर्फ variable declarations दोहराने वाली मतलबहीन spaghetti था। मैं उसे फिर कभी इस्तेमाल नहीं करूँगा
मुझे नहीं लगता कि A16Z को गंभीरता से लेना चाहिए। वे पूरी तरह ठगों का समूह लगते हैं
अगर blog post को वाक्य के बीच में खत्म कर दिया होता, तो वह सच में कमाल होता
उनकी दूसरी रचनाएँ भी इंसान के अव्यवस्थित inner world को दिखाती हैं, लेकिन किसी अंत या moral के बिना
2000 से ज़्यादा pages पढ़ने के बाद भी निष्कर्ष यही है: “recommend नहीं करूँगा”
Neal Stephenson से बस इतना कहना है, “धन्यवाद कि आपने पूरा वाक्य लिखकर खत्म किया”
उनकी किताबें हमेशा बहुत जल्दी या बहुत देर से खत्म होने जैसी लगती हैं, इसलिए दिलचस्प setup होने के बावजूद हाथ कम जाता है
इससे Werner Herzog की autobiography याद आती है
प्रस्तावना में वह कहते हैं कि “किसी sniper की गोली लगने से जीवन अचानक खत्म हो सकता है”, और इसे किताब को अचानक खत्म करने की device के रूप में इस्तेमाल करने की बात कहते हैं
और वह सच में ऐसा करते भी हैं, लेकिन तुरंत उसके बाद “यही वह ending है जिसकी मैंने पहले घोषणा की थी” जोड़ देते हैं—एकदम Herzog-style twist
साल के अंत में बड़ी कंपनियों का reading list निकालना दरअसल यह PR message होता है कि “हम भावनाओं और पसंद वाले लोग हैं”
लेकिन इस मामले ने दिखा दिया कि वह बस PR के लिए किया गया प्रदर्शन था
“जीवन का अर्थ एक integer था” जैसी पंक्ति पर खत्म होते देख तुरंत लगा कि यह निश्चित ही AI द्वारा लिखी गई line है
पूरी list LLM-विशेष tone से भरी हुई है
स्रोत को देखते हुए इसमें हैरानी भी नहीं है। सच कहूँ तो पहली hypothesis ही काफी होनी चाहिए थी: LLM ने लिखा
Stephenson का व्यंग्य करते हुए उन्हें वाक्य के बीच में खत्म करने वाला Dadaist लेखक कहा गया
एक दूसरी hypothesis यह है कि यह बस याददाश्त की गलती हो सकती है
शायद बहुत पहले पढ़ी हुई किसी Stephenson किताब का फीका ending याद रहा हो, और किसी दूसरी किताब के “वाक्य के बीच में खत्म होने” वाले हिस्से से गड़बड़ा गया हो