ChatGPT वेब का धुंधला JPEG है
(newyorker.com)- यह लेख Ted Chiang ने लिखा है, जिन्हें मौजूदा दौर के सर्वश्रेष्ठ SF लेखकों में से एक माना जाता है
- बात यह है कि ChatGPT जानकारी को compress करके store करता है, इसलिए यह मूल सामग्री नहीं बल्कि धुंधले JPEG को देखने जैसा है
- 2013 में पता चला कि Xerox copier जब diagrams की copy बनाता था, तो कुछ अंकों को दूसरे अंकों से बदल देता था
- copy के लिए digitize करने की प्रक्रिया में JBIG2 lossy compression के दौरान मिलते-जुलते अंकों में से सिर्फ एक को store करके उसे दोबारा इस्तेमाल करने से यह समस्या हुई
- यह कहना मुश्किल है that this case and OpenAI के ChatGPT बिल्कुल साफ़ तौर पर एक जैसे हैं, लेकिन वेब की जानकारी store करते समय ऐसा मिलता-जुलता scenario बन सकता है
- कल्पना कीजिए कि आप इंटरनेट तक पहुँच खो दें
- आप वेब के सारे text को compress करके उसकी एक copy बनाना चाहते हैं
- लेकिन आपके पास store करने के लिए मूल आकार की सिर्फ 1% जगह है, इसलिए आपको compression करना होगा और शायद lossy algorithm इस्तेमाल करना पड़ेगा
- अब आप सब कुछ search तो कर सकते हैं, लेकिन text इतना compress हो चुका है कि आप सटीक quotes नहीं ढूँढ सकते
- ChatGPT को वेब के सारे text का धुंधला JPEG समझा जा सकता है
- JPEG की तरह यह वेब की बहुत-सी जानकारी को बनाए रखता है, लेकिन ठीक वही bit sequence नहीं रखता
- इसलिए आपको जो कुछ मिलता है, वह approximation होता है
- लेकिन यह approximation ChatGPT द्वारा बनाए गए उत्कृष्ट grammatical text के रूप में मिलता है, इसलिए लोग आम तौर पर इसे स्वीकार कर लेते हैं
- ChatGPT की क्षमता को समझने का यह कोई पूर्ण तरीका नहीं है
- लेकिन ChatGPT के "hallucination" या सच के बारे में उसके बेतुके जवाबों को समझने का यह एक तरीका ज़रूर है
- ये hallucinations Xerox copier की गलत संख्याओं की तरह इतनी विश्वसनीय लग सकती हैं कि उन्हें सच में पहचानने के लिए आपको मूल स्रोत से तुलना करनी पड़े
- बड़े language models text में मौजूद statistical regularities की पहचान करते हैं
- जैसे "supply कम है" जैसी अभिव्यक्ति अक्सर "prices बढ़ती हैं" जैसे वाक्य के पास दिखाई देती है
- ऐसे रिश्ते बहुत बार देखने वाला chatbot, supply shortage के असर के बारे में पूछे जाने पर price increase वाला जवाब देने लगता है
- अगर LLM ने आर्थिक शब्दों के बीच बहुत-सी correlations इकट्ठी कर ली हैं, तो क्या हम कह सकते हैं कि वह वास्तव में economic theory को समझता है?
- ChatGPT जैसे models lossless compression नहीं करते; यानी वे मूल text को ठीक-ठीक reconstruct नहीं करते
- GPT-3 दो अंकों वाली संख्याओं के जोड़-घटाव में लगभग हमेशा सही जवाब देता है, लेकिन अगर संख्याएँ 5 अंकों की हों तो उसकी accuracy बहुत गिरकर 10% तक रह जाती है
- क्योंकि वेब पर "245 + 821" जैसे text वाली pages बहुत ज़्यादा नहीं हैं
- यानी बहुत बड़ी मात्रा में जानकारी समेट लेने पर भी उसने "arithmetic के सिद्धांत" नहीं निकाले
- कल्पना कीजिए कि ChatGPT अगर एक lossless algorithm होता
- तब वह संबंधित web pages से कुछ हिस्से ज्यों के त्यों quote करके सवालों के जवाब देता
- तब शायद हमें लगता कि यह software मौजूदा search engines की तुलना में बस थोड़ा-सा बेहतर है, और हम इतने प्रभावित नहीं होते
- ChatGPT वेब की सामग्री को शब्दशः quote करने के बजाय उसे अपने शब्दों में बदलकर पेश करता है, इसलिए यह ऐसा लगता है जैसे कोई छात्र पढ़ी हुई बात को रटकर नहीं बल्कि अपने शब्दों में सोच व्यक्त कर रहा हो
- यही ChatGPT के सामग्री को समझने का भ्रम पैदा करता है
- LLM के कई उपयोग सुझाए गए हैं, और अगर उन्हें धुंधला JPEG मानें तो हम आकलन कर सकते हैं कि क्या उपयुक्त है और क्या नहीं
- क्या बड़े language models मौजूदा search को replace कर सकते हैं?
- LLM पर भरोसा करने के लिए हमें यह जानना होगा कि उन्होंने propaganda या conspiracy theories नहीं सुनीं, यानी वे अजीब data पर train नहीं हुए
- हमें यह भी जानना होगा कि JPEG वेब के सही हिस्से को capture कर रहा है
- लेकिन भले ही LLM में सिर्फ वही जानकारी हो जो हम चाहते हैं, धुंधलेपन की समस्या फिर भी बनी रहती है
- अगर धुंधलेपन का कोई स्वीकार्य रूप है, तो वह यह है कि जानकारी को दूसरे शब्दों में दोबारा समझाया जाए
- और facts खोजते समय ऐसा धुंधलापन, जो साफ़ तौर पर fabrication जैसा लगे, बिल्कुल अस्वीकार्य है
- स्वीकार्य धुंधलेपन को बचाए रखते हुए अस्वीकार्य धुंधलेपन को हटाना तकनीकी रूप से संभव है या नहीं, यह स्पष्ट नहीं है, लेकिन उम्मीद है कि जल्द पता चल जाएगा
- अगर LLM को fake करने से रोका भी जा सके, तो क्या हमें इसे web content बनाने में इस्तेमाल करना चाहिए?
- इसका मतलब तभी है जब हमारा लक्ष्य सिर्फ वेब पर पहले से मौजूद जानकारी को repackaging करना हो
- कुछ कंपनियाँ तो इसी काम के लिए मौजूद हैं, जिन्हें हम content farms कहते हैं
- संभव है कि LLM का यह धुंधलापन उनके लिए copyright infringement से बचने का उपयोगी तरीका बने
- लेकिन आम तौर पर कहा जाए तो content farms के लिए जो अच्छा है, वह जानकारी खोजने वाले लोगों के लिए अच्छा नहीं होता
- ऐसी repackaging बढ़ने से आज online कुछ ढूँढना पहले से अधिक कठिन हो गया है
- वेब पर LLM द्वारा बनाए गए text जितने अधिक publish होंगे, वेब उतना ही अधिक धुंधला version बनता जाएगा
- GPT-4 के बारे में बहुत कम जानकारी है, लेकिन अनुमान लगाया जा सकता है कि OpenAI के लोगों ने इसके लिए ज़रूरी text इकट्ठा करते समय ChatGPT या दूसरे LLM से बने materials को बाहर रखने की कोशिश की होगी
- अगर यह सच है, तो इससे यह जाँचना संभव होगा कि LLM और lossy compression की यह उपमा सही है या नहीं
- JPEG को बार-बार compress करने पर और ज़्यादा information खोती है, इसलिए compression artifacts भी बढ़ते हैं
- जैसे पुराने समय में photocopy की copy बनाते जाने पर quality लगातार गिरती जाती थी
- क्या LLM इंसानों को original creation करने में मदद कर सकते हैं?
- मेरी राय में, original की जगह धुंधली copy से शुरुआत करना original बनाने का अच्छा तरीका नहीं है
- अगर आप लेखक हैं, तो original कुछ लिखने से पहले आप बहुत-सा non-original काम लिखेंगे
- non-original काम में लगाया गया समय और मेहनत बर्बाद नहीं जाती
- बल्कि वही अंततः आपको कुछ original रचने में सक्षम बनाती है
- सही शब्द चुनने और वाक्यों को इस तरह व्यवस्थित करने में बिताया गया समय कि वे सहज रूप से आगे बढ़ें, आपको सिखाता है कि prose अर्थ कैसे पहुँचाती है
- छात्रों से essay लिखवाना केवल सामग्री की समझ को test करने का तरीका नहीं है
- यह उन्हें अपने विचारों को स्पष्ट रूप से व्यक्त करने का अनुभव भी देता है
- भविष्य में शायद ऐसा AI बनाना संभव हो जो दुनिया के बारे में केवल अपने अनुभवों के आधार पर अच्छा लेखन कर सके
- वह एक महत्वपूर्ण क्षण होगा, लेकिन जिस दिन यह हासिल होगा, वह हमारी वर्तमान भविष्यवाणियों की सीमा से बाहर है
- अगर इंटरनेट तक पहुँच के बिना सीमित storage वाले server पर उसकी copy रखनी पड़े, तो ChatGPT जैसे बड़े language models एक अच्छा समाधान हो सकते हैं
- "लेकिन हमने इंटरनेट तक पहुँच नहीं खोई है। जब original मौजूद है, तो हमें धुंधले JPEG का इस्तेमाल क्यों करना चाहिए"?
26 टिप्पणियां
मैंने 5 अंकों से बड़े जोड़-घटाव के सवाल बार-बार पूछकर देखे, और यह लगातार सही जवाब देता रहा
तो फिर आखिर इसकी सटीकता कहाँ खराब होती है?
टेड च्यांग जिस बात को नज़रअंदाज़ करते हैं, वह यह है कि अब तक इंटरनेट नेविगेट करने के मुख्य तरीके के रूप में इस्तेमाल होने वाला Google Search पिछले कुछ वर्षों में कम-गुणवत्ता वाले web content की बाढ़ से प्रभावित होकर काफ़ी गिर चुका है.
भले ही ChatGPT एक धुंधली JPEG हो, अगर उसका विकल्प सिर्फ़ noise से भरा Google Search ही है, तो अभी इसी समय जानकारी पाने के लिए ChatGPT का इस्तेमाल करना एक तर्कसंगत विकल्प हो सकता है.
कहा गया कि "हमने इंटरनेट तक पहुंच नहीं खोई है", लेकिन यही हिस्सा ग़लत पूर्वधारणा है. वेब के विशाल scale को देखें तो search करने की क्षमता खोना लगभग पहुंच खोने के बराबर है. जब मैं अपनी चाही हुई जानकारी ढूंढ ही नहीं सकता, तो केवल पहुंच होने का क्या मतलब है?
यानी हम ऐसी स्थिति के क़रीब पहुंच रहे हैं जहाँ "original" जैसी कोई चीज़ नहीं बचती, और मेरा मानना है कि यही वह वजह है जिसे लोग आज "धुंधली JPEG का इस्तेमाल करने की वजह" के रूप में महसूस कर रहे हैं.
मुझे लगता है कि नीचे lightgreenmaesil जी द्वारा छोड़ी गई टिप्पणी टेड च्यांग के दृष्टिकोण और उसके विपरीत पक्ष में खड़े लोगों के बीच के अंतर को दिखाती है.
"पहली बात, उसका आकार भी बड़ा होता है और उसे देखने में समय भी ज़्यादा लगता है. फ़ोटो होने की वजह से समय का एहसास थोड़ा कम हो सकता है, लेकिन अगर इसे एक पूरी किताब और उस किताब के मुख्य बिंदुओं को एक पेज में समेटे गए सार के रूप में सोचें, तो बात ज़्यादा स्पष्ट लगेगी."
YouTube पर फ़िल्मों के 15 मिनट वाले सार या किताबों के सार जैसी चीज़ों की लोकप्रियता और views देखें, तो यह सच है कि लोगों को ऐसी चीज़ें पसंद हैं. Shorts भी वैसे ही हैं. लेकिन अगर यह सोचें कि क्या वे सारांश मूल रचना को पूरी तरह व्यक्त कर सकते हैं, तो शायद सही जवाब "नहीं" होगा. जिसने मूल को देखकर गहरा असर महसूस किया है, वह सार में छूट गई चीज़ों को बहुत तीव्रता से महसूस करेगा.
उपन्यासकार टेड च्यांग के नज़रिए से देखें, तो ChatGPT या LLMs जो करते हैं, वह शायद ऐसा लगेगा जैसे किसी ने उनके उपन्यास को 1~2 पन्नों के सार में बदल दिया हो. और जब लोग यह कहते या मानते दिखें कि उस छोटे से लेख में यह पूरा उपन्यास समा गया है, तो उन्हें लगेगा कि क्या यह सचमुच सही है.
इसी तरह, क्या फ़िल्म निर्देशक या अभिनेता उन लोगों को पसंद करेंगे जो मूल फ़िल्म की जगह सिर्फ 15 मिनट की फ़िल्म-सार वीडियो देखते हैं? क्या वे उन लोगों को अपनी कृति देखने वाला मानेंगे? और इससे भी आगे, अगर लगभग सभी लोग 15 मिनट के सार को असली फ़िल्म से भी ज़्यादा "फ़िल्म जैसा" मानने लगें, तो क्या होगा? अगर इस वजह से आगे फ़िल्में बनाना ही संभव न रहे, तो फिर 15 मिनट के सार किस फ़िल्म को देखकर बनाए जाएँगे?
यह ऐसा दौर है जिसमें वीडियो भी और लेखन भी, सब कुछ जल्दी, संक्षिप्त और compressed रूप में देखना पसंद किया जाता है, लेकिन दिलचस्प बात यह है कि संगीत ही एकमात्र चीज़ है जो लगभग अपने मूल रूप में बचा हुआ है. कोई संगीत को सारांश बनाकर नहीं सुनता, न ही 2x speed पर, और न ही उबाऊ हिस्सों को 10 सेकंड-10 सेकंड करके skip करते हुए सुनता है.
तो फिर, अगर मैंने आज के zeitgeist की तरह 2x speed और 1 मिनट preview में NewJeans का Ditto सुना, तो क्या मैं NewJeans का fan बन सकता हूँ? क्या मैं यह कह सकता हूँ कि मैंने वह गाना सुना है, जबकि मैंने उसे compressed और summarized रूप में सुना? या नहीं? या फिर इससे कोई फ़र्क ही नहीं पड़ता?
जैसे खुद Ted Chiang ने भी language model को समझाने के लिए JPEG जैसे lossy compression का रूपक इस्तेमाल किया था, वैसे ही चाहे original मौजूद हो, compressed information की भी ज़रूरत होती है.
और भले ही language model अपने ही बनाए हुए नतीजों पर दोबारा training करे, information loss लगभग नहीं के बराबर होता है. (आंतरिक model parameter पर update लगभग नहीं होता. क्योंकि यह वह जानकारी है जो उसे पहले से पता है, इसलिए training effect नहीं होता.)
मुझे लगता है कि आख़िरी सवाल के अनुवाद में मूल लेख और nuance के बीच कुछ अंतर है, इसलिए केवल अनुवाद देखकर मूल आशय से अलग कई टिप्पणियाँ आ रही हैं.
So just how much use is a blurry jpeg, when you still have the original?
जब आपके पास मूल मौजूद हो, तो एक धुंधली JPEG फ़ाइल कितनी उपयोगी है?
मुझे यह Raw फ़ाइल अपने पास होने पर JPEG की उपयोगिता पूछने वाला सवाल लगता है,
लेकिन अगर इसे "इस्तेमाल करने की वजह क्या है" के रूप में समझा जाए, तो यह कुछ ऐसा दिखता है जैसे RAW है तो JPEG जैसी चीज़ क्यों इस्तेमाल करें.
बेशक, वास्तविक दुनिया में raw की तुलना में jpeg ज़्यादा लोकप्रिय होने के कारण हैं, इसलिए मैं इसे उस नज़रिए को भी शामिल करने वाला सवाल मानता हूँ.
कभी-कभी open source की official documentation या AWS की official documentation पर भी भरोसा नहीं होता, इसलिए सीधे चलाकर जांचना पड़ता है या source code तक देखना पड़ता है। ऐसे में ChatGPT का तो कहना ही क्या... लगता है कि जानकारी की मात्रा जितनी बढ़ती है, इंसानों को करने वाली cross-verification की मात्रा उतनी ही बेवजह बढ़ती जाती है।
क्या आप JPEG और original में फ़र्क नहीं कर पाते?
यह इमेज की विशेषताओं और compression ratio पर निर्भर करता है। अगर आप फोटो खींचते हैं, तो JPEG के अलावा original file भी अपने पास रखना पसंद करते हैं। बाद में edit और correction करते समय, JPEG file के साथ काम करने और original के साथ काम करने में edit की जा सकने वाली सीमा में काफी फर्क होता है।
https://www.keptlight.com/does-size-matter/
क्या इस समय भी ज़्यादातर इंसान अपनी रोज़ी-रोटी कमाने के लिए वही धुंधला JPEG बनाने का काम नहीं कर रहे हैं?
ChatGPT वाकई कमाल का है, लेकिन यह इतना मानवीय लगता है कि खोज और जानकारी पहुँचाने के लिए कुछ हद तक अनुपयुक्त महसूस होता है।
यह बात मुझे बहुत गहराई से महसूस होती है कि यह मूल के बजाय धुंधली JPEG देखने जैसा है। उदाहरण के लिए, जब मैं कोई अनूदित किताब पढ़ता हूँ और उसमें अनुवादक की ओर से काफी अधिक भावानुवाद शामिल होता है, तो बीच-बीच में अनुवाद अजीब लगे तब भी, अगर शब्द लगातार सहज रूप से जुड़े हुए लगें और मोटे तौर पर संदर्भ सही लगता रहे, तो मैं आमतौर पर बस पन्ने पलटता रहता हूँ (हालाँकि सब पढ़ लेने के बाद सचमुच समझ आया या नहीं, यह अलग बात है)। लेकिन जो अनुवाद अजीब लग रहा है, वह पूरी तरह बेतुका भी हो सकता है, इसलिए यह ऐसी समस्या नहीं है जिसे नज़रअंदाज़ किया जाए। ऐसा अनुवाद किसी के लिए बिल्कुल अस्वीकार्य हो सकता है, और किसी दूसरे के लिए सहने लायक स्तर का।
हम्म. क्वालिटी तो बहुत ही खराब है।
शायद इसे एक तरह की चेतावनी के रूप में भी देखा जा सकता है। मैं भी इसे काम में, सलाह की ज़रूरत होने पर, या वाक्यों को संवारने के लिए कई तरह से इस्तेमाल करता हूँ, लेकिन यह भी सच है कि कभी-कभी यह काफ़ी भरोसेमंद लगने वाले, मगर गलत जवाब भी देता है। और उपयोगकर्ता को यह समझने के लिए कि यह जवाब गलत है, अक्सर उस क्षेत्र का ज्ञान या अतिरिक्त जाँच की ज़रूरत होती है। कभी-कभी ऐसी गलतियाँ भी होती हैं जिन्हें काफ़ी बारीकी से देखने पर ही पकड़ा जा सकता है। (जैसे कोड बनाते समय वास्तव में मौजूद ही न होने वाले function का इस्तेमाल करना)
जब तक मैंने ऐसी गलतियाँ खुद नहीं पकड़ीं, तब तक मैंने सच कहूँ तो कभी सोचा ही नहीं था कि यह AI मुझे इस तरह के जवाब भी दे सकता है। मैं तो बस यही सोचता था कि या तो यह जवाब नहीं दे पाएगा, या फिर बिल्कुल असंबद्ध जवाब देगा।
ऐसा लगता है कि Stack Overflow जैसी जगहों पर भी, जहाँ इस तकनीक की समझ अपेक्षाकृत ज़्यादा रखने वाले लोग मिलते हैं, AI जवाबों को लेकर कुछ-न-कुछ टकराव रहे हैं। इससे लगता है कि उपयोगकर्ताओं के बीच उम्मीद के मुताबिक पूरी तरह सत्यापन नहीं हो पाया होगा। AI द्वारा बनाए गए डेटा की जाँच के लिए इंसानी हस्तक्षेप ज़रूरी है, और यह निश्चित रूप से मेहनत और ज्ञान माँगने वाला काम है। वरना Microsoft भी अपने AI की ओर से दिए गए भरोसेमंद लगने वाले गलत जवाबों को नज़रअंदाज़ नहीं करता। इसलिए हम जानते हैं कि फिलहाल इस तकनीक का इस्तेमाल एक tool की तरह ही करना चाहिए। लेकिन जब हम मोबाइल के AI से आज का मौसम पूछते हैं, तब हम आम तौर पर यह मानकर नहीं चलते कि उसका जवाब bug या किसी और गलती की वजह से गलत हो सकता है। अगर ChatGPT जैसे AI धीरे-धीरे general-purpose AI बनकर रोज़मर्रा की ज़िंदगी के और क़रीब आते गए, तो क्या यह संभावना ज़्यादा नहीं है कि उपयोगकर्ता उनके जवाबों को बिना ज़्यादा संदेह के स्वीकार कर लेंगे?
आजकल स्कूलों में ChatGPT वगैरह का इस्तेमाल करके essay लिखवाने के कई मामले सामने आ रहे हैं। सिर्फ गलतियाँ दिखाने, लिखने के लिए विषय सुझाने, या टेक्स्ट को थोड़ा विस्तार देने तक ही बात नहीं रही; ऐसे मामले भी खबरों में आए हैं जहाँ छात्र बिना सवाल पर खुद विचार किए, AI के जवाब में बस कुछ शब्द बदलकर जमा कर देते हैं और ऊँचे अंक भी पा लेते हैं। खुद इकट्ठा की गई सामग्री के आधार पर अपने विचार पूछे जाने वाली स्थिति में सोचना, संरचना बनाना, और लिखना—सब कुछ AI को सौंप देना, निस्संदेह एक नया paradigm है।
AI से अलग भी, इंटरनेट पर कई बार गलत जानकारी बहुतायत में खोज परिणामों में दिखाई देती है, और इस पर अतिरिक्त पुष्टि किए बिना उसे सच मान लेने वाले लोग भी काफ़ी होते हैं। मैं भी अगर एक-एक बात को जाँचते हुए न पढ़ूँ, तो शायद अनजाने में कई गलत जानकारियाँ सच मान चुका होता।
मज़ाक-मज़ाक में लोग कभी-कभी data weathering जैसी बात कहते हैं। इंटरनेट पर तस्वीरें जब jpg के रूप में कई साइटों पर घूमते हुए शेयर होती रहती हैं, तो resizing और size compression बार-बार होने की वजह से उनकी quality बुरी तरह खराब हो जाती है। कभी-कभी तो बिल्कुल सफ़ेद background भी नीला-सा दिखने लगता है।
शायद चिंता जानकारी के इसी तरह degraded हो जाने की है। कहते हैं न, खराब चीज़ अच्छी चीज़ को बाहर कर देती है?
पहले ही image sharing sites पर AI से बनी तस्वीरें भरी पड़ी हैं। यह अपने-आप में गलत नहीं है, लेकिन अगर इंटरनेट AI द्वारा लिखे गए अनुमान-आधारित लेखों से भर जाए, और फिर उन्हीं पर आधारित AI बार-बार नए लेख बनाता रहे, तो क्या जानकारी के विकृतिकरण का थोड़ा-थोड़ा संचय नहीं होने लगेगा? बस यही सोच आता है।
मैं 30 साल से ज़्यादा समय से SF पढ़ता आया हूँ, और पिछले करीब 10 साल में पढ़ी गई SF नई कृतियों में 'Story of Your Life' को सबसे ऊपर रखने वाला एक सच्चा फैन भी हूँ, लेकिन 20 साल से ज़्यादा समय तक डेवलपर के तौर पर काम कर चुके इंडस्ट्री प्रोफेशनल के नज़रिए से देखें तो यह ऐसी बात है जिसका खंडन करना ही पड़ता है.
बुनियादी तौर पर यह बयान एक ऐसे नज़रिए से निकला है जिसे घमंड कहा जा सकता है. लोग (अज्ञानी होने के कारण) ChatGPT समेत AI platforms को creation के क्षेत्र तक पहुँच चुका मानकर गलतफ़हमी में पड़ जाएंगे, लेकिन मैं जानता हूँ कि ऐसा नहीं है, इसलिए मुझे उन्हें सही बात और सही तथ्य बताने चाहिए — यही इसका दृष्टिकोण है.
असल सच्चाई यह है कि ऐसा नहीं है, और यह बात सिर्फ़ इंडस्ट्री के लोग ही नहीं बल्कि ज़्यादातर आम लोग भी जानते हैं. AlphaGo के बाद से AI बहुत पहले ही आम जनता की चर्चा का विषय बन चुका है. AI की क्षमता और उसकी सीमाओं के बारे में भी सबको कुछ न कुछ अंदाज़ा है. आज AI Go की दुनिया में ऐसे उस्ताद भरे पड़े हैं जो AlphaGo के स्तर को भी बच्चे जैसा मानते हैं, लेकिन कोई भी इसे किसी झटके की तरह नहीं लेता. क्योंकि लोग इस बात को काफ़ी हद तक सीख चुके हैं कि इसका मतलब क्या है और इसे कैसे समझना चाहिए.
मेरे हिसाब से Ted Chiang का वह बयान उल्टा आम जनता के प्रति अज्ञान और पूर्वाग्रह से पैदा हुई गलती है. जो लोग ChatGPT को लेकर उत्साहित हैं, वे इस भरोसे में ऐसा नहीं कर रहे कि यह हमारी बौद्धिक गतिविधि की जगह ले लेगा. वे अच्छी तरह जानते हैं कि यह हमारी बौद्धिक गतिविधि में 'सहायक' होगा, और उसी तरह इसका इस्तेमाल भी कर रहे हैं. prompt examples को manual की तरह बनाकर साझा किया जा रहा है. इससे साफ़ पता चलता है कि लोग इसे एक tool के रूप में स्पष्ट रूप से पहचान रहे हैं.
लोग drawing AI को कैसे लेते हैं? क्या वे उससे जादुई चिराग की तरह रगड़कर कह रहे हैं कि मेरी रचना की जगह तुम सब कर दो? मैंने हाल में जो AI images देखी हैं, उनमें से लगभग 90% NSFW images थीं. अगर हाथ ठीक से नहीं बनते और इसलिए धुंधले लगते हैं, तो लगें, लेकिन बाकी हिस्से तो काफ़ी साफ़ और स्पष्ट ही थे.
कहने को बहुत कुछ है, लेकिन बहुत ज़्यादा है, इसलिए बस एक बात कहकर रुकता हूँ.
"Kim डेरी. मैं एक सलाह देने की हिम्मत करना चाहता हूँ. और कुछ नहीं, बस Excel function? का बहुत ज़्यादा इस्तेमाल मत कीजिए. अगर सुविधा है, तो जोखिम भी बढ़ता है. बैल काटने के लिए जितनी बड़ी धार चाहिए, क्या मुर्गी काटने के लिए भी वही चाकू चाहिए?...... मेरी राय है कि मानसिक गणना तेज़ हो सकती है, और बेशक लोगों में फ़र्क होता है, calculator अच्छा हो सकता है. लेकिन क्या computer बैल काटने वाला चाकू नहीं है — इसी बारे में अपनी राय दे रहा हूँ."
आख़िरी सवाल ग़लत था। तुलना किसी धुंधली JPEG से नहीं, बल्कि JPEG फ़ोटो के शब्दों में किए गए सारांश से होनी चाहिए। उदाहरण के लिए, 'जीभ निकाले हुए कुत्ता' जैसा टेक्स्ट और उसकी असली फ़ोटो। यह भी एक तरह की lossy compression है। ज़्यादातर जानकारी हटाकर उसे सिर्फ़ कुछ bytes के टेक्स्ट में compress किया गया है। लेकिन क्या सिर्फ़ इसलिए कि मूल फ़ोटो मौजूद है, ऐसी lossy compression बेकार हो जाती है? नहीं। सबसे पहले, उसका आकार भी बड़ा होता है और उसे देखने में समय भी ज़्यादा लगता है। फ़ोटो के मामले में समय का एहसास थोड़ा कम हो सकता है, लेकिन अगर इसे एक पूरी किताब और उसी किताब के मुख्य बिंदुओं के एक पन्ने के सारांश की तरह सोचें, तो बात ज़्यादा साफ़ महसूस होगी।
तो फिर, अगर कोई शोध-पत्र है, तो उसके lossy-compressed सारांश को देखने की कोई वजह है? बिल्कुल है, और कई बार यह बहुत उपयोगी होता है। अगर कोई किताब है, और उसके किसी chapter में उल्लेखित किसी ख़ास दावे पर आधारित सारांश का इस्तेमाल करना हो—तो उसकी भी वजह साफ़ है। एक नज़र से देखें तो इंसान का स्कूल जाना, दर्जनों घंटों की lectures सुनना, और फिर उन्हें notes या cheating sheet में संक्षेप करके लिखना भी वीडियो से टेक्स्ट में की गई बहुत बड़ी lossy compression ही है। सीखना अपने आप में lossy compression है। क्या यह बेकार है?
'compression' को फ़ोटो compression की उपमा देकर ऐसे लिखा गया है मानो यह बहुत trivial हो और इसका कोई बड़ा महत्व न हो, लेकिन असल में compression इंसानी learning में बेहद मूलभूत और अर्थपूर्ण काम है। फ़ोटो के मामले में compression के तरीक़े काफ़ी हद तक समझ लिए गए हैं, लेकिन भाषा की compression बहुत non-trivial और महत्वपूर्ण काम है।
आख़िरी सवाल का जवाब है
भले ही GPT के ज़रिए हमें जो जानकारी मिलती है वह degraded JPEG version जैसी हो,
लेकिन हमें आम तौर पर जो जानकारी चाहिए होती है वह collage version होती है, और इस collage को बनाने में काफ़ी मेहनत लगती है।
यह उस collage बनाने की मेहनत की जगह ले लेता है, और कभी-कभी इसकी overall completeness मेरे अपने हाथ के हुनर से बेहतर होती है,
इसलिए image quality की गिरावट को काफ़ी हद तक स्वीकार किया जा सकता है।
मैं यह कहने की स्थिति में नहीं हूँ कि Ted Chiang की कल्पनाशीलता और तकनीक की समझ का मूल्यांकन करूँ,
लेकिन कुल मिलाकर मुझे यह इस तकनीक की कुछ विशेषताओं को ज़रूरत से ज़्यादा बढ़ाकर देखने का नतीजा लगता है,
और ऐसा भी लगता है कि इसने वास्तव में महत्वपूर्ण विशेषताओं को नज़रअंदाज़ कर दिया है।
आखिरी सवाल का जवाब शायद 'क्योंकि यह सुविधाजनक है' नहीं होगा?
मुझे नहीं पता यह उपमा कितनी उपयुक्त है, लेकिन जैसे आजकल फ़िल्मों/ड्रामों को बिंज-वॉच करने की तरह ओरिजिनल को संपीड़ित करके बने चीज़ों के प्रति संतुष्टि ज़्यादा दिखती है।
यह बहुत शानदार उपमा लगती है, लेकिन अगर कोई इंडस्ट्री में काम नहीं करता तो शायद वह इसे बिल्कुल समझ नहीं पाएगा।
इसे non-experts को, यहाँ तक कि उन लोगों को भी जो खुद को expert बताते हैं, कैसे समझाया जा सकता है?
Super Resolution, original से बेहतर हो सकता है
बिल्कुल, यह बेहतर हो सकता है, लेकिन क्या लेख में यह बात भी नहीं कही गई है कि यह हमेशा बेहतर नहीं होता?
कहा जा सकता है कि यह बेहतर हो सकता है, लेकिन जाहिर है कि यह हमेशा बेहतर हो, ऐसा नहीं है। लेकिन लेख में सिर्फ इतना कहा गया है कि रेज़ोल्यूशन धुंधला है, जबकि इसके उलट और अधिक स्पष्ट होने की संभावना को नज़रअंदाज़ किया गया है। CCTV की इमेज क्वालिटी भी सुधारी जा रही है और black-and-white में color भी जोड़ा जा रहा है, लेकिन शीर्षक में जो JPEG है, वह ऐसी चीज़ों को support नहीं करता।
इमेज क्वालिटी को बेहतर बनाना, यानी CCTV की क्वालिटी सुधारना, कुछ मायनों में वास्तव में सुधार नहीं है। यह इंसानों को यह 'अहसास' देता है कि इमेज बेहतर हुई है। काले-सफेद तस्वीर में रंग भरना भी इसी तरह है। काले-सफेद इमेज में रंगों को 'generate' करके इंसानों को color image का 'अहसास' दिया जाता है। इसलिए मौजूदा image quality enhancement तकनीकें जिस 'सुधार' को संभालती हैं, उसे बहुत सीमित संदर्भ में ही देखा जाना चाहिए। CCTV image quality improvement के बारे में यह तुलना करना कि JPEG ऐसी चीज़ों को support नहीं करता, बेहद अनुचित तुलना है।
टिप्पणी के लिए धन्यवाद। लेकिन उसी तर्क से देखें तो धुंधलापन भी किसी मायने में degradation नहीं है; degraded चीज़ को 'generate' करके 'sense' दिया जा रहा है, इसलिए यह भी बहुत सीमित पहलू में ही देखे जाने वाला मुद्दा है, तो फिर ChatGPT की गणितीय क्षमता की JPEG degradation से तुलना करना भी काफ़ी अनुचित होगा, है न? जब बात खुद information volume बढ़ाने की हो, तब इंसानी 'sense' जैसी बात लाने की ज़रूरत नहीं लगती। जैसे मूल color को black-and-white में compress करने पर capacity घटती है, वैसे ही उल्टा उसमें color भरने पर सिर्फ़ bit capacity ही नहीं बल्कि information volume भी बढ़ती है। इस लिहाज़ से यह compression से ज़्यादा decompression, या मूल की restoration, के क़रीब है। सिर्फ़ इसलिए कि वह बिल्कुल original नहीं है, उसे धुंधला कहना कहीं ज़्यादा अनुचित तुलना लगता है। सिर्फ़ शीर्षक देखकर लोग यह भी ग़लत समझ सकते हैं कि DALL-E केवल low-capacity low-resolution चीज़ें ही बनाता है और HD नहीं बना सकता। जैसा मुख्य लेख में कहा गया है, JPEG को बार-बार compress करने पर आम तौर पर capacity घटती है, quality गिरती है, और वह धुंधला होना तय है। लेकिन deep learning, भले कम data वाले गणितीय calculation में धुंधला लगे, इसके उलट कुछ क्षेत्रों में और भी अधिक स्पष्ट, सटीक और बेहतर भी हो सकता है—यह बात नज़रअंदाज़ न हो तो अच्छा होगा।
आपकी कही हुई बातों में ऐसी कोई भी चीज़ नहीं थी जिसे मैंने नज़रअंदाज़ किया हो। आप मूल बना रहे हैं, और मैंने यह कहा कि मैं 'मूल नहीं, बल्कि वह चीज़' बना रहा हूँ जो मूल जैसी महसूस होती है, इसलिए लगता है आप बहुत नाराज़ हो गए। ऐसा हो या न हो, यही सीधी-सी सच्चाई है, तो अब किया ही क्या जा सकता है।
मैंने तो वैसी कोई भावना व्यक्त नहीं की थी कि मैं बहुत गुस्से में हूँ या मुझे यह बहुत अन्यायपूर्ण लग रहा है, है न? बस मुझे चिंता हुई कि लोग यह लेख-शीर्षक, जिसमें कहा गया है कि यह बात Ted Chiang ने कही है, देखकर इसे यूँ ही नज़रअंदाज़ कर देंगे। लगता है ज़्यादातर लोग सहमत हैं, तो अच्छा है कि आप उन्हें व्यक्तिगत रूप से जानते हैं। इस बात से सहमत हूँ कि डिजिटल तरीके से analog बनाना मुश्किल है। हालांकि यह text की बात है, इसलिए उससे अलग मुद्दा है।
Xerox copier की समस्या वही बात लगती है जो मैंने 2022 में सीखी गई 52 चीज़ें #33 में भी देखी थी।
यह इससे इस तरफ जुड़ता है, इसलिए काफ़ी दिलचस्प है और बात एकदम समझ में आ जाती है!