ChatGPT वेब का धुंधला JPEG है

xguru · 2023-02-14T13:46:32+09:00

यह लेख Ted Chiang ने लिखा है, जिन्हें मौजूदा दौर के सर्वश्रेष्ठ SF लेखकों में से एक माना जाता है बात यह है कि ChatGPT जानकारी को compress करके store करता है, इसलिए यह मूल सामग्री नहीं बल्कि धुंधले JPEG को देखने जैसा है 2013 में पता चला कि Xerox copier जब diagrams की copy बनाता था, तो कुछ अंकों को दूसरे अंकों से बदल देता था copy के लिए digitize करने की प्रक्रिया में JBIG2 lossy compression के दौरान मिलते-जुलते अंकों में से सिर्फ एक को store करके उसे दोबारा इस्तेमाल करने से यह समस्या हुई यह कहना मुश्किल है that this case and OpenAI के ChatGPT बिल्कुल साफ़ तौर पर एक जैसे हैं, लेकिन वेब की जानकारी store करते समय ऐसा मिलता-जुलता scenario बन सकता है कल्पना कीजिए कि आप इंटरनेट तक पहुँच खो दें आप वेब के सारे text को compress करके उसकी एक copy बनाना चाहते हैं लेकिन आपके पास store करने के लिए मूल आकार की सिर्फ 1% जगह है, इसलिए आपको compression करना होगा और शायद lossy algorithm इस्तेमाल करना पड़ेगा अब आप सब कुछ search तो कर सकते हैं, लेकिन text इतना compress हो चुका है कि आप सटीक quotes नहीं ढूँढ सकते ChatGPT को वेब के सारे text का धुंधला JPEG समझा जा सकता है JPEG की तरह यह वेब की बहुत-सी जानकारी को बनाए रखता है, लेकिन ठीक वही bit sequence नहीं रखता इसलिए आपको जो कुछ मिलता है, वह approximation होता है लेकिन यह approximation ChatGPT द्वारा बनाए गए उत्कृष्ट grammatical text के रूप में मिलता है, इसलिए लोग आम तौर पर इसे स्वीकार कर लेते हैं ChatGPT की क्षमता को समझने का यह कोई पूर्ण तरीका नहीं है लेकिन ChatGPT के "hallucination" या सच के बारे में उसके बेतुके जवाबों को समझने का यह एक तरीका ज़रूर है ये hallucinations Xerox copier की गलत संख्याओं की तरह इतनी विश्वसनीय लग सकती हैं कि उन्हें सच में पहचानने के लिए आपको मूल स्रोत से तुलना करनी पड़े बड़े language models text में मौजूद statistical regularities की पहचान करते हैं जैसे "supply कम है" जैसी अभिव्यक्ति अक्सर "prices बढ़ती हैं" जैसे वाक्य के पास दिखाई देती है ऐसे रिश्ते बहुत बार देखने वाला chatbot, supply shortage के असर के बारे में पूछे जाने पर price increase वाला जवाब देने लगता है अगर LLM ने आर्थिक शब्दों के बीच बहुत-सी correlations इकट्ठी कर ली हैं, तो क्या हम कह सकते हैं कि वह वास्तव में economic theory को समझता है? ChatGPT जैसे models lossless compression नहीं करते; यानी वे मूल text को ठीक-ठीक reconstruct नहीं करते GPT-3 दो अंकों वाली संख्याओं के जोड़-घटाव में लगभग हमेशा सही जवाब देता है, लेकिन अगर संख्याएँ 5 अंकों की हों तो उसकी accuracy बहुत गिरकर 10% तक रह जाती है क्योंकि वेब पर "245 + 821" जैसे text वाली pages बहुत ज़्यादा नहीं हैं यानी बहुत बड़ी मात्रा में जानकारी समेट लेने पर भी उसने "arithmetic के सिद्धांत" नहीं निकाले कल्पना कीजिए कि ChatGPT अगर एक lossless algorithm होता तब वह संबंधित web pages से कुछ हिस्से ज्यों के त्यों quote करके सवालों के जवाब देता तब शायद हमें लगता कि यह software मौजूदा search engines की तुलना में बस थोड़ा-सा बेहतर है, और हम इतने प्रभावित नहीं होते ChatGPT वेब की सामग्री को शब्दशः quote करने के बजाय उसे अपने शब्दों में बदलकर पेश करता है, इसलिए यह ऐसा लगता है जैसे कोई छात्र पढ़ी हुई बात को रटकर नहीं बल्कि अपने शब्दों में सोच व्यक्त कर रहा हो यही ChatGPT के सामग्री को समझने का भ्रम पैदा करता है LLM के कई उपयोग सुझाए गए हैं, और अगर उन्हें धुंधला JPEG मानें तो हम आकलन कर सकते हैं कि क्या उपयुक्त है और क्या नहीं क्या बड़े language models मौजूदा search को replace कर सकते हैं? LLM पर भरोसा करने के लिए हमें यह जानना होगा कि उन्होंने propaganda या conspiracy theories नहीं सुनीं, यानी वे अजीब data पर train नहीं हुए हमें यह भी जानना होगा कि JPEG वेब के सही हिस्से को capture कर रहा है लेकिन भले ही LLM में सिर्फ वही जानकारी हो जो हम चाहते हैं, धुंधलेपन की समस्या फिर भी बनी रहती है अगर धुंधलेपन का कोई स्वीकार्य रूप है, तो वह यह है कि जानकारी को दूसरे शब्दों में दोबारा समझाया जाए और facts खोजते समय ऐसा धुंधलापन, जो साफ़ तौर पर fabrication जैसा लगे, बिल्कुल अस्वीकार्य है स्वीकार्य धुंधलेपन को बचाए रखते हुए अस्वीकार्य धुंधलेपन को हटाना तकनीकी रूप से संभव है या नहीं, यह स्पष्ट नहीं है, लेकिन उम्मीद है कि जल्द पता चल जाएगा अगर LLM को fake करने से रोका भी जा सके, तो क्या हमें इसे web content बनाने में इस्तेमाल करना चाहिए? इसका मतलब तभी है जब हमारा लक्ष्य सिर्फ वेब पर पहले से मौजूद जानकारी को repackaging करना हो कुछ कंपनियाँ तो इसी काम के लिए मौजूद हैं, जिन्हें हम content farms कहते हैं संभव है कि LLM का यह धुंधलापन उनके लिए copyright infringement से बचने का उपयोगी तरीका बने लेकिन आम तौर पर कहा जाए तो content farms के लिए जो अच्छा है, वह जानकारी खोजने वाले लोगों के लिए अच्छा नहीं होता ऐसी repackaging बढ़ने से आज online कुछ ढूँढना पहले से अधिक कठिन हो गया है वेब पर LLM द्वारा बनाए गए text जितने अधिक publish होंगे, वेब उतना ही अधिक धुंधला version बनता जाएगा GPT-4 के बारे में बहुत कम जानकारी है, लेकिन अनुमान लगाया जा सकता है कि OpenAI के लोगों ने इसके लिए ज़रूरी text इकट्ठा करते समय ChatGPT या दूसरे LLM से बने materials को बाहर रखने की कोशिश की होगी अगर यह सच है, तो इससे यह जाँचना संभव होगा कि LLM और lossy compression की यह उपमा सही है या नहीं JPEG को बार-बार compress करने पर और ज़्यादा information खोती है, इसलिए compression artifacts भी बढ़ते हैं जैसे पुराने समय में photocopy की copy बनाते जाने पर quality लगातार गिरती जाती थी क्या LLM इंसानों को original creation करने में मदद कर सकते हैं? मेरी राय में, original की जगह धुंधली copy से शुरुआत करना original बनाने का अच्छा तरीका नहीं है अगर आप लेखक हैं, तो original कुछ लिखने से पहले आप बहुत-सा non-original काम लिखेंगे non-original काम में लगाया गया समय और मेहनत बर्बाद नहीं जाती बल्कि वही अंततः आपको कुछ original रचने में सक्षम बनाती है सही शब्द चुनने और वाक्यों को इस तरह व्यवस्थित करने में बिताया गया समय कि वे सहज रूप से आगे बढ़ें, आपको सिखाता है कि prose अर्थ कैसे पहुँचाती है छात्रों से essay लिखवाना केवल सामग्री की समझ को test करने का तरीका नहीं है यह उन्हें अपने विचारों को स्पष्ट रूप से व्यक्त करने का अनुभव भी देता है भविष्य में शायद ऐसा AI बनाना संभव हो जो दुनिया के बारे में केवल अपने अनुभवों के आधार पर अच्छा लेखन कर सके वह एक महत्वपूर्ण क्षण होगा, लेकिन जिस दिन यह हासिल होगा, वह हमारी वर्तमान भविष्यवाणियों की सीमा से बाहर है अगर इंटरनेट तक पहुँच के बिना सीमित storage वाले server पर उसकी copy रखनी पड़े, तो ChatGPT जैसे बड़े language models एक अच्छा समाधान हो सकते हैं "लेकिन हमने इंटरनेट तक पहुँच नहीं खोई है। जब original मौजूद है, तो हमें धुंधले JPEG का इस्तेमाल क्यों करना चाहिए"?

(newyorker.com)

41 पॉइंट द्वारा xguru 2023-02-14 | 26 टिप्पणियां | WhatsApp पर शेयर करें

यह लेख Ted Chiang ने लिखा है, जिन्हें मौजूदा दौर के सर्वश्रेष्ठ SF लेखकों में से एक माना जाता है
बात यह है कि ChatGPT जानकारी को compress करके store करता है, इसलिए यह मूल सामग्री नहीं बल्कि धुंधले JPEG को देखने जैसा है
2013 में पता चला कि Xerox copier जब diagrams की copy बनाता था, तो कुछ अंकों को दूसरे अंकों से बदल देता था
copy के लिए digitize करने की प्रक्रिया में JBIG2 lossy compression के दौरान मिलते-जुलते अंकों में से सिर्फ एक को store करके उसे दोबारा इस्तेमाल करने से यह समस्या हुई
यह कहना मुश्किल है that this case and OpenAI के ChatGPT बिल्कुल साफ़ तौर पर एक जैसे हैं, लेकिन वेब की जानकारी store करते समय ऐसा मिलता-जुलता scenario बन सकता है
कल्पना कीजिए कि आप इंटरनेट तक पहुँच खो दें
- आप वेब के सारे text को compress करके उसकी एक copy बनाना चाहते हैं
- लेकिन आपके पास store करने के लिए मूल आकार की सिर्फ 1% जगह है, इसलिए आपको compression करना होगा और शायद lossy algorithm इस्तेमाल करना पड़ेगा
- अब आप सब कुछ search तो कर सकते हैं, लेकिन text इतना compress हो चुका है कि आप सटीक quotes नहीं ढूँढ सकते
ChatGPT को वेब के सारे text का धुंधला JPEG समझा जा सकता है
JPEG की तरह यह वेब की बहुत-सी जानकारी को बनाए रखता है, लेकिन ठीक वही bit sequence नहीं रखता
इसलिए आपको जो कुछ मिलता है, वह approximation होता है
लेकिन यह approximation ChatGPT द्वारा बनाए गए उत्कृष्ट grammatical text के रूप में मिलता है, इसलिए लोग आम तौर पर इसे स्वीकार कर लेते हैं
ChatGPT की क्षमता को समझने का यह कोई पूर्ण तरीका नहीं है
लेकिन ChatGPT के "hallucination" या सच के बारे में उसके बेतुके जवाबों को समझने का यह एक तरीका ज़रूर है
ये hallucinations Xerox copier की गलत संख्याओं की तरह इतनी विश्वसनीय लग सकती हैं कि उन्हें सच में पहचानने के लिए आपको मूल स्रोत से तुलना करनी पड़े
बड़े language models text में मौजूद statistical regularities की पहचान करते हैं
जैसे "supply कम है" जैसी अभिव्यक्ति अक्सर "prices बढ़ती हैं" जैसे वाक्य के पास दिखाई देती है
ऐसे रिश्ते बहुत बार देखने वाला chatbot, supply shortage के असर के बारे में पूछे जाने पर price increase वाला जवाब देने लगता है
अगर LLM ने आर्थिक शब्दों के बीच बहुत-सी correlations इकट्ठी कर ली हैं, तो क्या हम कह सकते हैं कि वह वास्तव में economic theory को समझता है?
ChatGPT जैसे models lossless compression नहीं करते; यानी वे मूल text को ठीक-ठीक reconstruct नहीं करते
GPT-3 दो अंकों वाली संख्याओं के जोड़-घटाव में लगभग हमेशा सही जवाब देता है, लेकिन अगर संख्याएँ 5 अंकों की हों तो उसकी accuracy बहुत गिरकर 10% तक रह जाती है
क्योंकि वेब पर "245 + 821" जैसे text वाली pages बहुत ज़्यादा नहीं हैं
यानी बहुत बड़ी मात्रा में जानकारी समेट लेने पर भी उसने "arithmetic के सिद्धांत" नहीं निकाले
कल्पना कीजिए कि ChatGPT अगर एक lossless algorithm होता
तब वह संबंधित web pages से कुछ हिस्से ज्यों के त्यों quote करके सवालों के जवाब देता
तब शायद हमें लगता कि यह software मौजूदा search engines की तुलना में बस थोड़ा-सा बेहतर है, और हम इतने प्रभावित नहीं होते
ChatGPT वेब की सामग्री को शब्दशः quote करने के बजाय उसे अपने शब्दों में बदलकर पेश करता है, इसलिए यह ऐसा लगता है जैसे कोई छात्र पढ़ी हुई बात को रटकर नहीं बल्कि अपने शब्दों में सोच व्यक्त कर रहा हो
यही ChatGPT के सामग्री को समझने का भ्रम पैदा करता है
LLM के कई उपयोग सुझाए गए हैं, और अगर उन्हें धुंधला JPEG मानें तो हम आकलन कर सकते हैं कि क्या उपयुक्त है और क्या नहीं
क्या बड़े language models मौजूदा search को replace कर सकते हैं?
- LLM पर भरोसा करने के लिए हमें यह जानना होगा कि उन्होंने propaganda या conspiracy theories नहीं सुनीं, यानी वे अजीब data पर train नहीं हुए
- हमें यह भी जानना होगा कि JPEG वेब के सही हिस्से को capture कर रहा है
- लेकिन भले ही LLM में सिर्फ वही जानकारी हो जो हम चाहते हैं, धुंधलेपन की समस्या फिर भी बनी रहती है
- अगर धुंधलेपन का कोई स्वीकार्य रूप है, तो वह यह है कि जानकारी को दूसरे शब्दों में दोबारा समझाया जाए
- और facts खोजते समय ऐसा धुंधलापन, जो साफ़ तौर पर fabrication जैसा लगे, बिल्कुल अस्वीकार्य है
- स्वीकार्य धुंधलेपन को बचाए रखते हुए अस्वीकार्य धुंधलेपन को हटाना तकनीकी रूप से संभव है या नहीं, यह स्पष्ट नहीं है, लेकिन उम्मीद है कि जल्द पता चल जाएगा
अगर LLM को fake करने से रोका भी जा सके, तो क्या हमें इसे web content बनाने में इस्तेमाल करना चाहिए?
- इसका मतलब तभी है जब हमारा लक्ष्य सिर्फ वेब पर पहले से मौजूद जानकारी को repackaging करना हो
- कुछ कंपनियाँ तो इसी काम के लिए मौजूद हैं, जिन्हें हम content farms कहते हैं
- संभव है कि LLM का यह धुंधलापन उनके लिए copyright infringement से बचने का उपयोगी तरीका बने
- लेकिन आम तौर पर कहा जाए तो content farms के लिए जो अच्छा है, वह जानकारी खोजने वाले लोगों के लिए अच्छा नहीं होता
- ऐसी repackaging बढ़ने से आज online कुछ ढूँढना पहले से अधिक कठिन हो गया है
वेब पर LLM द्वारा बनाए गए text जितने अधिक publish होंगे, वेब उतना ही अधिक धुंधला version बनता जाएगा
GPT-4 के बारे में बहुत कम जानकारी है, लेकिन अनुमान लगाया जा सकता है कि OpenAI के लोगों ने इसके लिए ज़रूरी text इकट्ठा करते समय ChatGPT या दूसरे LLM से बने materials को बाहर रखने की कोशिश की होगी
अगर यह सच है, तो इससे यह जाँचना संभव होगा कि LLM और lossy compression की यह उपमा सही है या नहीं
JPEG को बार-बार compress करने पर और ज़्यादा information खोती है, इसलिए compression artifacts भी बढ़ते हैं
जैसे पुराने समय में photocopy की copy बनाते जाने पर quality लगातार गिरती जाती थी
क्या LLM इंसानों को original creation करने में मदद कर सकते हैं?
- मेरी राय में, original की जगह धुंधली copy से शुरुआत करना original बनाने का अच्छा तरीका नहीं है
- अगर आप लेखक हैं, तो original कुछ लिखने से पहले आप बहुत-सा non-original काम लिखेंगे
- non-original काम में लगाया गया समय और मेहनत बर्बाद नहीं जाती
- बल्कि वही अंततः आपको कुछ original रचने में सक्षम बनाती है
- सही शब्द चुनने और वाक्यों को इस तरह व्यवस्थित करने में बिताया गया समय कि वे सहज रूप से आगे बढ़ें, आपको सिखाता है कि prose अर्थ कैसे पहुँचाती है
- छात्रों से essay लिखवाना केवल सामग्री की समझ को test करने का तरीका नहीं है
- यह उन्हें अपने विचारों को स्पष्ट रूप से व्यक्त करने का अनुभव भी देता है
भविष्य में शायद ऐसा AI बनाना संभव हो जो दुनिया के बारे में केवल अपने अनुभवों के आधार पर अच्छा लेखन कर सके
वह एक महत्वपूर्ण क्षण होगा, लेकिन जिस दिन यह हासिल होगा, वह हमारी वर्तमान भविष्यवाणियों की सीमा से बाहर है
अगर इंटरनेट तक पहुँच के बिना सीमित storage वाले server पर उसकी copy रखनी पड़े, तो ChatGPT जैसे बड़े language models एक अच्छा समाधान हो सकते हैं
"लेकिन हमने इंटरनेट तक पहुँच नहीं खोई है। जब original मौजूद है, तो हमें धुंधले JPEG का इस्तेमाल क्यों करना चाहिए"?

26 टिप्पणियां

bleu28 2023-02-26

मैंने 5 अंकों से बड़े जोड़-घटाव के सवाल बार-बार पूछकर देखे, और यह लगातार सही जवाब देता रहा
तो फिर आखिर इसकी सटीकता कहाँ खराब होती है?

flaps3 2023-02-20

टेड च्यांग जिस बात को नज़रअंदाज़ करते हैं, वह यह है कि अब तक इंटरनेट नेविगेट करने के मुख्य तरीके के रूप में इस्तेमाल होने वाला Google Search पिछले कुछ वर्षों में कम-गुणवत्ता वाले web content की बाढ़ से प्रभावित होकर काफ़ी गिर चुका है.
भले ही ChatGPT एक धुंधली JPEG हो, अगर उसका विकल्प सिर्फ़ noise से भरा Google Search ही है, तो अभी इसी समय जानकारी पाने के लिए ChatGPT का इस्तेमाल करना एक तर्कसंगत विकल्प हो सकता है.
कहा गया कि "हमने इंटरनेट तक पहुंच नहीं खोई है", लेकिन यही हिस्सा ग़लत पूर्वधारणा है. वेब के विशाल scale को देखें तो search करने की क्षमता खोना लगभग पहुंच खोने के बराबर है. जब मैं अपनी चाही हुई जानकारी ढूंढ ही नहीं सकता, तो केवल पहुंच होने का क्या मतलब है?
यानी हम ऐसी स्थिति के क़रीब पहुंच रहे हैं जहाँ "original" जैसी कोई चीज़ नहीं बचती, और मेरा मानना है कि यही वह वजह है जिसे लोग आज "धुंधली JPEG का इस्तेमाल करने की वजह" के रूप में महसूस कर रहे हैं.

laeyoung 2023-02-16

मुझे लगता है कि नीचे lightgreenmaesil जी द्वारा छोड़ी गई टिप्पणी टेड च्यांग के दृष्टिकोण और उसके विपरीत पक्ष में खड़े लोगों के बीच के अंतर को दिखाती है.

"पहली बात, उसका आकार भी बड़ा होता है और उसे देखने में समय भी ज़्यादा लगता है. फ़ोटो होने की वजह से समय का एहसास थोड़ा कम हो सकता है, लेकिन अगर इसे एक पूरी किताब और उस किताब के मुख्य बिंदुओं को एक पेज में समेटे गए सार के रूप में सोचें, तो बात ज़्यादा स्पष्ट लगेगी."

YouTube पर फ़िल्मों के 15 मिनट वाले सार या किताबों के सार जैसी चीज़ों की लोकप्रियता और views देखें, तो यह सच है कि लोगों को ऐसी चीज़ें पसंद हैं. Shorts भी वैसे ही हैं. लेकिन अगर यह सोचें कि क्या वे सारांश मूल रचना को पूरी तरह व्यक्त कर सकते हैं, तो शायद सही जवाब "नहीं" होगा. जिसने मूल को देखकर गहरा असर महसूस किया है, वह सार में छूट गई चीज़ों को बहुत तीव्रता से महसूस करेगा.

उपन्यासकार टेड च्यांग के नज़रिए से देखें, तो ChatGPT या LLMs जो करते हैं, वह शायद ऐसा लगेगा जैसे किसी ने उनके उपन्यास को 1~2 पन्नों के सार में बदल दिया हो. और जब लोग यह कहते या मानते दिखें कि उस छोटे से लेख में यह पूरा उपन्यास समा गया है, तो उन्हें लगेगा कि क्या यह सचमुच सही है.

इसी तरह, क्या फ़िल्म निर्देशक या अभिनेता उन लोगों को पसंद करेंगे जो मूल फ़िल्म की जगह सिर्फ 15 मिनट की फ़िल्म-सार वीडियो देखते हैं? क्या वे उन लोगों को अपनी कृति देखने वाला मानेंगे? और इससे भी आगे, अगर लगभग सभी लोग 15 मिनट के सार को असली फ़िल्म से भी ज़्यादा "फ़िल्म जैसा" मानने लगें, तो क्या होगा? अगर इस वजह से आगे फ़िल्में बनाना ही संभव न रहे, तो फिर 15 मिनट के सार किस फ़िल्म को देखकर बनाए जाएँगे?

यह ऐसा दौर है जिसमें वीडियो भी और लेखन भी, सब कुछ जल्दी, संक्षिप्त और compressed रूप में देखना पसंद किया जाता है, लेकिन दिलचस्प बात यह है कि संगीत ही एकमात्र चीज़ है जो लगभग अपने मूल रूप में बचा हुआ है. कोई संगीत को सारांश बनाकर नहीं सुनता, न ही 2x speed पर, और न ही उबाऊ हिस्सों को 10 सेकंड-10 सेकंड करके skip करते हुए सुनता है.

तो फिर, अगर मैंने आज के zeitgeist की तरह 2x speed और 1 मिनट preview में NewJeans का Ditto सुना, तो क्या मैं NewJeans का fan बन सकता हूँ? क्या मैं यह कह सकता हूँ कि मैंने वह गाना सुना है, जबकि मैंने उसे compressed और summarized रूप में सुना? या नहीं? या फिर इससे कोई फ़र्क ही नहीं पड़ता?

fudiso 2023-02-15

जैसे खुद Ted Chiang ने भी language model को समझाने के लिए JPEG जैसे lossy compression का रूपक इस्तेमाल किया था, वैसे ही चाहे original मौजूद हो, compressed information की भी ज़रूरत होती है.
और भले ही language model अपने ही बनाए हुए नतीजों पर दोबारा training करे, information loss लगभग नहीं के बराबर होता है. (आंतरिक model parameter पर update लगभग नहीं होता. क्योंकि यह वह जानकारी है जो उसे पहले से पता है, इसलिए training effect नहीं होता.)

stdcarrot 2023-02-15

मुझे लगता है कि आख़िरी सवाल के अनुवाद में मूल लेख और nuance के बीच कुछ अंतर है, इसलिए केवल अनुवाद देखकर मूल आशय से अलग कई टिप्पणियाँ आ रही हैं.

So just how much use is a blurry jpeg, when you still have the original?
जब आपके पास मूल मौजूद हो, तो एक धुंधली JPEG फ़ाइल कितनी उपयोगी है?

मुझे यह Raw फ़ाइल अपने पास होने पर JPEG की उपयोगिता पूछने वाला सवाल लगता है,
लेकिन अगर इसे "इस्तेमाल करने की वजह क्या है" के रूप में समझा जाए, तो यह कुछ ऐसा दिखता है जैसे RAW है तो JPEG जैसी चीज़ क्यों इस्तेमाल करें.

बेशक, वास्तविक दुनिया में raw की तुलना में jpeg ज़्यादा लोकप्रिय होने के कारण हैं, इसलिए मैं इसे उस नज़रिए को भी शामिल करने वाला सवाल मानता हूँ.

pseudojo 2023-02-15

कभी-कभी open source की official documentation या AWS की official documentation पर भी भरोसा नहीं होता, इसलिए सीधे चलाकर जांचना पड़ता है या source code तक देखना पड़ता है। ऐसे में ChatGPT का तो कहना ही क्या... लगता है कि जानकारी की मात्रा जितनी बढ़ती है, इंसानों को करने वाली cross-verification की मात्रा उतनी ही बेवजह बढ़ती जाती है।

daumkakao 2023-02-15

क्या आप JPEG और original में फ़र्क नहीं कर पाते?

laeyoung 2023-02-16

यह इमेज की विशेषताओं और compression ratio पर निर्भर करता है। अगर आप फोटो खींचते हैं, तो JPEG के अलावा original file भी अपने पास रखना पसंद करते हैं। बाद में edit और correction करते समय, JPEG file के साथ काम करने और original के साथ काम करने में edit की जा सकने वाली सीमा में काफी फर्क होता है।

https://www.keptlight.com/does-size-matter/

botplaysdice 2023-02-15

क्या इस समय भी ज़्यादातर इंसान अपनी रोज़ी-रोटी कमाने के लिए वही धुंधला JPEG बनाने का काम नहीं कर रहे हैं?

namjun 2023-02-15

ChatGPT वाकई कमाल का है, लेकिन यह इतना मानवीय लगता है कि खोज और जानकारी पहुँचाने के लिए कुछ हद तक अनुपयुक्त महसूस होता है।

ahwjdekf 2023-02-15

यह बात मुझे बहुत गहराई से महसूस होती है कि यह मूल के बजाय धुंधली JPEG देखने जैसा है। उदाहरण के लिए, जब मैं कोई अनूदित किताब पढ़ता हूँ और उसमें अनुवादक की ओर से काफी अधिक भावानुवाद शामिल होता है, तो बीच-बीच में अनुवाद अजीब लगे तब भी, अगर शब्द लगातार सहज रूप से जुड़े हुए लगें और मोटे तौर पर संदर्भ सही लगता रहे, तो मैं आमतौर पर बस पन्ने पलटता रहता हूँ (हालाँकि सब पढ़ लेने के बाद सचमुच समझ आया या नहीं, यह अलग बात है)। लेकिन जो अनुवाद अजीब लग रहा है, वह पूरी तरह बेतुका भी हो सकता है, इसलिए यह ऐसी समस्या नहीं है जिसे नज़रअंदाज़ किया जाए। ऐसा अनुवाद किसी के लिए बिल्कुल अस्वीकार्य हो सकता है, और किसी दूसरे के लिए सहने लायक स्तर का।

norimsu 2023-02-15

हम्म. क्वालिटी तो बहुत ही खराब है।

tequila 2023-02-15

शायद इसे एक तरह की चेतावनी के रूप में भी देखा जा सकता है। मैं भी इसे काम में, सलाह की ज़रूरत होने पर, या वाक्यों को संवारने के लिए कई तरह से इस्तेमाल करता हूँ, लेकिन यह भी सच है कि कभी-कभी यह काफ़ी भरोसेमंद लगने वाले, मगर गलत जवाब भी देता है। और उपयोगकर्ता को यह समझने के लिए कि यह जवाब गलत है, अक्सर उस क्षेत्र का ज्ञान या अतिरिक्त जाँच की ज़रूरत होती है। कभी-कभी ऐसी गलतियाँ भी होती हैं जिन्हें काफ़ी बारीकी से देखने पर ही पकड़ा जा सकता है। (जैसे कोड बनाते समय वास्तव में मौजूद ही न होने वाले function का इस्तेमाल करना)
जब तक मैंने ऐसी गलतियाँ खुद नहीं पकड़ीं, तब तक मैंने सच कहूँ तो कभी सोचा ही नहीं था कि यह AI मुझे इस तरह के जवाब भी दे सकता है। मैं तो बस यही सोचता था कि या तो यह जवाब नहीं दे पाएगा, या फिर बिल्कुल असंबद्ध जवाब देगा।

ऐसा लगता है कि Stack Overflow जैसी जगहों पर भी, जहाँ इस तकनीक की समझ अपेक्षाकृत ज़्यादा रखने वाले लोग मिलते हैं, AI जवाबों को लेकर कुछ-न-कुछ टकराव रहे हैं। इससे लगता है कि उपयोगकर्ताओं के बीच उम्मीद के मुताबिक पूरी तरह सत्यापन नहीं हो पाया होगा। AI द्वारा बनाए गए डेटा की जाँच के लिए इंसानी हस्तक्षेप ज़रूरी है, और यह निश्चित रूप से मेहनत और ज्ञान माँगने वाला काम है। वरना Microsoft भी अपने AI की ओर से दिए गए भरोसेमंद लगने वाले गलत जवाबों को नज़रअंदाज़ नहीं करता। इसलिए हम जानते हैं कि फिलहाल इस तकनीक का इस्तेमाल एक tool की तरह ही करना चाहिए। लेकिन जब हम मोबाइल के AI से आज का मौसम पूछते हैं, तब हम आम तौर पर यह मानकर नहीं चलते कि उसका जवाब bug या किसी और गलती की वजह से गलत हो सकता है। अगर ChatGPT जैसे AI धीरे-धीरे general-purpose AI बनकर रोज़मर्रा की ज़िंदगी के और क़रीब आते गए, तो क्या यह संभावना ज़्यादा नहीं है कि उपयोगकर्ता उनके जवाबों को बिना ज़्यादा संदेह के स्वीकार कर लेंगे?

आजकल स्कूलों में ChatGPT वगैरह का इस्तेमाल करके essay लिखवाने के कई मामले सामने आ रहे हैं। सिर्फ गलतियाँ दिखाने, लिखने के लिए विषय सुझाने, या टेक्स्ट को थोड़ा विस्तार देने तक ही बात नहीं रही; ऐसे मामले भी खबरों में आए हैं जहाँ छात्र बिना सवाल पर खुद विचार किए, AI के जवाब में बस कुछ शब्द बदलकर जमा कर देते हैं और ऊँचे अंक भी पा लेते हैं। खुद इकट्ठा की गई सामग्री के आधार पर अपने विचार पूछे जाने वाली स्थिति में सोचना, संरचना बनाना, और लिखना—सब कुछ AI को सौंप देना, निस्संदेह एक नया paradigm है।

AI से अलग भी, इंटरनेट पर कई बार गलत जानकारी बहुतायत में खोज परिणामों में दिखाई देती है, और इस पर अतिरिक्त पुष्टि किए बिना उसे सच मान लेने वाले लोग भी काफ़ी होते हैं। मैं भी अगर एक-एक बात को जाँचते हुए न पढ़ूँ, तो शायद अनजाने में कई गलत जानकारियाँ सच मान चुका होता।
मज़ाक-मज़ाक में लोग कभी-कभी data weathering जैसी बात कहते हैं। इंटरनेट पर तस्वीरें जब jpg के रूप में कई साइटों पर घूमते हुए शेयर होती रहती हैं, तो resizing और size compression बार-बार होने की वजह से उनकी quality बुरी तरह खराब हो जाती है। कभी-कभी तो बिल्कुल सफ़ेद background भी नीला-सा दिखने लगता है।
शायद चिंता जानकारी के इसी तरह degraded हो जाने की है। कहते हैं न, खराब चीज़ अच्छी चीज़ को बाहर कर देती है?
पहले ही image sharing sites पर AI से बनी तस्वीरें भरी पड़ी हैं। यह अपने-आप में गलत नहीं है, लेकिन अगर इंटरनेट AI द्वारा लिखे गए अनुमान-आधारित लेखों से भर जाए, और फिर उन्हीं पर आधारित AI बार-बार नए लेख बनाता रहे, तो क्या जानकारी के विकृतिकरण का थोड़ा-थोड़ा संचय नहीं होने लगेगा? बस यही सोच आता है।

rousseau 2023-02-15

मैं 30 साल से ज़्यादा समय से SF पढ़ता आया हूँ, और पिछले करीब 10 साल में पढ़ी गई SF नई कृतियों में 'Story of Your Life' को सबसे ऊपर रखने वाला एक सच्चा फैन भी हूँ, लेकिन 20 साल से ज़्यादा समय तक डेवलपर के तौर पर काम कर चुके इंडस्ट्री प्रोफेशनल के नज़रिए से देखें तो यह ऐसी बात है जिसका खंडन करना ही पड़ता है.

बुनियादी तौर पर यह बयान एक ऐसे नज़रिए से निकला है जिसे घमंड कहा जा सकता है. लोग (अज्ञानी होने के कारण) ChatGPT समेत AI platforms को creation के क्षेत्र तक पहुँच चुका मानकर गलतफ़हमी में पड़ जाएंगे, लेकिन मैं जानता हूँ कि ऐसा नहीं है, इसलिए मुझे उन्हें सही बात और सही तथ्य बताने चाहिए — यही इसका दृष्टिकोण है.

असल सच्चाई यह है कि ऐसा नहीं है, और यह बात सिर्फ़ इंडस्ट्री के लोग ही नहीं बल्कि ज़्यादातर आम लोग भी जानते हैं. AlphaGo के बाद से AI बहुत पहले ही आम जनता की चर्चा का विषय बन चुका है. AI की क्षमता और उसकी सीमाओं के बारे में भी सबको कुछ न कुछ अंदाज़ा है. आज AI Go की दुनिया में ऐसे उस्ताद भरे पड़े हैं जो AlphaGo के स्तर को भी बच्चे जैसा मानते हैं, लेकिन कोई भी इसे किसी झटके की तरह नहीं लेता. क्योंकि लोग इस बात को काफ़ी हद तक सीख चुके हैं कि इसका मतलब क्या है और इसे कैसे समझना चाहिए.

मेरे हिसाब से Ted Chiang का वह बयान उल्टा आम जनता के प्रति अज्ञान और पूर्वाग्रह से पैदा हुई गलती है. जो लोग ChatGPT को लेकर उत्साहित हैं, वे इस भरोसे में ऐसा नहीं कर रहे कि यह हमारी बौद्धिक गतिविधि की जगह ले लेगा. वे अच्छी तरह जानते हैं कि यह हमारी बौद्धिक गतिविधि में 'सहायक' होगा, और उसी तरह इसका इस्तेमाल भी कर रहे हैं. prompt examples को manual की तरह बनाकर साझा किया जा रहा है. इससे साफ़ पता चलता है कि लोग इसे एक tool के रूप में स्पष्ट रूप से पहचान रहे हैं.

लोग drawing AI को कैसे लेते हैं? क्या वे उससे जादुई चिराग की तरह रगड़कर कह रहे हैं कि मेरी रचना की जगह तुम सब कर दो? मैंने हाल में जो AI images देखी हैं, उनमें से लगभग 90% NSFW images थीं. अगर हाथ ठीक से नहीं बनते और इसलिए धुंधले लगते हैं, तो लगें, लेकिन बाकी हिस्से तो काफ़ी साफ़ और स्पष्ट ही थे.

कहने को बहुत कुछ है, लेकिन बहुत ज़्यादा है, इसलिए बस एक बात कहकर रुकता हूँ.

"Kim डेरी. मैं एक सलाह देने की हिम्मत करना चाहता हूँ. और कुछ नहीं, बस Excel function? का बहुत ज़्यादा इस्तेमाल मत कीजिए. अगर सुविधा है, तो जोखिम भी बढ़ता है. बैल काटने के लिए जितनी बड़ी धार चाहिए, क्या मुर्गी काटने के लिए भी वही चाकू चाहिए?...... मेरी राय है कि मानसिक गणना तेज़ हो सकती है, और बेशक लोगों में फ़र्क होता है, calculator अच्छा हो सकता है. लेकिन क्या computer बैल काटने वाला चाकू नहीं है — इसी बारे में अपनी राय दे रहा हूँ."

lightgreenmaesil 2023-02-15

आख़िरी सवाल ग़लत था। तुलना किसी धुंधली JPEG से नहीं, बल्कि JPEG फ़ोटो के शब्दों में किए गए सारांश से होनी चाहिए। उदाहरण के लिए, 'जीभ निकाले हुए कुत्ता' जैसा टेक्स्ट और उसकी असली फ़ोटो। यह भी एक तरह की lossy compression है। ज़्यादातर जानकारी हटाकर उसे सिर्फ़ कुछ bytes के टेक्स्ट में compress किया गया है। लेकिन क्या सिर्फ़ इसलिए कि मूल फ़ोटो मौजूद है, ऐसी lossy compression बेकार हो जाती है? नहीं। सबसे पहले, उसका आकार भी बड़ा होता है और उसे देखने में समय भी ज़्यादा लगता है। फ़ोटो के मामले में समय का एहसास थोड़ा कम हो सकता है, लेकिन अगर इसे एक पूरी किताब और उसी किताब के मुख्य बिंदुओं के एक पन्ने के सारांश की तरह सोचें, तो बात ज़्यादा साफ़ महसूस होगी।

तो फिर, अगर कोई शोध-पत्र है, तो उसके lossy-compressed सारांश को देखने की कोई वजह है? बिल्कुल है, और कई बार यह बहुत उपयोगी होता है। अगर कोई किताब है, और उसके किसी chapter में उल्लेखित किसी ख़ास दावे पर आधारित सारांश का इस्तेमाल करना हो—तो उसकी भी वजह साफ़ है। एक नज़र से देखें तो इंसान का स्कूल जाना, दर्जनों घंटों की lectures सुनना, और फिर उन्हें notes या cheating sheet में संक्षेप करके लिखना भी वीडियो से टेक्स्ट में की गई बहुत बड़ी lossy compression ही है। सीखना अपने आप में lossy compression है। क्या यह बेकार है?

'compression' को फ़ोटो compression की उपमा देकर ऐसे लिखा गया है मानो यह बहुत trivial हो और इसका कोई बड़ा महत्व न हो, लेकिन असल में compression इंसानी learning में बेहद मूलभूत और अर्थपूर्ण काम है। फ़ोटो के मामले में compression के तरीक़े काफ़ी हद तक समझ लिए गए हैं, लेकिन भाषा की compression बहुत non-trivial और महत्वपूर्ण काम है।

cenoch 2023-02-15

आख़िरी सवाल का जवाब है

भले ही GPT के ज़रिए हमें जो जानकारी मिलती है वह degraded JPEG version जैसी हो,
लेकिन हमें आम तौर पर जो जानकारी चाहिए होती है वह collage version होती है, और इस collage को बनाने में काफ़ी मेहनत लगती है।

यह उस collage बनाने की मेहनत की जगह ले लेता है, और कभी-कभी इसकी overall completeness मेरे अपने हाथ के हुनर से बेहतर होती है,
इसलिए image quality की गिरावट को काफ़ी हद तक स्वीकार किया जा सकता है।

मैं यह कहने की स्थिति में नहीं हूँ कि Ted Chiang की कल्पनाशीलता और तकनीक की समझ का मूल्यांकन करूँ,
लेकिन कुल मिलाकर मुझे यह इस तकनीक की कुछ विशेषताओं को ज़रूरत से ज़्यादा बढ़ाकर देखने का नतीजा लगता है,
और ऐसा भी लगता है कि इसने वास्तव में महत्वपूर्ण विशेषताओं को नज़रअंदाज़ कर दिया है।

johtta88 2023-02-14

आखिरी सवाल का जवाब शायद 'क्योंकि यह सुविधाजनक है' नहीं होगा?
मुझे नहीं पता यह उपमा कितनी उपयुक्त है, लेकिन जैसे आजकल फ़िल्मों/ड्रामों को बिंज-वॉच करने की तरह ओरिजिनल को संपीड़ित करके बने चीज़ों के प्रति संतुष्टि ज़्यादा दिखती है।

regentag 2023-02-14

यह बहुत शानदार उपमा लगती है, लेकिन अगर कोई इंडस्ट्री में काम नहीं करता तो शायद वह इसे बिल्कुल समझ नहीं पाएगा।
इसे non-experts को, यहाँ तक कि उन लोगों को भी जो खुद को expert बताते हैं, कैसे समझाया जा सकता है?

yhkee0404 2023-02-14

Super Resolution, original से बेहतर हो सकता है

wedding 2023-02-15

बिल्कुल, यह बेहतर हो सकता है, लेकिन क्या लेख में यह बात भी नहीं कही गई है कि यह हमेशा बेहतर नहीं होता?

yhkee0404 2023-02-15

कहा जा सकता है कि यह बेहतर हो सकता है, लेकिन जाहिर है कि यह हमेशा बेहतर हो, ऐसा नहीं है। लेकिन लेख में सिर्फ इतना कहा गया है कि रेज़ोल्यूशन धुंधला है, जबकि इसके उलट और अधिक स्पष्ट होने की संभावना को नज़रअंदाज़ किया गया है। CCTV की इमेज क्वालिटी भी सुधारी जा रही है और black-and-white में color भी जोड़ा जा रहा है, लेकिन शीर्षक में जो JPEG है, वह ऐसी चीज़ों को support नहीं करता।

seunghaekim 2023-02-15

इमेज क्वालिटी को बेहतर बनाना, यानी CCTV की क्वालिटी सुधारना, कुछ मायनों में वास्तव में सुधार नहीं है। यह इंसानों को यह 'अहसास' देता है कि इमेज बेहतर हुई है। काले-सफेद तस्वीर में रंग भरना भी इसी तरह है। काले-सफेद इमेज में रंगों को 'generate' करके इंसानों को color image का 'अहसास' दिया जाता है। इसलिए मौजूदा image quality enhancement तकनीकें जिस 'सुधार' को संभालती हैं, उसे बहुत सीमित संदर्भ में ही देखा जाना चाहिए। CCTV image quality improvement के बारे में यह तुलना करना कि JPEG ऐसी चीज़ों को support नहीं करता, बेहद अनुचित तुलना है।

yhkee0404 2023-02-15

टिप्पणी के लिए धन्यवाद। लेकिन उसी तर्क से देखें तो धुंधलापन भी किसी मायने में degradation नहीं है; degraded चीज़ को 'generate' करके 'sense' दिया जा रहा है, इसलिए यह भी बहुत सीमित पहलू में ही देखे जाने वाला मुद्दा है, तो फिर ChatGPT की गणितीय क्षमता की JPEG degradation से तुलना करना भी काफ़ी अनुचित होगा, है न? जब बात खुद information volume बढ़ाने की हो, तब इंसानी 'sense' जैसी बात लाने की ज़रूरत नहीं लगती। जैसे मूल color को black-and-white में compress करने पर capacity घटती है, वैसे ही उल्टा उसमें color भरने पर सिर्फ़ bit capacity ही नहीं बल्कि information volume भी बढ़ती है। इस लिहाज़ से यह compression से ज़्यादा decompression, या मूल की restoration, के क़रीब है। सिर्फ़ इसलिए कि वह बिल्कुल original नहीं है, उसे धुंधला कहना कहीं ज़्यादा अनुचित तुलना लगता है। सिर्फ़ शीर्षक देखकर लोग यह भी ग़लत समझ सकते हैं कि DALL-E केवल low-capacity low-resolution चीज़ें ही बनाता है और HD नहीं बना सकता। जैसा मुख्य लेख में कहा गया है, JPEG को बार-बार compress करने पर आम तौर पर capacity घटती है, quality गिरती है, और वह धुंधला होना तय है। लेकिन deep learning, भले कम data वाले गणितीय calculation में धुंधला लगे, इसके उलट कुछ क्षेत्रों में और भी अधिक स्पष्ट, सटीक और बेहतर भी हो सकता है—यह बात नज़रअंदाज़ न हो तो अच्छा होगा।

seunghaekim 2023-02-15

आपकी कही हुई बातों में ऐसी कोई भी चीज़ नहीं थी जिसे मैंने नज़रअंदाज़ किया हो। आप मूल बना रहे हैं, और मैंने यह कहा कि मैं 'मूल नहीं, बल्कि वह चीज़' बना रहा हूँ जो मूल जैसी महसूस होती है, इसलिए लगता है आप बहुत नाराज़ हो गए। ऐसा हो या न हो, यही सीधी-सी सच्चाई है, तो अब किया ही क्या जा सकता है।

yhkee0404 2023-02-15

मैंने तो वैसी कोई भावना व्यक्त नहीं की थी कि मैं बहुत गुस्से में हूँ या मुझे यह बहुत अन्यायपूर्ण लग रहा है, है न? बस मुझे चिंता हुई कि लोग यह लेख-शीर्षक, जिसमें कहा गया है कि यह बात Ted Chiang ने कही है, देखकर इसे यूँ ही नज़रअंदाज़ कर देंगे। लगता है ज़्यादातर लोग सहमत हैं, तो अच्छा है कि आप उन्हें व्यक्तिगत रूप से जानते हैं। इस बात से सहमत हूँ कि डिजिटल तरीके से analog बनाना मुश्किल है। हालांकि यह text की बात है, इसलिए उससे अलग मुद्दा है।

xguru 2023-02-14

Xerox copier की समस्या वही बात लगती है जो मैंने 2022 में सीखी गई 52 चीज़ें #33 में भी देखी थी।
यह इससे इस तरफ जुड़ता है, इसलिए काफ़ी दिलचस्प है और बात एकदम समझ में आ जाती है!

ChatGPT वेब का धुंधला JPEG है

संबंधित पढ़ाई

26 टिप्पणियां