OpenAI के सह-संस्थापक रोज़मर्रा और काम में AI का इस्तेमाल कैसे करते हैं

(stdy.blog)

46 पॉइंट द्वारा spilist2 2025-03-04 | 3 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI के सह-संस्थापकों में से एक Andrej Karpathy की आम लोगों के लिए AI लेक्चर सीरीज़ में 2/28 को अपलोड किए गए How I use LLMs का स्क्रीनशॉट्स के साथ सारांश
इसमें कई तरह की visualization सामग्री और Karpathy के वास्तविक उपयोग के उदाहरणों की बड़ी अहमियत है, इसलिए सिर्फ़ लेख-सारांश से वीडियो का असली अनुभव नहीं आता; इसी वजह से यह बनाया गया है

कई तरह के LLM होते हैं

ChatGPT सबसे मशहूर है, और इसमें सबसे ज़्यादा फीचर्स हैं। इसके अलावा ये भी काफ़ी प्रसिद्ध हैं

Google का Gemini
Meta का Meta AI
MS का Copilot
Anthropic का Claude
xAI का Grok
Perplexity
चीन का DeepSeek
फ़्रांस की Mistral का Le Chat

ChatGPT कैसे काम करता है

LLM पूरे इंटरनेट दस्तावेज़ों को 1TB में lossy compression किए गए zip फ़ाइल जैसा है। इसके अंदर खरबों parameters वाला एक artificial neural network होता है, और वही संभावना के आधार पर 'अगला अक्षर' निकालता है

यह compression फ़ाइल मोटे तौर पर दो तरह की training से बनती है

Pre-training: इसमें करोड़ों डॉलर + 3 महीने से ज़्यादा लगते हैं। लागत बहुत ज़्यादा होने के कारण इसे बार-बार नहीं किया जा सकता, और इसी वजह से knowledge cutoff बनता है

Post-training: काफ़ी कम लागत में fine-tuning। इसका मकसद सिर्फ़ इंटरनेट दस्तावेज़ उगलना नहीं, बल्कि यूज़र के सवालों का जवाब देने वाले Assistant की तरह काम कराना है

आदर्श उत्तर सिखाने वाली supervised learning (Supervised Fine-Tuning)
बने हुए उत्तरों पर मानव-पसंद के आधार पर की गई reinforcement learning (Reinforcement Learning from Human Feedback)
मानव प्रश्नों के लिए Assistant के आदर्श उत्तरों के आधार पर की गई reinforcement learning (Reinforcement Learning on Conversation)

जब ChatGPT में नया session बनाया जाता है और यूज़र message दर्ज करता है, तो वह tokenize होकर मॉडल के input में जाता है, और उसी के आधार पर LLM अगला token बनाता है। फिर यह पूरी बातचीत (यूज़र का input, ChatGPT का output) Context Window के अंदर संग्रहीत होती रहती है।

Context Window इंसानों की working memory जैसी होती है, और इंसानों की तरह इसकी भी सीमा होती है। Context Window जितनी लंबी होती जाती है, गलत जानकारी देने की संभावना थोड़ी बढ़ जाती है, और अगला उत्तर बनाना थोड़ा महँगा (= धीमा) भी हो जाता है.

इसलिए, अगर बहुत ज़रूरी न हो तो एक session को बहुत लंबे समय तक चलाते रहना हमेशा अच्छा विकल्प नहीं है

'Thinking' मॉडल कब इस्तेमाल करना चाहिए

ये ऐसे मॉडल हैं जिन्हें सामान्य pre/post-training से गुज़रे LLM पर अतिरिक्त reinforcement learning देकर जटिल STEM (science, technology, engineering, mathematics) समस्याओं का उत्तर लंबी reasoning प्रक्रिया के साथ देने लायक बनाया गया है

कई tokens निकालते हुए ये 'सोचते' हैं, इसलिए लागत और समय दोनों ज़्यादा लगते हैं, लेकिन जटिल समस्याओं के उत्तर की accuracy तेज़ी से बढ़ जाती है

ध्यान रहे, 'सोचने' वाला मॉडल हमेशा समस्या सही हल करेगा ही ऐसा नहीं है, और उल्टा, non-thinking मॉडल भी समस्या सही हल कर सकता है (Karpathy के दिए गए जटिल debugging सवाल में सभी thinking models सफल रहे, जबकि ChatGPT-4o असफल रहा; लेकिन Sonnet 3.5, Gemini 2.0 Pro, Grok 3 ने Thinking के बिना भी सफलता पाई)

Karpathy का कहना है कि वे पहले तेज़ जवाब देने वाले non-thinking मॉडल से टेस्ट करते हैं, और अगर उत्तर संदिग्ध लगे तो फिर Thinking मॉडल आज़माते हैं

LLM की मदद करने वाले tools

इंटरनेट सर्च

कुछ मॉडल इंटरनेट सर्च कर सकते हैं और कुछ नहीं। (ज़रूरी नहीं कि सिर्फ़ सर्च ही हो) हमें हमेशा यह समझकर इस्तेमाल करना चाहिए कि मॉडल क्या कर सकता है

सबसे बुनियादी वजह यह है कि knowledge cutoff के कारण मॉडल ताज़ा डेटा पर जवाब नहीं दे सकता। शुरुआती ChatGPT में यह सुविधा नहीं थी, और Perplexity ने इसी कमी को तोड़कर बहुत सारे यूज़र जुटाए

यूज़र query के आधार पर मॉडल यह तय करता है कि 'इसमें सर्च करना चाहिए', फिर इंटरनेट सर्च के नतीजों को tokenize करके Context Window में डालकर उत्तर देता है। (कई बार साफ़ तौर पर सर्च करके बताने को कहना पड़ सकता है)

Karpathy आजकल Google search की जगह कई बार सीधे Perplexity से पूछते हैं। एक तरह की आदत बन गई है कि 'ऐसी जानकारी Perplexity से पूछनी चाहिए'

लगता है कि Google पर खोजकर ऊपर के कुछ links खोलने से जवाब मिल जाएगा (आज stock market खुला है या नहीं, White Lotus season 3 की शूटिंग कब हुई थी, आदि)
जानकारी लगातार बदल रही है और latest जानकारी चाहिए (क्या Vercel Postgresql support करता है, Single’s Inferno season 4 के कलाकार अभी क्या कर रहे हैं, आदि)

Deep Research

सरल शब्दों में कहें तो यह इंटरनेट सर्च + Thinking है। कभी-कभी यह कई दर्जन मिनट तक खोज करता है, फिर उस जानकारी को Thinking के ज़रिए व्यवस्थित करके रिपोर्ट बना देता है।

ChatGPT Deep Research की एक ख़ास बात यह है कि बेहतर रिपोर्ट बनाने के लिए यह पहले पूछता है कि प्रश्न पूछने वाले का असली उद्देश्य क्या है और किस बात पर ध्यान देना चाहिए, फिर शुरू करता है। इसी तरह की सुविधा Perplexity में भी Deep Research के रूप में है, और Grok3 में 'Deep Search' भी है। हर एक की गति और गुणवत्ता अलग है.

इंटरनेट सर्च की तरह यहाँ भी उत्तर गलत हो सकता है, यह ध्यान रखना चाहिए। स्रोतों को सीधे जाँचने की ज़रूरत पड़ सकती है, लेकिन यह 'बहुत उपयोगी draft' ज़रूर है

Karpathy ने लगभग 20 Deep Research किए, और उनके अनुसार ChatGPT का उत्तर सबसे अच्छा था क्योंकि वह (अर्थपूर्ण जानकारी के लिहाज़ से) सबसे लंबा था। Karpathy ने जिन विषयों पर यह कराया:

health supplements के कुछ खास ingredients को समझना
Brave browser और Arc browser में security और privacy के लिहाज़ से कौन बेहतर है
चूहों की lifespan बढ़ाने की latest techniques क्या हैं? किस तरह के interventions आज़माए गए हैं? मैं ML background से हूँ, इसलिए evaluation metrics तय करने और सुधारने का आदी हूँ। क्या चूहों की lifespan भी ऐसे ही मापी जाती है?
अमेरिका के सभी प्रमुख LLM labs की एक तालिका बनाओ। वे कब बने, कितने लोग काम करते हैं, और funding कितनी मज़बूत है।

Code Interpreter

LLM कोड लिखता है, उसे चलाता है, फिर कोड के परिणाम को context में डालकर उत्तर देता है। इसमें Python भी है और JavaScript भी। सही तरह से इस्तेमाल करें तो यह बहुत ताकतवर है। मानो एक तेज़-तर्रार junior साथ मिल गया हो

ChatGPT 4o से data analysis करना
Claude से किताब की सामग्री का सारांश बनाने वाली flashcard app बनाना
Claude से किताब की सामग्री को visualize करने वाला Mermaid diagram बनाना
Cursor से tic-tac-toe गेम बनाकर सिर्फ़ chat के ज़रिए winner effect जोड़ते हुए उसे बेहतर करना

Modality

LLM के साथ सिर्फ़ text ही नहीं, बल्कि audio, image, video के माध्यम से भी बातचीत की जा सकती है

Audio input/output

Audio input के लिए Karpathy SuperWhisper, WisprFlow, MacWhisper जैसे Mac dictation apps का इस्तेमाल करते हैं। उनका कहना है कि पहले जिन कामों के लिए वे typing करते, उनमें से लगभग आधे अब बोलकर कर लेते हैं।

Audio output आम तौर पर app के अंदर उपलब्ध होता है। स्क्रीन से dictation भी किया जा सकता है

लेकिन ये सब मूल रूप से अब भी text के ज़रिए ही काम करते हैं। पहले Speech-to-Text, फिर Text-to-Speech करना पड़ता है, इसलिए यह धीमा है.

सिर्फ़ audio के माध्यम से सीधे LLM के साथ संवाद करना भी संभव है। इसमें audio जानकारी को tokenize किया जाता है। Karpathy इसे True Audio कहते हैं, और ChatGPT में इसे Advanced Voice Mode कहा जाता है।

अलग-अलग लहजे और गति से बुलवाने, और जानवरों की आवाज़ की नकल करवाने वाला conversation demo video

Grok3 भी mobile app में Advanced Voice Mode देता है। इसमें sexy mode, swearing mode जैसी बिना रोक-टोक वाली personalities काफ़ी हैं, इसलिए कुछ मायनों में यह ज़्यादा मज़ेदार और दिलचस्प भी लग सकता है

Karpathy का Grok3 conversation demo video

NotebookLM में files upload करके उनका analysis कराया जा सकता है, और उसी सामग्री के आधार पर कई hosts को natural voice में podcast चलाने के लिए कहा जा सकता है। बीच में मैं खुद दख़ल देकर सवाल भी पूछ सकता हूँ (Interactive Mode).

Karpathy अक्सर उन विषयों पर podcast बनाकर सुनते थे जिनमें उनकी विशेषज्ञता बहुत गहरी नहीं थी लेकिन जिज्ञासा थी। ऐसे ही बनाए गए podcast उन्होंने Histories of Mysteris नाम से Spotify पर भी अपलोड किए हैं

Image input/output

Karpathy की आदत है कि OCR करते समय वे पहले यह पुष्टि करते हैं कि मॉडल ने सही पढ़ा या नहीं, और उसके बाद ही सामग्री के बारे में पूछते हैं। क्योंकि गलत पढ़ लेने की संभावना हमेशा रहती है।

वास्तविक उपयोग के उदाहरण: health supplements के nutrition facts देखना, blood test results और उनकी व्याख्या, किसी formula का Latex version पाना, meme समझना आदि

Image output DALL·E, IdeoGram आदि से किया जाता है। image generation, LLM में built-in क्षमता नहीं, बल्कि अलग मॉडल को prompt देकर उसका output image वापस लाने जैसा काम है।

Video input/output

Audio की तरह, Advanced Voice + Video को input में लेकर जवाब दिलाया जा सकता है। यह mobile app में संभव है। संभवतः LLM वास्तव में पूरा video input नहीं लेता, बल्कि video को कुछ frames में तोड़कर image input में बदलकर इस्तेमाल करता है

Karpathy खुद इसका बहुत ज़्यादा उपयोग नहीं करते, लेकिन उनके मुताबिक़ तकनीकी पृष्ठभूमि कम रखने वाले लोगों, जैसे उनके माता-पिता की पीढ़ी, के लिए यह काफ़ी उपयोगी है क्योंकि वे तुरंत सवाल पूछकर जवाब पा सकते हैं

demo video

Video output के लिए Sora समेत कई मॉडल हैं। Karpathy को फिलहाल Google Veo 2 सबसे अधिक यथार्थवादी लगता है

9 video models comparison

अतिरिक्त फीचर्स

Memory

यूज़र से बातचीत करते समय ऐसी बातें जिन्हें याद रखना आगे बेहतर उत्तर देने में मदद करेगा, या जिन्हें यूज़र स्पष्ट रूप से याद रखने को कहे, वे Memory Updated जैसे संदेश के साथ सहेजी जाती हैं
= इन्हें ऐसे समझ सकते हैं कि हर नई chat बनाते समय ये Context Window में शामिल हो जाती हैं। पूरी सूची देखना और manage करना भी संभव है

Customize

यूज़र को किस नाम से बुलाना है, वह क्या काम करता है, किस तरह के जवाब चाहता है... जैसी बातें पहले से भर दी जाएँ तो उनका उपयोग भी Context Window में शामिल अवस्था में उत्तर देने के लिए होता है
Karpathy इन दिनों Korean सीख रहे हैं, इसलिए वे इससे जुड़ी जानकारी डालकर प्रयोग कर रहे हैं

Custom GPTs

Karpathy Korean सीखने के लिए कई GPTs बनाकर इस्तेमाल कर रहे हैं। simple prompts के साथ few-shot का उपयोग करते हैं।

Korean Vocabulary Extractor: Korean वाक्यों को तोड़कर शब्द/terms निकाल देता है

Korean Detailed Translator: ऊपर जैसा ही, लेकिन शब्द-दर-शब्द मिलान करके अनुवाद करता है

KoreanCap: image capture देकर OCR करता है, फिर अनुवाद करता है, और pronunciation सहित शब्दों को अलग-अलग करके दिखाता है

3 टिप्पणियां

halfenif 2025-03-06

> 'अगला अक्षर' को संभाव्यता के आधार पर उगलना

मुझे नहीं लगता कि इससे अधिक उपयुक्त व्याख्या हो सकती है।

ned0909 2025-03-05

कोरियन सीखना दिलचस्प है।

stadia 2025-03-04

https://youtube.com/watch/… सबटाइटल्स के साथ देखें