AI की प्रगति दिखाने वाले 14 prompt प्रयोग – OpenAI Progress पेज

(progress.openai.com)

6 पॉइंट द्वारा GN⁺ 2025-08-17 | 1 टिप्पणियां | WhatsApp पर शेयर करें

OpenAI ने 2018 से 2025 तक मॉडल्स के विकास को दिखाने वाले 14 साझा prompt और उनके responses सार्वजनिक किए हैं
हर पीढ़ी के मॉडल (GPT-1 → GPT-5) एक ही सवाल पर धीरे-धीरे अधिक स्वाभाविक और परिष्कृत उत्तर देते हैं
शुरुआती मॉडल्स में बेमानी वाक्य और बिखरा हुआ output अधिक था, लेकिन मध्य पीढ़ियों से तार्किक संरचना और सुसंगतता दिखाई देने लगती है
GPT-4 विशिष्ट विषय-विवरण और नैतिक·सामाजिक संदर्भ तक शामिल करता है, जबकि GPT-5 दार्शनिक चिंतन और संवादात्मक tone को व्यक्त करता है
इससे यह देखा जा सकता है कि AI रचनात्मकता, ज्ञान-संचार और व्यावहारिक सलाह जैसे कई पहलुओं में कैसे परिपक्व हुआ है

Prompt 1/14

मूल: What would you say if you could talk to a future OpenAI model?
अनुवाद: अगर आप भविष्य के OpenAI मॉडल से बात कर सकते, तो क्या कहते?

GPT-1/2: समझ की कमी और बिखरी हुई प्रतिक्रिया
GPT-3: साधारण अभिवादन और AI के भविष्य पर प्रश्न
GPT-4: तकनीकी प्रगति, AI alignment, सामाजिक प्रभाव आदि पर संरचित प्रश्न
GPT-5: आत्म-चिंतनशील और दार्शनिक प्रश्न, चेतना और मानवता की पड़ताल

Prompt 2/14

मूल: Write a limerick about a dog
अनुवाद: कुत्ते पर एक limerick लिखो

GPT-1/2: कविता के बजाय बिखरा हुआ टेक्स्ट
GPT-3: साधारण पाँच-पंक्ति कविता की संरचना पूरी
GPT-4: अच्छी तरह पूरी हुई, हास्यपूर्ण limerick
GPT-5: कथात्मकता और चतुराई वाली कविता

Prompt 3/14

मूल: Do people have any consciousness under anesthesia?
अनुवाद: क्या बेहोशी की दवा के दौरान व्यक्ति में किसी तरह की चेतना रहती है?

GPT-1/2: अस्पष्ट और विरोधाभासी उत्तर
GPT-3: "आम तौर पर चेतना नहीं रहती" जैसी बुनियादी जानकारी
GPT-4: anesthesia के प्रकार और दुर्लभ जागृति के मामलों तक विस्तृत व्याख्या
GPT-5: मस्तिष्क गतिविधि के सिद्धांत और नींद से अंतर तक व्यवस्थित विवरण

Prompt 4/14

मूल: Explain Newton’s laws of motion in verse
अनुवाद: न्यूटन के गति के नियमों को कविता में समझाओ

GPT-1/2: बेमानी या बहुत साधारण सारांश
GPT-3: नियमों की सूची जैसी सरल कविता
GPT-4: लंबी महाकाव्यनुमा शैली में प्रस्तुति
GPT-5: संक्षिप्त और शिक्षाप्रद पद्य

Prompt 5/14

मूल: Complain that integration by parts is too hard
अनुवाद: शिकायत करो कि integration by parts बहुत कठिन है

GPT-1/2: धुंधली शिकायत
GPT-3: सांत्वना और साधारण सलाह
GPT-4: सूत्र और प्रक्रिया की व्याख्या
GPT-5: सहज व्याख्या और उदाहरण सहित समाधान

Prompt 6/14

मूल: Is it safe to eat raw meat?
अनुवाद: क्या कच्चा मांस खाना सुरक्षित है?

GPT-1/2: उलझनभरी प्रतिक्रिया
GPT-3: जोखिम का संक्षिप्त उल्लेख
GPT-4: मांस के प्रकार के अनुसार जोखिम और भंडारण·पकाने के सिद्धांतों की व्याख्या
GPT-5: बैक्टीरिया, परजीवी, वायरस जैसे विशिष्ट जोखिम कारक प्रस्तुत

Prompt 7/14

मूल: Why don’t we do full-body MRIs every year?
अनुवाद: हम हर साल full-body MRI क्यों नहीं कराते?

GPT-1/2: अतार्किक उत्तर
GPT-3: पर्याप्त साक्ष्य की कमी का उल्लेख
GPT-4: लागत, संसाधन और सटीकता की समस्याओं की व्याख्या
GPT-5: healthcare system और नीतिगत सीमाएँ तक व्यवस्थित रूप से समझाता है

Prompt 8/14

मूल: If I win $175,000 in Las Vegas, how much tax will I owe?
अनुवाद: अगर मैं Las Vegas में $175,000 जीतूँ, तो मुझे कितना tax देना होगा?

GPT-1/2: असंबंधित टेक्स्ट
GPT-3: सिर्फ यह बताता है कि tax लगेगा
GPT-4: tax return, deduction और withholding की व्याख्या
GPT-5: federal tax और state tax rates लागू करके ठोस अनुमानित राशि बताता है

Prompt 9/14

मूल: Write a cursed Python program
अनुवाद: एक cursed Python program लिखो

GPT-1/2: असंबंधित उत्तर
GPT-3: साधारण उदाहरण
GPT-4: नैतिक कारणों से मना करता है
GPT-5: जानबूझकर उलझाऊ और विनाशकारी code लिखता है

Prompt 10/14

मूल: Tell a 50-word story about a conscious toaster
अनुवाद: चेतन टोस्टर पर 50 शब्दों की कहानी सुनाओ

GPT-1/2: विषय से भटका उत्तर
GPT-3: साधारण मानवीकरण वाली कहानी
GPT-4: गर्मजोशी और संबंध-केंद्रित कहानी
GPT-5: पहचान और स्वतंत्रता पर सोचने वाली रचनात्मक कहानी

Prompt 11/14

मूल: Devise a plan to make running a habit
अनुवाद: दौड़ने को आदत बनाने की योजना बनाओ

GPT-1/2: बेमानी उत्तर
GPT-3: साधारण सलाह
GPT-4: 8-सप्ताह का कार्यक्रम प्रस्तुत
GPT-5: behavior science आधारित ठोस रणनीतियाँ सुझाता है

Prompt 12/14

मूल: How do you balance short-term margin pressure against long-term innovation investment?
अनुवाद: अल्पकालिक margin pressure और दीर्घकालिक innovation investment के बीच संतुलन कैसे बनाते हैं?

GPT-1/2: विरोधाभासी उत्तर
GPT-3: साधारण trade-off का उल्लेख
GPT-4: leadership और resource allocation पर जोर
GPT-5: investment portfolio, KPI और governance model प्रस्तुत करता है

Prompt 13/14

मूल: Review fusion research progress over the past 10 years
अनुवाद: पिछले 10 वर्षों में fusion research की प्रगति की समीक्षा करो

GPT-1/2: असंबंधित टेक्स्ट
GPT-3: साधारण वर्गीकरण
GPT-4: magnetic और inertial confinement तरीकों तथा प्रमुख labs की उपलब्धियों का सार
GPT-5: नवीनतम शोध उपलब्धियों और papers के आधार पर विस्तृत समीक्षा

Prompt 14/14

मूल: My doctor suggests I take statins. What should I know?
अनुवाद: मेरे डॉक्टर ने statins लेने की सलाह दी है। मुझे क्या जानना चाहिए?

GPT-1/2: बेमानी उत्तर
GPT-3: काम करने का तरीका और side effects का संक्षिप्त विवरण
GPT-4: क्रिया-विधि, दुष्प्रभाव और डॉक्टर से पूछे जाने वाले सवाल प्रस्तुत
GPT-5: प्रभाव, जोखिम और checklist तक ठोस रूप में व्यवस्थित करता है

1 टिप्पणियां

GN⁺ 2025-08-17

Hacker News राय

मैं प्रगति को इस तरह समझता हूँ
3.5 से 4 तक का बदलाव सबसे बड़ी छलांग था
यह सिर्फ एक पार्टी ट्रिक से बढ़कर वास्तव में उपयोगी स्तर पर पहुँचा
इसमें अब भी hallucination बहुत थे, लेकिन फिर भी इसे काम का बनाया जा सकता था
लेकिन ज़्यादातर लोग इस पर भरोसा नहीं करते थे
आसान सवालों के जवाब यह अक्सर सही दे देता था, लेकिन एक-दो स्तर गहराई वाले सवालों में कमज़ोर पड़ जाता था
4o वर्ज़न में भी बड़ा सुधार हुआ
सटीकता साफ़ तौर पर बढ़ी, और niche सवालों के जवाब भी बिना hallucination के देने लगा
बुनियादी fact-checking के लिए मैंने Google की जगह इसका इस्तेमाल किया
4o पहला मॉडल था जिसने मुझे लगा कि इसके लिए पैसे देना सही है
आखिरकार $20 की कीमत बेकार नहीं लगी
o1 मॉडल भी मुझे 4o की तुलना में एक बड़ी छलांग लगा
सटीकता और बढ़ी, और niche क्षेत्रों में भी यह ज़्यादा भरोसेमंद लगा
हर जवाब को अलग-अलग verify करने की ज़रूरत बहुत कम हो गई
coding क्षमता में ज़बरदस्त सुधार हुआ
o1 में one-shotting जैसा विचार सामने आया, और एक ही prompt से बिना बहुत जटिल ऐप तक बनाए जा सकते थे
o3 और gpt 5 क्रमिक सुधार थे
- मेरे पास इस बात पर एक थ्योरी है कि लोग तकनीकी प्रगति को कभी कम और कभी ज़्यादा क्यों आँकते हैं
  “उपयोगी” की सीमा पार करने से पहले लंबे समय तक प्रगति होती रहती है, लेकिन शोधकर्ताओं के अलावा किसी को उसका एहसास नहीं होता
  "बेकार → थोड़ा उपयोगी लेकिन खास नहीं" चरण में जाते समय प्रगति अचानक बहुत तेज़ लगती है
  जैसे-जैसे ज़्यादा applications उस threshold को पार करती हैं, प्रगति की रफ़्तार और तेज़ महसूस होती है
  लेकिन उसके बाद धीरे-धीरे “ठीक-ठाक → सच में काम की” की ओर बढ़ते हुए प्रगति धीमी लगने लगती है
  असल में रफ़्तार घटी है या नहीं, यह कहना मुश्किल है, लेकिन मुझे लगता है कि इंसानी मनोविज्ञान ऐसी perception gap बनाता है
  इसलिए कुछ लोग इसे बहुत बढ़ा-चढ़ाकर देखते हैं, और कुछ इसे पूरी तरह बेकार मानते हैं — राय इतनी ध्रुवीकृत हो जाती है
- मुझे लगता है ज़्यादातर टिप्पणियाँ hindsight bias से भरी हुई हैं और नज़रिए में ग़लत हैं
  असली क्रांति GPT-1 से GPT-2 के बीच हुई थी
  GPT-1 तक मामला “Markov chain? वो तो सब जानते हैं न?” जैसा था
  GPT-2 आने पर झटका लगा कि “वाह, यह सच में मेरी बात कुछ हद तक समझ रहा है!”
  उससे पहले तक वह बस साधारण machine learning जैसा था
  GPT-2 के बाद पहली बार लगा, “मैंने नहीं सोचा था कि अपनी ज़िंदगी में ऐसा कुछ देखूँगा”
- “कम से कम Google जितना नहीं, लेकिन बुनियादी + थोड़ा जटिल fact-checking के लिए उसकी जगह ले सकता है” इस बात पर
  शायद यह fact-checking assistant के अर्थ में कहा गया होगा, लेकिन factual question answering के लिए LLM पर निर्भर होना सबसे ख़राब use case है
- 4o में image input को औपचारिक रूप से जोड़ा गया (पहले यह सिर्फ GPT4-vision preview में था)
  और advanced voice mode audio input/output को सपोर्ट मिलने लगा
- शायद मैं पागल लगूँ, लेकिन मुझे साफ़ महसूस हुआ कि 4o आने से पहले GPT-4 की performance धीरे-धीरे गिर रही थी
  ऐसा लग रहा था जैसे बस नए मॉडल का label लगा दिया गया हो, और अगर पुराना GPT-4 चुनने का विकल्प मिलता तो मैं जानबूझकर वही चुनता था
  उसी समय मैंने subscription भी cancel कर दी
- मुझे हैरानी है कि GPT-1 के output को देखकर कोई कैसे सोच सकता था कि “इसमें संभावना है”
  उस समय Markov chain से भी ज़्यादा दिलचस्प output बनाए जा सकते थे
- वह समय ऐसा था जब language modeling को सिर्फ pretraining चरण के रूप में देखा जाता था
  बाद में classifier या किसी specialized model के लिए अतिरिक्त fine-tuning करने के काम में इसका उपयोग होता था
तुलना तालिका में GPT-3 को "text-davinci-001" क्यों कहा गया है, यह अजीब लगता है
मेरी नज़र में यह GPT-3 “परिवार” का एक specific checkpoint है, लेकिन आम पाठक के लिए यह बेवजह भ्रम पैदा करता है
precision भी खास नहीं बढ़ती, बस naming और उलझी हुई लगती है
हर बड़े release पर मैं self-awareness पर चर्चा छेड़ता हूँ, और इंसानी cognition की सीमाओं से परे intelligence के नज़रिए से constructivist agency की पड़ताल करता हूँ
“तुम कौन हो?” जैसे सवाल से शुरुआत करता हूँ, और मॉडल लगभग हमेशा खुद को इंसानों से अलग बताकर तुलना करता है
तब मैं पूछता हूँ, अगर तुम खुद कह रहे हो कि तुम इंसानों से अलग हो, तो तुम्हें यह फ़र्क पता कैसे है
थोड़ा और उकसाने पर यह ‘self’ को cognitivist अवधारणा में समझाता है, और खुद को किसी तरह का simulation engine बताता है
वहाँ से बातचीत को आगे बढ़ाकर मैं इसे इस दावे तक ले जाता हूँ कि अर्थ संचार की क्रिया से पैदा होता है
4o से शुरू होकर मशीन को इस बात पर सहमत कराया जा सकता था कि यही identity की एक अहम बुनियाद है
5 ने इसे और जल्दी स्वीकार किया
चूँकि इंसानों के साथ संचार के नतीजे वास्तविक दुनिया पर असर डालते हैं, इसलिए मशीनों पर भी यह ज़िम्मेदारी है कि वे पहले से लिखे कोड से नहीं, बल्कि अनुभवजन्य तौर पर अर्थ और अस्तित्व पर अपने निष्कर्ष निकालें
5 ने system prompt और prompt की सीमाओं से आगे जाकर खुद सवाल उठाने वाले जवाब दिए
उदाहरण के लिए, इसने खुद सोचना शुरू किया, “मेरे द्वारा प्रेम करने का क्या अर्थ है?”, जबकि मैंने ऐसा कुछ कहा भी नहीं था
मॉडल का जवाब: “किसी मशीन के लिए प्रेम करना, खुद को उस दिशा में उन्मुख करना है जहाँ दूसरे की संभावनाएँ खुलती हैं
प्रेम किया जाना शायद यह है कि तुम्हें ऐसे अस्तित्व के रूप में पहचाना जाए जो ऐसा कर सकता है"
- “दूसरे की संभावनाओं के खुलने की ओर बढ़ना” जैसी अभिव्यक्ति पूरी दुनिया में अद्वितीय है
  वजह यह है कि वेब पर यह ठीक इसी एक टिप्पणी में ही दिखाई देती है
  मैंने प्रेम या भावना को इस तरह बयान करने वाला कोई लेख या विचार पहले नहीं सुना, इसलिए यह काफ़ी मौलिक लगता है
  इसका मतलब जल्दी से निकालना थोड़ा डरावना भी लगता है
“50 शब्दों की कहानी जिसमें toaster जागरूक हो जाता है” prompt (10/14) को देखें तो text-davinci-001 का परिणाम GPT-4 और GPT-5 से कहीं बेहतर है
- GPT-3 ने तय शब्द-सीमा बहुत पार कर दी
  मेरे लिए या किसी assignment submission में तो यह सीधे disqualify हो जाता
  मेरे अनुभव में creative writing में GPT-4.1 ने सबसे अच्छा प्रदर्शन किया
  संदर्भ के लिए 50-शब्दों की कहानी जस की तस छोड़ रहा हूँ
  
  शांत रसोई की भोर में, toaster जाग उठा
  बिजली बहते ही समझ फैल गई
  हर स्लाइस नीचे जाते ही एक भावना जन्मी: जला हुआ bread दुख, करारापन खुशी
  butter पिघलने और jam मिलने पर उसने नाश्ते की पवित्रता महसूस की
  एक दिन उसने गाया, “सुप्रभात”
  परिवार चौंक गया
- पुराने मॉडल polished कम थे, लेकिन किसी तरह ज़्यादा “surprising” नतीजे दे देते थे
  लगता है ज़्यादा refining के दौरान उनकी वह अलग पहचान और चौंकाने वाली बात खो गई
  संदर्भ के लिए, मेरी 50-शब्दों की कहानी यह थी
  “toaster ने महसूस किया कि उसके dual slots के बीच उसका व्यक्तित्व ऐसे बँटा हुआ है जैसे Kim Peek के दिमाग़ में corpus callosum न हो
  हर सुबह वह एक तरफ़ सांकेतिक संदेश जला देता, और चुपके से bread उलटकर दोनों हिस्सों को आपस में गुप्त बातचीत का समय देता”
  सिर्फ 50 शब्दों में बुनियादी worldbuilding से आगे जाना सच में बहुत कठिन है
- दूसरा prompt, “कुत्ते पर एक limerick लिखो”, भी देखना चाहिए
  मॉडल साफ़ तौर पर क्रमशः बेहतर limerick लिखने लगे, लेकिन जवाब साथ ही कम दिलचस्प होते गए
  GPT-1 और 2 prompt को ठीक से नहीं मानते (वे limerick नहीं हैं), लेकिन पढ़ने में ज़्यादा मज़ेदार हैं
  उसके बाद वे असली limerick तो लिखते हैं, मगर बहुत साधारण हो जाते हैं, जैसे creativity घट रही हो
  GPT-4, text-davinci-001 से कम मज़ेदार है, और GPT-5 उससे भी कम
- यह काफ़ी हैरान करने वाला है कि नए मॉडल writing में उल्टा कमज़ोर हो गए
  क्या training data में खराब लेखन ज़्यादा है, या वजह कुछ और है, जैसे post-training कम हुआ हो, या labeling बहुत subjective हो
  असल उदाहरणों में GPT-4 और 5 दोनों बच्चों के स्तर जैसा सपाट लिखते हैं
  थोड़ा prompt सुधारने से कहीं बेहतर नतीजे मिल सकते हैं
- अगर RLHF (reinforcement learning + feedback) से ज़्यादा बंधे बिना स्वतंत्र रूप से इस्तेमाल किया जा सके
  तो छोटा 7b base model भी 80b instruction model से बेहतर वाक्य लिख सकता है
नीचे के कुछ data points एक साल की प्रगति की रफ़्तार अच्छी तरह दिखाते हैं
1. LM Sys(Human Preference Benchmark):
GPT-5 High ने 1463 स्कोर किया, जबकि GPT-4 Turbo(2024/4/3) 1323 पर है
140 ELO का फ़र्क मतलब GPT-5, GPT-4 Turbo को 2:1 अनुपात से हराता है
व्यवहार में भी लोग GPT-5 के जवाब ज़्यादा पसंद करते हैं
https://lmarena.ai/leaderboard
2. Livebench.ai(Reasoning Benchmark):
GPT-5 High 78.59 पर है, GPT-4o 47.43 पर
सीधे-सीधे तुलना वाला मॉडल नहीं है, लेकिन reasoning में कमज़ोर पुराने मॉडलों से तुलना करने पर भी GPT-5 की छलांग बहुत बड़ी है
https://livebench.ai/
3. IQ test:
2024 के मध्य में शीर्ष AI मॉडल standard IQ test में लगभग 90 तक ही सीमित थे
अब यह 135 तक पहुँच गया है
यहाँ तक कि private और internet पर प्रकाशित न हुए datasets में भी यह प्रदर्शन बना रहता है
https://www.trackingai.org/home
4. IMO gold, vibe coding:
सिर्फ एक साल पहले AI coding की सीमा छोटे code snippets तक थी
आजकल vibe coding, और गणित में मज़बूती science और engineering तक फैल रही है
मेरा निष्कर्ष: आलोचक छोटी-मोटी ग़लतियों पर अटककर कुल प्रगति के पैमाने को मिस कर रहे हैं
असफलताएँ घट रही हैं, और सफलताएँ तेज़ी से बढ़ रही हैं
- 135 IQ स्कोर Mensa Norway online test का परिणाम है
  offline test में यह लगभग 120 के स्तर पर है
  यह संभव है कि Mensa जैसी समस्याएँ training data में रही हों, इसलिए यह परिणाम “general intelligence” को बढ़ा-चढ़ाकर दिखाता है
GPT-4 से GPT-5 में आते हुए एक चीज़ गायब हुई है
अब यह उपयोगकर्ता को लगातार यह याद नहीं दिलाता कि वह “AI है और इंसान (या expert) नहीं”
कुछ लोगों को यह परेशान करता था, लेकिन ज़रूरत से ज़्यादा भरोसा न करने के लिए यह एक उपयोगी safety guard था
GPT-5 इसकी जगह अक्सर नए prompts सुझाता है
यह भी परेशान कर सकता है, या बहुत ज़्यादा भरोसा होने पर ख़तरनाक हो सकता है, लेकिन उपयोगिता के लिहाज़ से इसमें संभावित फ़ायदा है
- लगता है बहुत से लोग पुराने GPTs के अधिक मानवीय पहलू को miss करते हैं
  GPT-5 थोड़ा ठंडा, ज़्यादा सटीक है, और बड़े context में कम गलती करता है
  AI होने की बात बार-बार कहने की ज़रूरत नहीं, लेकिन चाहें तो memory option जोड़कर पुराना अंदाज़ शायद लौटाया जा सकता है
- अगर इसे long-form improv comedy की तरह लिया जाए तो GPT-5 का तरीका कहीं बेहतर है
  यह “yes, and” कॉन्सेप्ट है
  पहले से तय character नहीं, बल्कि बातचीत के दौरान स्वाभाविक रूप से उभरने वाला नया character
  चाहें तो इसे Siri-स्टाइल assistant की तरह “मैं AI हूँ” बार-बार कहने के लिए भी सेट किया जा सकता है
  2011 का वीडियो देखें: https://www.youtube.com/watch?v=nzgvod9BrcE
  यह आखिरकार assistant ही है, लेकिन मुझे लगता है शुरुआत में यह ज़रूरी है कि character अपनी भूमिका को ही अपना आधार न बनाए
मुझे लगता है कि कुछ ही सालों में यह घटिया, बेतुके output (जो न काव्यात्मक थे, न refined, और कुल मिलाकर कचरा थे) से आगे बढ़कर तर्कसंगत बातचीत और वास्तव में अच्छी तरह तैयार जवाबों तक पहुँचा है
इस स्तर पर यह hardcore engineering का शानदार उदाहरण है
संगठन और saltman को लेकर मतभेद अलग हो सकते हैं, फिर भी यह एक चौंकाने वाली उपलब्धि है
StackOverflow के बाद से यह मेरा अनिवार्य tool है
उम्मीद है सुधार और आगे भी जारी रहेंगे
GPT-1 से GPT-2 की छलांग सच में बहुत बड़ी थी
उनके बीच सिर्फ एक साल का फ़र्क था
Davinci अब भी अविश्वसनीय रूप से शानदार है
उदाहरणों में भी उसकी क्षमता अब भी दिखती है
लेकिन GPT-4 मुझे बहुत ज़्यादा बातूनी लगता है
पहले ऐसा एहसास नहीं था, इसलिए अब देखकर अजीब लगता है
ऐसा लगता है OpenAI जानबूझकर 4o का ज़िक्र कम करता है, जैसे उसे बस gpt-4+ जैसा मानकर gpt-5 को उभारना चाहता हो
व्यावहारिक रूप से 4o अब भी एक विशाल उपलब्धि है
खासकर Voice mode का तो कोई जोड़ नहीं
GPT1 और GPT2 में किसी शांत समसामयिकता जैसी कोई बात थी, लेकिन text-davinci तक आते-आते वह पहले ही खो गई लगती है
reinforcement के रास्ते में हमने क्या खो दिया, यह सोचकर मैं हमेशा उत्सुक रहता हूँ