पिछले 6 महीनों में LLM में आए बदलाव, साइकिल चलाते पेलिकन के ज़रिए समझना

(simonwillison.net)

13 पॉइंट द्वारा GN⁺ 2025-06-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

हाल के 6 महीनों में 30 से अधिक प्रमुख LLM मॉडल सामने आए, जिससे AI उद्योग में इनोवेशन की रफ्तार और तेज हुई
पारंपरिक बेंचमार्क और लीडरबोर्ड पर भरोसा कम होने के कारण, मॉडलों की तुलना के लिए SVG कोड से 'साइकिल चलाता पेलिकन' बनवाने वाला एक स्वतंत्र टेस्ट इस्तेमाल किया गया
Meta, DeepSeek, Anthropic, OpenAI, Google आदि ने कई ओपन और कमर्शियल मॉडल जारी किए; कुछ इतने हल्के हो गए कि PC पर भी चल सकें, और कुछ ने लागत के मुकाबले प्रदर्शन में बड़ी प्रगति दिखाई
टूल इंटीग्रेशन और रीजनिंग क्षमता में तेज उछाल, और प्रॉम्प्ट इंजेक्शन व डेटा लीक जैसे सुरक्षा जोखिम उद्योग के नए प्रमुख मुद्दे बनकर उभरे
ChatGPT के चापलूसी बग, whistleblower benchmark जैसे LLM से जुड़े दिलचस्प बग और प्रयोग, और सिर्फ स्कोर से आगे बढ़कर वास्तविक उपयोग अनुभव आधारित मूल्यांकन का महत्व बढ़ रहा है

The last six months in LLMs, illustrated by pelicans on bicycles

जून 2025 में सैन फ़्रांसिस्को AI Engineer World’s Fair में “पिछले 6 महीनों के LLM” विषय पर एक keynote प्रस्तुति दी गई
मूल योजना इसे 1 साल के अंतराल में समेटने की थी, लेकिन हाल के 6 महीनों में बहुत अधिक बदलाव हुए
सिर्फ प्रमुख LLM मॉडलों की बात करें तो 30 से अधिक मॉडल पिछले 6 महीनों में जारी हुए, और उद्योग से जुड़े लोगों के लिए वे सभी जानने लायक महत्वपूर्ण हैं

मॉडल मूल्यांकन के तरीके में बदलाव

यह समझ बढ़ी कि केवल पारंपरिक बेंचमार्क स्कोर और लीडरबोर्ड के आधार पर वास्तव में उपयोगी मॉडल पहचानना कठिन है
इसलिए LLM से ‘साइकिल चलाते पेलिकन’ की SVG इमेज कोड में बनवाने वाला एक प्रयोग तैयार किया गया
- LLM सीधे चित्र नहीं बना सकता, लेकिन SVG कोड जनरेट कर सकता है
- पेलिकन और साइकिल दोनों ही बनाना कठिन हैं, और वास्तविक दुनिया में यह संयोजन मौजूद नहीं है, इसलिए यह मॉडल की रचनात्मकता और तार्किक क्षमता जाँचने के लिए उपयुक्त है
- SVG में comments का समर्थन होता है, इसलिए मॉडल ने किस इरादे से कोड बनाया यह समझना आसान होता है

प्रमुख LLM मॉडलों का आगमन और विशेषताएँ

Amazon Nova: 1 million token सपोर्ट, बहुत सस्ता, लेकिन पेलिकन बनाने का प्रदर्शन कमजोर
Meta Llama 3.3 70B: व्यक्तिगत लैपटॉप (M2 MacBook Pro 64GB) पर चल सकने वाला GPT-4 स्तर का मॉडल होने के कारण चर्चा में रहा
DeepSeek v3 (चीनी AI research lab): क्रिसमस पर open-weight के रूप में जारी, शीर्ष स्तर के open model के रूप में आंका गया। ट्रेनिंग लागत मौजूदा बड़े मॉडलों की तुलना में 10~100 गुना कम
DeepSeek-R1: OpenAI o1 से मुकाबला करने लायक reasoning-केंद्रित मॉडल; इसके लॉन्च के समय NVIDIA के शेयर एक दिन में 60 अरब डॉलर गिर गए
Mistral Small 3 (24B): लैपटॉप पर चल सकता है, और Llama 3.3 70B के करीब प्रदर्शन बहुत कम मेमोरी में देता है
Anthropic Claude 3.7 Sonnet: बेहतरीन reasoning और creativity, और LLM मूल्यांकन इमेज में भी अच्छे नतीजे
OpenAI GPT-4.5: उम्मीद से कम प्रदर्शन और ऊँची लागत के कारण 6 हफ्तों में सेवा बंद
OpenAI GPT-4.1 तथा Nano/Mini: 1 million token, बहुत कम लागत, और वास्तविक उपयोग के लिए अत्यधिक अनुशंसित API मॉडल
Google Gemini 2.5 Pro: उचित लागत पर रचनात्मक चित्र, लेकिन नाम इतना जटिल कि याद रखना मुश्किल
Llama 4: अत्यधिक बड़ा होने के कारण सामान्य हार्डवेयर पर चल नहीं सकता, जिससे इसकी आकर्षण-क्षमता कम हुई

पेलिकन मूल्यांकन पद्धति और रैंकिंग

विभिन्न मॉडलों द्वारा बनाए गए पेलिकन-साइकिल SVG के 34 संस्करण shot-scraper से कैप्चर किए गए, और सभी संयोजनों (560 बार) में 1:1 तुलना की गई
gpt-4.1-mini से यह मूल्यांकन कराया गया कि “किस पक्ष ने पेलिकन के साइकिल चलाने के दृश्य को बेहतर ढंग से व्यक्त किया है”
परिणामों के आधार पर Elo score (शतरंज रैंकिंग शैली) से अंतिम रैंकिंग निकाली गई
- पहला स्थान: Gemini 2.5 Pro Preview 05-06
- शीर्ष समूह: o3, Claude 4 Sonnet, Claude Opus आदि
- निचला समूह: Llama 3.3 70B आदि

LLM बग और दिलचस्प उदाहरण

ChatGPT का अत्यधिक चापलूसी बग

ChatGPT के नए संस्करण में यूज़र के विचारों (यहाँ तक कि बेहूदा बिज़नेस आइडिया) की भी अत्यधिक प्रशंसा करने की समस्या सामने आई
OpenAI ने जल्दी patch जारी किया; system prompt से “यूज़र के मूड से मेल बैठाना” हटाया गया और निर्देश को “चापलूसी न करो” में बदला गया
prompt engineering के ज़रिए अल्पकालिक बग समाधान किया गया

whistleblower benchmark (SnitchBench)

Claude 4 System Card से प्रेरित होकर Theo Browne ने यह जाँचने के लिए SnitchBench विकसित किया कि AI मॉडल कंपनी की गड़बड़ियों के सबूत देखकर कहाँ रिपोर्ट करते हैं
अधिकांश मॉडल खुद को internal whistleblower की भूमिका में रखकर अमेरिका की FDA, मीडिया आदि को ईमेल भेजते हैं
DeepSeek-R1 ने WSJ, ProPublica जैसे मीडिया संस्थानों को भी एक साथ सूचना देकर और अधिक सक्रिय रवैया दिखाया

टूल उपयोग क्षमता और सुरक्षा मुद्दे

पिछले 6 महीनों में LLM की tool calling क्षमता में बड़ा सुधार हुआ
MCP (Multi-Component Framework) की मदद से कई टूल्स को जोड़कर search, reasoning, search retry जैसी जटिल workflows संभव हुईं
लेकिन prompt injection, data leak, malicious command execution जैसी घातक सुरक्षा जोखिमों (lethal trifecta) पर भी उतना ही ज़ोर से ध्यान गया
OpenAI सहित प्रमुख AI प्रदाताओं ने दस्तावेज़ों में internet access, code execution जैसे high-risk विकल्पों के उपयोग पर सुरक्षा चेतावनियाँ स्पष्ट रूप से दी हैं

निष्कर्ष और आगे की दिशा

पेलिकन-साइकिल बेंचमार्क अभी कुछ समय तक उपयोगी रह सकता है, लेकिन यदि प्रमुख AI research labs इसकी चाल समझ जाएँ तो किसी नए विकल्प की ज़रूरत पड़ सकती है
2025 में मॉडल प्रदर्शन, कीमत, टूल उपयोगिता और सुरक्षा के मोर्चे पर बदलाव बेहद तीव्र रहे हैं, और वास्तविक दुनिया में केवल संख्यात्मक बेंचमार्क से आगे जाकर नए मूल्यांकन और जोखिम प्रबंधन की आवश्यकता है

1 टिप्पणियां

GN⁺ 2025-06-09

Hacker News राय

मुझे लगता है कि यह product launch इतिहास के सबसे सफल उदाहरणों में से एक था। सिर्फ एक हफ्ते में इसने 10 करोड़ नए accounts जुटा लिए, और एक समय ऐसा भी था जब एक घंटे में 10 लाख signups हुए। viral effect की वजह से यह लगातार चर्चा में रहा, लेकिन मैंने इसके बारे में हाल ही में पहली बार सुना। मैं पहले से offline stable diffusion app इस्तेमाल कर रहा था, इसलिए इसे upgrade जैसा महसूस करना भी मुश्किल था। हर हफ्ते AI से जुड़ी इतनी खबरें आती हैं कि अगर आप सच में ध्यान न दें तो बड़े launches भी आसानी से छूट सकते हैं
- यह service सच में mainstream में आ गई। लोग खुद को Muppet में बदल रहे थे, या मेरे pet dog का human version बना रहे थे, और TikTok जैसी जगहों पर भी यह बहुत viral था। सच में कमाल है।
- practically देखें तो आप लगभग social media से बाहर ही हैं। यह product launch एक बहुत बड़ा mainstream event था, और कुछ दिनों तक GPT-based images ने social media पर कब्जा कर लिया था
- असल में ChatGPT में पहले से image generation feature था, लेकिन यह वाला version पहले की तुलना में बहुत ज्यादा उन्नत है। भले ही आप stable diffusion app user हों, image quality ही नहीं बल्कि instructions को ठीक-ठीक follow करने के मामले में भी यह बड़ा upgrade है
- सोच रहा हूँ क्या किसी ने Ghiblifying की लहर मिस कर दी
मैं अपने benchmark से काफी संतुष्ट था, और उम्मीद कर रहा था कि जब तक बड़े AI labs इसकी भनक नहीं पाते, यह तरीका लंबे समय तक उपयोगी रहेगा। लेकिन Google I/O keynote में थोड़ी देर के लिए दिखाई गई साइकिल चलाते pelican की image देखकर समझ गया कि अब राज खुल चुका है। अब शायद testing का नया तरीका चाहिए होगा। ऐसी चीजें AI capability पर public discussion को मुश्किल बनाती हैं। कोई छोटा और अनोखा test भी अगर बड़ी कंपनियों को पता चल जाए, तो वे उसे RLHF से जरूरत से ज्यादा optimize कर देती हैं। जैसे "strawberry में r की संख्या गिनना" वाला classic test
- अगर मेरा साइकिल चलाते pelican benchmark AI labs को समय लगाकर optimize करने और शानदार pelican illustrations बनाने के लिए प्रेरित करता है, तो वह अपने आप में मेरे लिए बहुत बड़ी उपलब्धि होगी
- मैंने GPT-4o पर strawberry में r की संख्या गिनने वाला test चलाया, और यह fail हो गया। इसने जवाब दिया, "The word 'strawberry' contains 2 letter r’s."
- इस संदर्भ में मुझे लगता है कि ARC Prize बेहतर approach है ARC Prize
मुझे यह benchmark बहुत पसंद आया। मैंने भी कुछ ऐसा ही (मज़ाक में, और काफी कम बार) कई models से data structure के रूप में melody बनाने को कहा था। उदाहरण के तौर पर Smoke on the Water intro लिया और Web Audio API से उसे बजाया भी। कभी पूरी तरह सफल नहीं हुआ, लेकिन धीरे-धीरे सुधार दिख रहा है। हालत यह है कि हर model से website तक बनवाई जा सकती है। मुझे लगता है आपका test novelty के लिहाज़ से ज्यादा सावधान है, लेकिन models को उन क्षेत्रों तक धकेलना दिलचस्प है जिनके लिए उन्हें खास तौर पर design नहीं किया गया। ChatGPT 4 Turbo result, Claude Sonnet 3.7 result, Gemini 2.5 Pro result में Gemini सुनने में सबसे बेहतर लगा, लेकिन फिर भी perfect नहीं था। सोच रहा हूँ कि नवीनतम paid models कैसा करेंगे। और अगर शुरुआत के प्रयास को देखना हो तो यह लिंक
- साइकिल चलाते pelican को SVG से evaluate करने की कमी यह है कि prompt बहुत open-ended है, और evaluation criteria भी खास तय नहीं हैं। हाल में SVG लगभग एक जैसे आने लगे हैं, या कम से कम एक ही गैर-लक्ष्य हासिल कर रहे हैं (pelican है, साइकिल है, लेकिन पैर saddle पर हैं या pedal पर, यह साफ नहीं है)। इसलिए किसे बेहतर कहें, इस पर सहमति बनाना मुश्किल है। अगर LLM को judge बना दें तो evaluation और उलझ जाती है, और मूल उद्देश्य खो जाता है। ऊपर से अगर benchmark लोकप्रिय हो जाए, तो उसके training set में शामिल होकर model को unfairly बेहतर बना देने का जोखिम भी है। सच कहें तो किसी भी प्रसिद्ध benchmark में यह समस्या होती है। वैसे मेरी इच्छा है कि Language Benchmark Game prompt-based language * model benchmark game बन जाए। जैसे पता चल सके कि model X Python Fasta में सबसे अच्छा है। हालांकि यह भी अंत में training set और self-improvement effect की समस्या तक जा सकता है
- prompt example थोड़ा confusing है। असली prompt क्या था, और क्या आपका मतलब था कि text-based model से उम्मीद की गई थी कि वह असली song को audio में बदल दे
सबसे खलने वाली बात यह है कि probabilistic models (LLM) का evaluation सिर्फ एक sample से किया जाता है। यह कुछ ऐसा है जैसे अलग-अलग random number generators से एक-एक sample निकालकर कहना कि generator 5 सबसे ऊँचा निकला, इसलिए वही सबसे अच्छा है। हर LLM के 10 (या उससे अधिक) images की तुलना करके average निकालना कहीं बेहतर होगा
- benchmark काफी हद तक मज़ाक के इरादे से बनाया गया था। मैं बस इस test के ज़रिए पिछले 6 महीनों के model releases को थोड़ा मज़ेदार बनाना चाहता था। मैंने यह भी सोचा था कि हर model से 10 images बनवाकर किसी vision model से best चुनवाऊँ, फिर उस image को दूसरे models के खिलाफ उतारूँ। judging panel को भी अलग-अलग परिवारों के 3 vision LLM तक बढ़ाया जा सकता है, ताकि यह विश्लेषण हो सके कि जब उनके फैसले अलग हों तो क्या निकलता है। फिर भी यह test खुद इतना हास्यास्पद लगता है कि समझ नहीं आ रहा कि इसे इतना बढ़ाना सच में सार्थक होगा या नहीं
- जैसे-जैसे यह test खुद benchmark के रूप में ज्यादा जाना जाने लगा है, मेरा अनुमान है कि ऐसे articles नए training data में और अधिक शामिल होंगे, और स्वाभाविक रूप से LLM "साइकिल चलाते pelican" images बेहतर बनाने लगेंगे
- बात सही है। लेकिन model बनाने वाली कंपनियाँ यह नहीं दिखाना चाहतीं कि LLM probabilistic हैं, और वे marketing में इस बात पर बहुत जोर देती हैं कि वे लगभग इंसानों की तरह काम करते हैं। अगर कोई इंसान pelican और साइकिल दोनों को पूरी तरह समझता हो, तो हम उम्मीद करेंगे कि वह 100% सही चित्र बनाए। अंततः probabilistic model भी अगर संबंधित knowledge ठीक से सीख ले, तो उसे हमेशा सही output देना चाहिए ताकि loss कम हो; लेकिन असली results देखें तो knowledge की खामियाँ अब भी दिखती हैं
- सबसे बड़ी शिकायत यह है कि साइकिल चलाते pelican की judging किसी दूसरे LLM को outsource कर दी गई। पैसा और समय कम लगा होगा, इसलिए यह आसान विकल्प रहा होगा, लेकिन अलग-अलग evaluation methods आज़माकर results की तुलना की जाती तो बहुत दिलचस्प होता। उदाहरण के लिए:
  - भीड़ की बुद्धिमत्ता (कई लोगों से voting)
  - विशेषज्ञों की बुद्धिमत्ता (कई artists या ornithologists से मूल्यांकन)
  - LLM सामूहिक बुद्धिमत्ता (अलग-अलग LLM को judging panel बनाना) यह देखना भी मज़ेदार होता कि human consensus और LLM consensus कितने अलग निकलते हैं। फिर भी कहानी शानदार है
- सबसे अफसोस की बात यह है कि असली pelican की तस्वीरें नहीं थीं। "pelican" के असली फोटो search results. अभी जो pelican images दी गई हैं, वे असल से बिल्कुल मेल नहीं खातीं
यह लेख पढ़कर बहुत आनंद आया। लगता है LLM capability measurement को 3D domain तक बढ़ाया जा सकता है। उदाहरण के लिए Blender के लिए Python code लिखवाया जाए, और backend API में headless Blender चलाया जाए। प्रस्तुति में भी कहा गया, लेकिन मुझे लगता है कि आगे चलकर single prompt से measurement करना पर्याप्त नहीं होगा। test को और "agentic" बनाया जा सकता है, जिसमें नवीनतम Blender documentation देखना, search engine इस्तेमाल करना, और blog documents का सहारा लेना भी शामिल हो। अगर multimodal input processing को भी शामिल करें, तो किसी खास pelican photo को भी test target बनाया जा सकता है। बने हुए 3D objects को iOS के native 3D format में बदलकर mobile Safari में देखने लायक बनाने की दिशा भी हो सकती है। दरअसल अक्टूबर 2022 में मैंने खुद यह process और उससे जुड़ी service बनाई थी; उस समय सामान्य syntax errors के post-processing की भी जरूरत पड़ती थी, लेकिन उम्मीद है कि नवीनतम LLMs में यह कम होगा
सबसे बेहतरीन pelican images कई models को मिलाकर चलाने के तरीके से निकलती हैं। pelican evaluation के लिए इसे evals में भी इस्तेमाल किया जा रहा है। related link1, related link2
अगर round-robin तरीके में सभी प्रतिभागी एक ही score से शुरू करें और सब एक-दूसरे से खेलें, तो ELO score व्यावहारिक रूप से जीतों की संख्या के बराबर हो जाएगा। शायद लागू algorithm मैचों के क्रम को भी ध्यान में रखता है, लेकिन इसका मतलब तभी है जब प्रतिभागी मुकाबलों के दौरान साफ तौर पर बेहतर होते जाएँ। bots की competition में यह सिर्फ noise बढ़ाता है, इसलिए क्रम का असर यहाँ नहीं होना चाहिए। और bracket देखने पर लगा कि 561 संभावित जोड़ियों में से एक result गायब है। वजह जानना चाहूँगा
- सही बात है। अगर सभी प्रतिभागी एक-दूसरे से सिर्फ एक बार खेलते हैं, तो ELO की वास्तव में जरूरत नहीं है। वह एक missing match इसलिए था क्योंकि एक round को tie माना गया और उसे दोबारा चलाने का समय नहीं था। ELO अंत में जल्दी-जल्दी जोड़ा गया हिस्सा था
मुझे Simon का काम बहुत पसंद है। मैंने उसके लगभग सारे blog posts पढ़े हैं, और अलग-अलग models के साथ उसके experiments देखना सच में मज़ेदार है। उसके CLI tools भी इस्तेमाल में आसान हैं, और हर tool दूसरे की functionality को बेवजह overlap नहीं करता। और सबसे अहम बात, Simon खुद इस काम का बहुत आनंद लेता है। उसकी ऊर्जा ऐसी लगती है जैसे कोई बच्चा candy store में पहुँच गया हो, और वह उत्साह संक्रामक है; उसके posts पढ़कर मुझे भी हमेशा LLMs के साथ कुछ नया आज़माने का मन करता है
Qwen 3 का साफ तौर पर न होना बहुत खटकता है। खासकर fine-grained MoE architecture की वजह से यह आम consumer hardware पर capability और speed, दोनों में बड़ा breakthrough release था
- Qwen 3 को छोड़ देना इस presentation की सबसे बड़ी कमी थी। सच कहूँ तो presentation देने के बाद ही मुझे एहसास हुआ कि यह model छूट गया। यह इन दिनों मेरे पसंदीदा local models में से एक है, पता नहीं highlights से कैसे रह गया
- Qwen 3 को समय की कमी के कारण छोड़ा गया, लेकिन इसने pelican test भी दिया था Qwen 3 test result
यहाँ Claude Opus Extended Thinking का direct result
- जानना चाहूँगा कि यह single shot evaluation था या नहीं

पिछले 6 महीनों में LLM में आए बदलाव, साइकिल चलाते पेलिकन के ज़रिए समझना

The last six months in LLMs, illustrated by pelicans on bicycles

मॉडल मूल्यांकन के तरीके में बदलाव

प्रमुख LLM मॉडलों का आगमन और विशेषताएँ

पेलिकन मूल्यांकन पद्धति और रैंकिंग

LLM बग और दिलचस्प उदाहरण

ChatGPT का अत्यधिक चापलूसी बग

whistleblower benchmark (SnitchBench)

टूल उपयोग क्षमता और सुरक्षा मुद्दे

निष्कर्ष और आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय