- हाल के 6 महीनों में 30 से अधिक प्रमुख LLM मॉडल सामने आए, जिससे AI उद्योग में इनोवेशन की रफ्तार और तेज हुई
- पारंपरिक बेंचमार्क और लीडरबोर्ड पर भरोसा कम होने के कारण, मॉडलों की तुलना के लिए SVG कोड से 'साइकिल चलाता पेलिकन' बनवाने वाला एक स्वतंत्र टेस्ट इस्तेमाल किया गया
- Meta, DeepSeek, Anthropic, OpenAI, Google आदि ने कई ओपन और कमर्शियल मॉडल जारी किए; कुछ इतने हल्के हो गए कि PC पर भी चल सकें, और कुछ ने लागत के मुकाबले प्रदर्शन में बड़ी प्रगति दिखाई
- टूल इंटीग्रेशन और रीजनिंग क्षमता में तेज उछाल, और प्रॉम्प्ट इंजेक्शन व डेटा लीक जैसे सुरक्षा जोखिम उद्योग के नए प्रमुख मुद्दे बनकर उभरे
- ChatGPT के चापलूसी बग, whistleblower benchmark जैसे LLM से जुड़े दिलचस्प बग और प्रयोग, और सिर्फ स्कोर से आगे बढ़कर वास्तविक उपयोग अनुभव आधारित मूल्यांकन का महत्व बढ़ रहा है
The last six months in LLMs, illustrated by pelicans on bicycles
- जून 2025 में सैन फ़्रांसिस्को AI Engineer World’s Fair में “पिछले 6 महीनों के LLM” विषय पर एक keynote प्रस्तुति दी गई
- मूल योजना इसे 1 साल के अंतराल में समेटने की थी, लेकिन हाल के 6 महीनों में बहुत अधिक बदलाव हुए
- सिर्फ प्रमुख LLM मॉडलों की बात करें तो 30 से अधिक मॉडल पिछले 6 महीनों में जारी हुए, और उद्योग से जुड़े लोगों के लिए वे सभी जानने लायक महत्वपूर्ण हैं
मॉडल मूल्यांकन के तरीके में बदलाव
- यह समझ बढ़ी कि केवल पारंपरिक बेंचमार्क स्कोर और लीडरबोर्ड के आधार पर वास्तव में उपयोगी मॉडल पहचानना कठिन है
- इसलिए LLM से ‘साइकिल चलाते पेलिकन’ की SVG इमेज कोड में बनवाने वाला एक प्रयोग तैयार किया गया
- LLM सीधे चित्र नहीं बना सकता, लेकिन SVG कोड जनरेट कर सकता है
- पेलिकन और साइकिल दोनों ही बनाना कठिन हैं, और वास्तविक दुनिया में यह संयोजन मौजूद नहीं है, इसलिए यह मॉडल की रचनात्मकता और तार्किक क्षमता जाँचने के लिए उपयुक्त है
- SVG में comments का समर्थन होता है, इसलिए मॉडल ने किस इरादे से कोड बनाया यह समझना आसान होता है
प्रमुख LLM मॉडलों का आगमन और विशेषताएँ
- Amazon Nova: 1 million token सपोर्ट, बहुत सस्ता, लेकिन पेलिकन बनाने का प्रदर्शन कमजोर
- Meta Llama 3.3 70B: व्यक्तिगत लैपटॉप (M2 MacBook Pro 64GB) पर चल सकने वाला GPT-4 स्तर का मॉडल होने के कारण चर्चा में रहा
- DeepSeek v3 (चीनी AI research lab): क्रिसमस पर open-weight के रूप में जारी, शीर्ष स्तर के open model के रूप में आंका गया। ट्रेनिंग लागत मौजूदा बड़े मॉडलों की तुलना में 10~100 गुना कम
- DeepSeek-R1: OpenAI o1 से मुकाबला करने लायक reasoning-केंद्रित मॉडल; इसके लॉन्च के समय NVIDIA के शेयर एक दिन में 60 अरब डॉलर गिर गए
- Mistral Small 3 (24B): लैपटॉप पर चल सकता है, और Llama 3.3 70B के करीब प्रदर्शन बहुत कम मेमोरी में देता है
- Anthropic Claude 3.7 Sonnet: बेहतरीन reasoning और creativity, और LLM मूल्यांकन इमेज में भी अच्छे नतीजे
- OpenAI GPT-4.5: उम्मीद से कम प्रदर्शन और ऊँची लागत के कारण 6 हफ्तों में सेवा बंद
- OpenAI GPT-4.1 तथा Nano/Mini: 1 million token, बहुत कम लागत, और वास्तविक उपयोग के लिए अत्यधिक अनुशंसित API मॉडल
- Google Gemini 2.5 Pro: उचित लागत पर रचनात्मक चित्र, लेकिन नाम इतना जटिल कि याद रखना मुश्किल
- Llama 4: अत्यधिक बड़ा होने के कारण सामान्य हार्डवेयर पर चल नहीं सकता, जिससे इसकी आकर्षण-क्षमता कम हुई
पेलिकन मूल्यांकन पद्धति और रैंकिंग
- विभिन्न मॉडलों द्वारा बनाए गए पेलिकन-साइकिल SVG के 34 संस्करण shot-scraper से कैप्चर किए गए, और सभी संयोजनों (560 बार) में 1:1 तुलना की गई
- gpt-4.1-mini से यह मूल्यांकन कराया गया कि “किस पक्ष ने पेलिकन के साइकिल चलाने के दृश्य को बेहतर ढंग से व्यक्त किया है”
- परिणामों के आधार पर Elo score (शतरंज रैंकिंग शैली) से अंतिम रैंकिंग निकाली गई
- पहला स्थान: Gemini 2.5 Pro Preview 05-06
- शीर्ष समूह: o3, Claude 4 Sonnet, Claude Opus आदि
- निचला समूह: Llama 3.3 70B आदि
LLM बग और दिलचस्प उदाहरण
ChatGPT का अत्यधिक चापलूसी बग
- ChatGPT के नए संस्करण में यूज़र के विचारों (यहाँ तक कि बेहूदा बिज़नेस आइडिया) की भी अत्यधिक प्रशंसा करने की समस्या सामने आई
- OpenAI ने जल्दी patch जारी किया; system prompt से “यूज़र के मूड से मेल बैठाना” हटाया गया और निर्देश को “चापलूसी न करो” में बदला गया
- prompt engineering के ज़रिए अल्पकालिक बग समाधान किया गया
whistleblower benchmark (SnitchBench)
- Claude 4 System Card से प्रेरित होकर Theo Browne ने यह जाँचने के लिए SnitchBench विकसित किया कि AI मॉडल कंपनी की गड़बड़ियों के सबूत देखकर कहाँ रिपोर्ट करते हैं
- अधिकांश मॉडल खुद को internal whistleblower की भूमिका में रखकर अमेरिका की FDA, मीडिया आदि को ईमेल भेजते हैं
- DeepSeek-R1 ने WSJ, ProPublica जैसे मीडिया संस्थानों को भी एक साथ सूचना देकर और अधिक सक्रिय रवैया दिखाया
टूल उपयोग क्षमता और सुरक्षा मुद्दे
- पिछले 6 महीनों में LLM की tool calling क्षमता में बड़ा सुधार हुआ
- MCP (Multi-Component Framework) की मदद से कई टूल्स को जोड़कर search, reasoning, search retry जैसी जटिल workflows संभव हुईं
- लेकिन prompt injection, data leak, malicious command execution जैसी घातक सुरक्षा जोखिमों (lethal trifecta) पर भी उतना ही ज़ोर से ध्यान गया
- OpenAI सहित प्रमुख AI प्रदाताओं ने दस्तावेज़ों में internet access, code execution जैसे high-risk विकल्पों के उपयोग पर सुरक्षा चेतावनियाँ स्पष्ट रूप से दी हैं
निष्कर्ष और आगे की दिशा
- पेलिकन-साइकिल बेंचमार्क अभी कुछ समय तक उपयोगी रह सकता है, लेकिन यदि प्रमुख AI research labs इसकी चाल समझ जाएँ तो किसी नए विकल्प की ज़रूरत पड़ सकती है
- 2025 में मॉडल प्रदर्शन, कीमत, टूल उपयोगिता और सुरक्षा के मोर्चे पर बदलाव बेहद तीव्र रहे हैं, और वास्तविक दुनिया में केवल संख्यात्मक बेंचमार्क से आगे जाकर नए मूल्यांकन और जोखिम प्रबंधन की आवश्यकता है
1 टिप्पणियां
Hacker News राय
मुझे लगता है कि यह product launch इतिहास के सबसे सफल उदाहरणों में से एक था। सिर्फ एक हफ्ते में इसने 10 करोड़ नए accounts जुटा लिए, और एक समय ऐसा भी था जब एक घंटे में 10 लाख signups हुए। viral effect की वजह से यह लगातार चर्चा में रहा, लेकिन मैंने इसके बारे में हाल ही में पहली बार सुना। मैं पहले से offline stable diffusion app इस्तेमाल कर रहा था, इसलिए इसे upgrade जैसा महसूस करना भी मुश्किल था। हर हफ्ते AI से जुड़ी इतनी खबरें आती हैं कि अगर आप सच में ध्यान न दें तो बड़े launches भी आसानी से छूट सकते हैं
मैं अपने benchmark से काफी संतुष्ट था, और उम्मीद कर रहा था कि जब तक बड़े AI labs इसकी भनक नहीं पाते, यह तरीका लंबे समय तक उपयोगी रहेगा। लेकिन Google I/O keynote में थोड़ी देर के लिए दिखाई गई साइकिल चलाते pelican की image देखकर समझ गया कि अब राज खुल चुका है। अब शायद testing का नया तरीका चाहिए होगा। ऐसी चीजें AI capability पर public discussion को मुश्किल बनाती हैं। कोई छोटा और अनोखा test भी अगर बड़ी कंपनियों को पता चल जाए, तो वे उसे RLHF से जरूरत से ज्यादा optimize कर देती हैं। जैसे "strawberry में r की संख्या गिनना" वाला classic test
मुझे यह benchmark बहुत पसंद आया। मैंने भी कुछ ऐसा ही (मज़ाक में, और काफी कम बार) कई models से data structure के रूप में melody बनाने को कहा था। उदाहरण के तौर पर Smoke on the Water intro लिया और Web Audio API से उसे बजाया भी। कभी पूरी तरह सफल नहीं हुआ, लेकिन धीरे-धीरे सुधार दिख रहा है। हालत यह है कि हर model से website तक बनवाई जा सकती है। मुझे लगता है आपका test novelty के लिहाज़ से ज्यादा सावधान है, लेकिन models को उन क्षेत्रों तक धकेलना दिलचस्प है जिनके लिए उन्हें खास तौर पर design नहीं किया गया। ChatGPT 4 Turbo result, Claude Sonnet 3.7 result, Gemini 2.5 Pro result में Gemini सुनने में सबसे बेहतर लगा, लेकिन फिर भी perfect नहीं था। सोच रहा हूँ कि नवीनतम paid models कैसा करेंगे। और अगर शुरुआत के प्रयास को देखना हो तो यह लिंक
सबसे खलने वाली बात यह है कि probabilistic models (LLM) का evaluation सिर्फ एक sample से किया जाता है। यह कुछ ऐसा है जैसे अलग-अलग random number generators से एक-एक sample निकालकर कहना कि generator 5 सबसे ऊँचा निकला, इसलिए वही सबसे अच्छा है। हर LLM के 10 (या उससे अधिक) images की तुलना करके average निकालना कहीं बेहतर होगा
यह लेख पढ़कर बहुत आनंद आया। लगता है LLM capability measurement को 3D domain तक बढ़ाया जा सकता है। उदाहरण के लिए Blender के लिए Python code लिखवाया जाए, और backend API में headless Blender चलाया जाए। प्रस्तुति में भी कहा गया, लेकिन मुझे लगता है कि आगे चलकर single prompt से measurement करना पर्याप्त नहीं होगा। test को और "agentic" बनाया जा सकता है, जिसमें नवीनतम Blender documentation देखना, search engine इस्तेमाल करना, और blog documents का सहारा लेना भी शामिल हो। अगर multimodal input processing को भी शामिल करें, तो किसी खास pelican photo को भी test target बनाया जा सकता है। बने हुए 3D objects को iOS के native 3D format में बदलकर mobile Safari में देखने लायक बनाने की दिशा भी हो सकती है। दरअसल अक्टूबर 2022 में मैंने खुद यह process और उससे जुड़ी service बनाई थी; उस समय सामान्य syntax errors के post-processing की भी जरूरत पड़ती थी, लेकिन उम्मीद है कि नवीनतम LLMs में यह कम होगा
सबसे बेहतरीन pelican images कई models को मिलाकर चलाने के तरीके से निकलती हैं। pelican evaluation के लिए इसे evals में भी इस्तेमाल किया जा रहा है। related link1, related link2
अगर round-robin तरीके में सभी प्रतिभागी एक ही score से शुरू करें और सब एक-दूसरे से खेलें, तो ELO score व्यावहारिक रूप से जीतों की संख्या के बराबर हो जाएगा। शायद लागू algorithm मैचों के क्रम को भी ध्यान में रखता है, लेकिन इसका मतलब तभी है जब प्रतिभागी मुकाबलों के दौरान साफ तौर पर बेहतर होते जाएँ। bots की competition में यह सिर्फ noise बढ़ाता है, इसलिए क्रम का असर यहाँ नहीं होना चाहिए। और bracket देखने पर लगा कि 561 संभावित जोड़ियों में से एक result गायब है। वजह जानना चाहूँगा
मुझे Simon का काम बहुत पसंद है। मैंने उसके लगभग सारे blog posts पढ़े हैं, और अलग-अलग models के साथ उसके experiments देखना सच में मज़ेदार है। उसके CLI tools भी इस्तेमाल में आसान हैं, और हर tool दूसरे की functionality को बेवजह overlap नहीं करता। और सबसे अहम बात, Simon खुद इस काम का बहुत आनंद लेता है। उसकी ऊर्जा ऐसी लगती है जैसे कोई बच्चा candy store में पहुँच गया हो, और वह उत्साह संक्रामक है; उसके posts पढ़कर मुझे भी हमेशा LLMs के साथ कुछ नया आज़माने का मन करता है
Qwen 3 का साफ तौर पर न होना बहुत खटकता है। खासकर fine-grained MoE architecture की वजह से यह आम consumer hardware पर capability और speed, दोनों में बड़ा breakthrough release था
यहाँ Claude Opus Extended Thinking का direct result