2024 में LLMs के बारे में सीखी गई बातें

(simonwillison.net)

22 पॉइंट द्वारा GN⁺ 2025-01-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Simon Willison द्वारा 2024 में LLM से जुड़े पूरे बदलावों का सार

GPT-4 की सीमाओं को पूरी तरह पार कर लिया गया
कुछ GPT-4 स्तर के मॉडल मेरे लैपटॉप पर चल रहे हैं
LLM की कीमतों में भारी गिरावट, प्रतिस्पर्धा और दक्षता से आया बदलाव
Multimodal vision का विस्तार, audio और video का नया आगमन
voice और live camera mode, science fiction अब हक़ीक़त
prompt-आधारित app generation, अब पहले से ही रोज़मर्रा की तकनीक
सर्वश्रेष्ठ मॉडलों तक मुफ्त पहुंच, कुछ ही महीनों में समाप्त
"agent", अब भी हक़ीक़त न बन पाया एक विचार
evaluation (Evals) का महत्व
Apple Intelligence निराशाजनक है, लेकिन MLX library शानदार है
reasoning scaling और "Reasoning" models का उभार
क्या मौजूदा सर्वश्रेष्ठ LLM को चीन में $6 million से कम में train किया गया?
पर्यावरणीय प्रभाव में सुधार
पर्यावरणीय प्रभाव, और भी बदतर हुआ
2024, "Slop" का वर्ष
synthetic training data का चौंकाने वाला असर
2024, जब LLM का उपयोग और कठिन हो गया
ज्ञान का असमान वितरण
LLM के लिए और बेहतर आलोचना की ज़रूरत

# GPT-4 की सीमाओं को पूरी तरह पार कर लिया गया

2023 की स्थिति: GPT-4 को सर्वश्रेष्ठ language model माना जाता था, और अन्य AI lab इसे पार नहीं कर पाई थीं। OpenAI के तकनीकी रहस्यों पर काफ़ी ध्यान था।
2024 में बदलाव: 18 संगठनों ने GPT-4 से बेहतर मॉडल घोषित किए। अभी Chatbot Arena leaderboard में GPT-4-0314 (मार्च 2023 में जारी) से ऊपर 70 मॉडल दर्ज हैं।
प्रमुख मॉडल और तकनीकी प्रगति
- Google Gemini 1.5 Pro: फ़रवरी 2024 में जारी
  - GPT-4 स्तर का output और नए features
  - 1 million (बाद में 2 million) token input context length का समर्थन
  - video input feature की शुरुआत
  - लंबे input को प्रोसेस करके coding समस्याएँ हल करना और पूरी किताब का विश्लेषण संभव
  - Google I/O 2024 keynote में इसे महत्वपूर्ण घोषणा के रूप में पेश किया गया
- Anthropic Claude 3 series:
  - Claude 3 Opus: मार्च 2024 में जारी, उच्च प्रदर्शन के कारण चर्चा में रहा
  - Claude 3.5 Sonnet: जून में जारी, 22 अक्टूबर को upgraded version घोषित
  - upgrade के बाद भी version number 3.5 ही रहा, इसलिए प्रशंसकों के बीच इसे Claude 3.6 कहा गया
context length का विस्तार
- 2023: अधिकतर मॉडल 4,096~8,192 token तक सीमित थे। Claude 2.1, 200,000 token के साथ अपवाद था
- 2024: प्रमुख मॉडल 100,000 से अधिक token support करने लगे, Google Gemini series अधिकतम 2 million token तक गई
- लंबे input data को संभालकर कई तरह की समस्याएँ हल की जा सकती हैं
- पूरी किताब का विश्लेषण या example code के आधार पर समस्या-समाधान में फ़ायदा
GPT-4 को पार करने वाले मॉडल और संगठन
- Chatbot Arena leaderboard के अनुसार GPT-4-0314 से बेहतर प्रदर्शन वाले मॉडल रखने वाले संगठन:
  - Google, OpenAI, Anthropic, Meta, Nvidia, Amazon, Cohere, DeepSeek, Zhipu AI, xAI सहित 18 संगठन
- leaderboard में GPT-4-0314 अभी लगभग 70वें स्थान के आसपास है

# कुछ GPT-4 स्तर के मॉडल मेरे लैपटॉप पर चल रहे हैं

उपयोग किया गया डिवाइस: 2023 में जारी 64GB RAM वाला M2 MacBook Pro। लगभग 2 साल पुराना वही लैपटॉप, जिस पर मार्च 2023 में पहली बार LLM चलाया था।
प्रदर्शन में बदलाव: शुरुआत में मुश्किल से GPT-3 स्तर के मॉडल चल पाते थे, लेकिन अब GPT-4 स्तर के मॉडल भी चल सकते हैं।
- Qwen2.5-Coder-32B: नवंबर 2024 का Apache 2.0 license वाला coding-केंद्रित मॉडल।
- Meta Llama 3.3 70B: दिसंबर 2024 में जारी GPT-4-स्तर का मॉडल।
महत्व: यह चौंकाने वाली बात है कि GPT-4 स्तर के मॉडल अब $40,000 से अधिक GPU वाले data center server पर ही नहीं, बल्कि लैपटॉप पर भी चल सकते हैं।
- 64GB RAM लगभग पूरी इस्तेमाल हो जाती है, इसलिए बाकी काम करना मुश्किल होता है।
- model efficiency में सुधार की वजह से यह संभव हुआ है। इसे पिछले एक साल के optimization का नतीजा माना जा सकता है।
- फिर भी efficiency को और बेहतर करने की काफी गुंजाइश होने की उम्मीद है।
Meta Llama 3.2 models: ये GPT-4 स्तर के नहीं हैं, लेकिन 1B और 3B आकार के मॉडल छोटे होने के बावजूद बेहतरीन प्रदर्शन दिखाते हैं।
- Llama 3.2 3B: मुफ्त MLC Chat iOS app से चलाया जा सकता है।
- 2GB से कम आकार में iPhone पर चल सकता है और 20 token प्रति सेकंड की generation speed देता है।
- उदाहरण: "एक Netflix Christmas फ़िल्म की कहानी, जिसमें एक data journalist स्थानीय कुम्हार से प्यार कर बैठता है" जैसा prompt देने पर बुनियादी लेकिन उपयुक्त जवाब मिला।
  - शीर्षक: "Love in the Clay"
  - कहानी: मुख्य पात्र Jessica अपने गृह-नगर Willow Creek लौटती है, जहाँ वह स्थानीय इतिहास और gentrification के असर की जांच करते हुए कहानी आगे बढ़ाती है।
- नतीजा साधारण है, लेकिन iPhone पर भी यह संभव होना अपने आप में दिलचस्प है।

# LLM की कीमतों में भारी गिरावट, प्रतिस्पर्धा और दक्षता से आया बदलाव

2023 के अंत की कीमतें: OpenAI के प्रमुख मॉडलों की कीमतें इस प्रकार थीं।
- GPT-4: $30/million input tokens
- GPT-4 Turbo: $10/mTok
- GPT-3.5 Turbo: $1/mTok
2024 में कीमतों में बदलाव:
- OpenAI o1: $30/mTok के साथ सबसे महंगा मॉडल
- GPT-4o: $2.50/mTok (GPT-4 की तुलना में 12 गुना सस्ता)
- GPT-4o Mini: $0.15/mTok (GPT-3.5 की तुलना में लगभग 7 गुना सस्ता और प्रदर्शन में बेहतर)
- Anthropic Claude 3 Haiku: $0.25/mTok (मार्च में जारी, Anthropic का सबसे सस्ता मॉडल)
- Google Gemini 1.5 Flash: $0.075/mTok
- Google Gemini 1.5 Flash 8B: $0.0375/mTok (GPT-3.5 Turbo की तुलना में 27 गुना सस्ता)
कीमत गिरने के कारण:
- प्रतिस्पर्धा में वृद्धि: कई model providers के बाज़ार में आने से price competition तेज़ हुआ।
- दक्षता में सुधार: model training और inference process के optimization से energy consumption कम हुआ।
  - हर एक prompt चलाने की energy cost को लेकर चिंता कम हुई।
दक्षता और पर्यावरणीय लागत:
- energy efficiency बढ़ने से पर्यावरणीय चिंताएँ कुछ कम हुईं।
- लेकिन data center निर्माण का पर्यावरणीय प्रभाव अब भी समस्या है।
वास्तविक उपयोग की लागत की गणना:
- Google Gemini 1.5 Flash 8B का उपयोग करके निजी photo library (68,000 तस्वीरें) के लिए description बनाने की लागत का हिसाब।
  - प्रति फोटो 260 input tokens और 100 output tokens की ज़रूरत।
  - कुल 17,680,000 input tokens * $0.0375/million = $0.66
  - कुल 6,800,000 output tokens * $0.15/million = $1.02
  - कुल लागत: $1.68 में 68,000 तस्वीरें प्रोसेस की जा सकती हैं।
description उदाहरण:
- तस्वीर: California Academy of Sciences में लाल ट्रे से खाना खाती दो तितलियाँ।
- तैयार किया गया description:
  - लाल ट्रे पर दो तितलियों के फल खाते हुए एक तस्वीर।
  - तितलियों के रंग और pattern तक का विस्तार से वर्णन।
- लागत: लगभग 0.0024 cent, यानी 1 cent के 400वें हिस्से से भी कम।
2024 के सबसे बड़े बदलावों में से एक:
- कीमतों में गिरावट और energy cost कम होने से LLM की उपयोगिता काफ़ी बढ़ रही है।

# Multimodal vision का विस्तार, audio और video का नया आगमन

2024 के प्रमुख ट्रेंड: multimodal LLMs (टेक्स्ट के अलावा इमेज, ऑडियो, वीडियो आदि जैसे विभिन्न इनपुट को प्रोसेस करना) आम हो गए।
- 2023 के उदाहरण:
  - OpenAI GPT-4 Vision: नवंबर 2023 के DevDay में रिलीज़ किया गया।
  - Google Gemini 1.0: 7 दिसंबर 2023 को घोषित।
- 2024 की प्रमुख रिलीज़:
  - Anthropic Claude 3 सीरीज़: मार्च में रिलीज़।
  - Google Gemini 1.5 Pro: अप्रैल में रिलीज़ (इमेज, ऑडियो, वीडियो प्रोसेसिंग सपोर्ट के साथ)।
  - Qwen2-VL: सितंबर में रिलीज़।
  - Mistral Pixtral 12B: सितंबर में रिलीज़।
  - Meta Llama 3.2: सितंबर में रिलीज़ (11B और 90B vision models)।
  - OpenAI ऑडियो input/output फीचर: अक्टूबर में जोड़ा गया।
  - Hugging Face SmolVLM: नवंबर में रिलीज़।
  - Amazon Nova इमेज और वीडियो मॉडल: दिसंबर में रिलीज़।
टूल्स और multimodal सपोर्ट:
- अक्टूबर 2024 में, निजी तौर पर इस्तेमाल किए जाने वाले LLM CLI टूल को multimodal model support के साथ अपग्रेड किया गया।
- ऐसे plugins जोड़े गए जो इमेज, ऑडियो और वीडियो जैसी attachments को प्रोसेस कर सकते हैं।
multimodal models का महत्व:
- LLM सुधार धीमा पड़ गया है, ऐसी आलोचना multimodal models की प्रगति को नज़रअंदाज़ करने वाली राय लगती है।
- इमेज, ऑडियो और वीडियो का उपयोग करके prompts चलाना नए उपयोगों की संभावनाएँ खोलने वाला एक दिलचस्प विकास है.

# वॉइस और लाइव कैमरा मोड, साइंस फिक्शन का सच होना

शुरुआती voice mode का आगमन:
- सितंबर 2023 में ChatGPT मोबाइल ऐप में voice conversation फीचर जोड़ा गया।
- Whisper (Speech-to-Text) और tts-1 (Text-to-Speech) मॉडल का उपयोग हुआ, लेकिन मॉडल वास्तव में सिर्फ टेक्स्ट ही प्रोसेस करता था।
GPT-4o voice mode:
- 13 मई 2024 को घोषित नए voice mode में GPT-4o मॉडल वास्तव में multimodal था और ऑडियो इनपुट व प्राकृतिक voice output को सपोर्ट करता था।
- डेमो में Scarlett Johansson जैसी आवाज़ का इस्तेमाल किया गया था, लेकिन विवाद के बाद वह आवाज़ commercial product में शामिल नहीं की गई।
- voice mode की रिलीज़ में देरी से भ्रम पैदा हुआ, लेकिन अगस्त-सितंबर में इसे ChatGPT Advanced Voice mode के रूप में चरणबद्ध तरीके से जारी किया गया।
  - उपयोग अनुभव: टहलते समय voice mode में बातचीत करने से कंटेंट की गुणवत्ता में काफ़ी सुधार हुआ।
  - OpenAI Audio API का उपयोग कर किए गए प्रयोगों में विभिन्न voice features की पुष्टि हुई।
voice mode की विशेषताएँ:
- Advanced Voice mode कई तरह के accents को पेश कर सकता है।
- उदाहरण: California brown pelican के भारी Russian accent में स्पैनिश में बात करने के लिए कहना।
दूसरी कंपनियों के multimodal voice models:
- Google Gemini: ऑडियो इनपुट सपोर्ट करता है और ChatGPT जैसी voice conversation संभव है।
- Amazon Nova: voice mode की अग्रिम घोषणा (Q1 2025 में रिलीज़ की योजना)।
- Google NotebookLM (सितंबर 2024 में रिलीज़): दिए गए इनपुट के आधार पर दो "podcast hosts" के बीच बातचीत तैयार करता है। custom instructions भी संभव हैं।
live video mode का आगमन:
- दिसंबर 2024 में ChatGPT voice mode में camera feed share करने की सुविधा जोड़ी गई।
- real-time में camera feed के बारे में बातचीत संभव है।
- Google Gemini ने भी लगभग उसी समय preview में ऐसा ही फीचर दिया।
API accessibility:
- OpenAI और Google दोनों इन फीचर्स के लिए API उपलब्ध कराते हैं।
- OpenAI ने दिसंबर में WebRTC API की घोषणा की, जिससे voice-based web apps बनाना आसान हो गया।

# prompt-आधारित app generation, अब पहले से ही रोज़मर्रा की तकनीक

2023 में GPT-4 की संभावनाएँ:
- GPT-4 का उपयोग करके HTML, CSS, JavaScript में पूरी तरह interactive apps बनाए जा सकते थे।
- React जैसे टूल्स को भी अतिरिक्त build mechanisms के ज़रिए इंटीग्रेट किया जा सकता था।
2024 में Claude Artifacts की शुरुआत:
- Anthropic के Claude 3.5 Sonnet की घोषणा के बीच में पेश किया गया नया फीचर।
- उपयोगकर्ता Claude interface के भीतर ही तुरंत चलने वाले on-demand apps बना सकते थे।
- उदाहरण: Claude के ज़रिए बनाया गया URL extraction tool।
  - URL डालते ही extracted list तुरंत दिख जाती है।
- Claude Artifacts के साथ एक हफ़्ते में 14 छोटे टूल बनाने का अनुभव साझा किया गया।
प्रतिस्पर्धियों द्वारा समान फीचर्स की शुरुआत:
- GitHub Spark: अक्टूबर 2024 में घोषित।
- Mistral Chat Canvas: नवंबर 2024 में जोड़ा गया।
- Val Town के Steve Krause: Cerebras models का उपयोग कर 2,000 tokens प्रति सेकंड की प्रोसेसिंग स्पीड पर real-time app editing लागू की।
- Chatbot Arena टीम: दिसंबर में एक नया leaderboard पेश किया, जिसमें दो models से एक ही app बनवाकर वोट कराया जाता है।
मेरे अपने प्रोजेक्ट्स:
- Datasette प्रोजेक्ट में prompts का उपयोग करके custom widgets और data visualizations बनाना और उन पर iteration संभव बनाना विकसित किया जा रहा है।
- uv का उपयोग करके single Python program लिखने वाला समान पैटर्न भी लागू किया गया।
2025 का दृष्टिकोण:
- browser sandboxing की समस्याएँ हल होने के बाद, इस फीचर के विभिन्न products में default रूप से शामिल होने की संभावना अधिक है।

# सर्वश्रेष्ठ models तक मुफ़्त पहुँच, कुछ ही महीनों में समाप्त

2024 की शुरुआत में मुफ़्त उपलब्धता:
- GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro—उस समय के तीन सर्वश्रेष्ठ models अधिकांश उपयोगकर्ताओं को मुफ़्त में उपलब्ध थे।
- OpenAI ने मई 2024 में GPT-4o को मुफ़्त जारी किया।
- Claude 3.5 Sonnet जून में रिलीज़ होते ही मुफ़्त उपलब्ध था।
- इससे पहले मुफ़्त उपयोगकर्ताओं को मुख्य रूप से GPT-3.5 स्तर के models ही मिलते थे, लेकिन इस अवधि में उच्च-प्रदर्शन LLMs की वास्तविक क्षमता का अनुभव करने का अवसर मिला।
मुफ़्त पहुँच का अंत:
- OpenAI ने ChatGPT Pro लॉन्च किया और मुफ़्त पहुँच समाप्त हो गई।
- ChatGPT Pro के लिए $200 प्रति माह का subscription शुल्क है, और इससे सबसे शक्तिशाली model o1 Pro तक पहुँच मिलती है।
भविष्य का दृष्टिकोण:
- o1 सीरीज़ की मुख्य विशेषता यह है कि वह अधिक compute resources का उपयोग करके बेहतर परिणाम देती है।
- इस लागत संरचना के कारण, सर्वश्रेष्ठ models तक मुफ़्त पहुँच का दौर फिर से लौटने की संभावना कम है।

# "agents", अब भी हक़ीक़त न बन सका एक विचार

शब्द की अस्पष्टता:
- "agent" शब्द की कोई एकल, स्पष्ट परिभाषा नहीं है, और हर उपयोगकर्ता के लिए इसका अर्थ अलग है।
- आम तौर पर इसे दो श्रेणियों में बाँटा जाता है:
  - travel agent model जैसे agents, जो उपयोगकर्ता की ओर से काम करते हैं।
  - LLM-आधारित agents, जो tools तक पहुँच लेकर दोहराए जाने वाले काम करते हैं और समस्याएँ हल करते हैं।
- "autonomy" शब्द भी अक्सर इस्तेमाल होता है, लेकिन स्पष्ट परिभाषा के बिना यह भ्रम बढ़ाता है।
वैचारिक सीमाएँ:
- "agents" अभी भी ऐसे विचार की तरह हैं जो "बस आने ही वाले हैं"।
- 211 परिभाषाएँ इकट्ठा की गईं (Twitter पर सर्वे करके) और Gemini-exp-1206 model से उनका सार निकाला गया, फिर भी कोई स्पष्ट सहमति नहीं बन सकी।
उपयोगिता को लेकर संदेह:
- agents की व्यावहारिक उपयोगिता LLMs की "gullibility" यानी आसानी से धोखा खा जाने की प्रवृत्ति के कारण सीमित होती है।
- अगर सच और झूठ में फ़र्क ही न किया जा सके, तो travel agent, digital assistant, research tool जैसी चीज़ों के लिए सार्थक निर्णय लेना कठिन है।
- उदाहरण: Google Search ने काल्पनिक fan fiction wiki के आधार पर मौजूद ही नहीं रहने वाली फ़िल्म "Encanto 2" का ग़लत सार दे दिया।
prompt injection:
- यह भी उसी आसानी से धोखा खा जाने वाली प्रवृत्ति से पैदा हुई समस्या है; इस पर सितंबर 2022 से चर्चा हो रही है, लेकिन 2024 में भी कोई बड़ी प्रगति नहीं हुई।
निष्कर्ष:
- agents का लोकप्रिय विचार असल में AGI (artificial general intelligence) पर ही निर्भर दिखता है।
- विश्वसनीयता सुनिश्चित करने वाले models बनाना अब भी बेहद कठिन चुनौती है।

# evaluations का महत्व

मूल्यांकन एक मुख्य कौशल के रूप में उभरा:
- 2024 में, LLM-आधारित सिस्टमों में अच्छे automated evaluations (Evals) लिखना सबसे महत्वपूर्ण कौशल के रूप में उभरा।
- मजबूत evaluation tools होने पर नए models को तेज़ी से अपनाना, बेहतर iteration करना, और भरोसेमंद features बनाना संभव होता है।
Anthropic का दृष्टिकोण:
- Amanda Askell: अच्छे system prompt का रहस्य test-driven development है।
  - “system prompt लिखकर उसके लिए tests ढूँढना नहीं, बल्कि tests लिखकर ऐसा system prompt खोजना जो उन्हें pass कर सके।”
- Claude के विकास में इस approach ने मुख्य भूमिका निभाई।
Vercel का उदाहरण:
- Malte Ubl: शुरुआत में prompts को सुरक्षित रखने के लिए जटिल preprocessing और postprocessing तरीकों का उपयोग किया गया।
  - बाद में समझ आया कि prompt की simplicity, evaluations, model, और UX अधिक महत्वपूर्ण हैं, जिसके बाद दिशा बदली गई।
  - “evaluation के बिना prompt एक टूटी मशीन की तरह है, जिसके साथ कोई manual नहीं है।”
व्यक्तिगत खोज:
- प्रभावी evaluations लागू करने के सर्वोत्तम patterns खोजने के लिए अध्ययन जारी है।
- अभी तक evaluations के महत्व पर ज़ोर तो दिया गया है, लेकिन उन्हें लागू करने के ठोस तरीकों पर अच्छी guidance की कमी है।
- व्यक्तिगत रूप से “साइकिल चलाता SVG pelican” benchmark का उपयोग किया गया, लेकिन यह सही evaluation tools का विकल्प नहीं है।

# Apple Intelligence निराशाजनक है, लेकिन MLX library शानदार है

Mac पर ML उपयोग अनुभव में सुधार:
- 64GB RAM वाला Mac सैद्धांतिक रूप से model चलाने के लिए उपयुक्त है, क्योंकि CPU और GPU memory साझा कर सकते हैं।
- लेकिन NVIDIA CUDA को प्राथमिकता देने वाले models और libraries की वजह से Mac उपयोगकर्ताओं पर कई सीमाएँ थीं।
MLX library का नवाचार:
- Apple की MLX (Apple Silicon के लिए array framework) की मदद से Mac पर बेहतरीन performance के साथ कई MLX-compatible models चलाए जा सकते हैं।
- mlx-lm Python: MLX-compatible models को support करता है और इसकी performance अच्छी है।
- Hugging Face का mlx-community: आवश्यक format में convert किए गए 1,000 से अधिक models उपलब्ध कराता है।
- Prince Canuma का mlx-vlm project: vision LLMs को Apple Silicon पर चलाने में सक्षम बनाता है।
  - हाल ही में Qwen के QvQ को चलाने के लिए इसका उपयोग किया गया।
Apple Intelligence को लेकर निराशा:
- जून 2024 में घोषणा के समय, user privacy को महत्व देने वाले LLM applications पर फोकस के कारण इससे काफ़ी उम्मीदें थीं।
- लेकिन वास्तविक रूप से जारी features कमज़ोर रहे और cutting-edge LLMs की क्षमता की तुलना में पीछे दिखे।
  - उदाहरण:
    - notification summaries जो news headlines का गलत सारांश बनाती हैं।
    - writing assistance tools जिनकी उपयोगिता सीमित है।
  - हालांकि Genmoji को कुछ हद तक मज़ेदार feature माना गया।
Mac उपयोगकर्ताओं का बदला हुआ नज़रिया:
- MLX जैसे tools की वजह से Mac platform चुनने को लेकर संतुष्टि काफ़ी बढ़ी है।
- खासकर Apple Silicon पर LLM चलाने का माहौल बेहतर हुआ है।

# reasoning scaling और “Reasoning” models का उदय

LLM के नए रूप का आगमन:
- 2024 की चौथी तिमाही में OpenAI का o1 model (o1-preview, o1-mini) 12 सितंबर को पहली बार घोषित किया गया।
- यह chain-of-thought तकनीक का आगे विकसित रूप है, जिसे इस तरह डिज़ाइन किया गया है कि model समस्या को “सोचते” हुए हल करे।
o1 model की विशेषताएँ:
- यह “Reasoning tokens” का उपयोग करके समस्या पर reasoning करता है; यह प्रक्रिया उपयोगकर्ता सीधे नहीं देख सकते, लेकिन ChatGPT UI में इसका summarized रूप देखा जा सकता है।
- training समय की compute क्षमता बढ़ाने के अलावा, inference के दौरान अधिक compute का उपयोग करके भी performance बढ़ाई जा सकती है।
model की scalability:
- अधिक कठिन समस्याओं को हल करने के लिए inference समय पर अतिरिक्त compute resources का उपयोग किया जाता है।
- यह मौजूदा LLM model architecture को scale करने का एक नया तरीका है।
follow-up model o3:
- 20 दिसंबर 2024 को घोषित, और ARC-AGI benchmark में प्रभावशाली परिणाम दर्ज किए।
- संभव है कि इसमें $1,000,000 से अधिक का compute cost लगा हो।
- जनवरी 2025 में रिलीज़ की योजना है। अत्यधिक compute cost के कारण इसका व्यावहारिक उपयोग सीमित रहने की संभावना है।
अन्य प्रमुख model घोषणाएँ:
- Google: 19 दिसंबर को gemini-2.0-flash-thinking-exp जारी किया।
- Alibaba: 28 नवंबर को QwQ model (Apache 2.0 license) घोषित किया, जिसे locally चलाया जा सकता है।
  - 24 दिसंबर को vision reasoning model QvQ की घोषणा की, जो local पर भी चलता है।
- DeepSeek: 20 नवंबर को DeepSeek-R1-Lite-Preview model को chat interface के रूप में उपलब्ध कराया।
संबंधित शोध और अनुमान:
- Anthropic और Meta ने अभी आधिकारिक models घोषित नहीं किए हैं, लेकिन संभावना है कि वे इसी तरह के reasoning scaling models पर काम कर रहे हों।
- Meta ने दिसंबर में “Training Large Language Models to Reason in a Continuous Latent Space” नाम का संबंधित शोधपत्र प्रकाशित किया।
- अतिरिक्त जानकारी के लिए Arvind Narayanan और Sayash Kapoor का Is AI progress slowing down? सुझाया गया है।

# क्या वर्तमान का सर्वश्रेष्ठ LLM चीन में $6 million से कम में train किया गया?

मुख्य समाचार:
- 2024 के Christmas के दौरान DeepSeek v3 को Hugging Face पर सार्वजनिक किया गया (README file के बिना पोस्ट किया गया, और अगले दिन documentation व paper जोड़े गए)।
- यह 685B parameters वाला विशाल model है, जो Meta के Llama 3.1 405B से काफ़ी बड़ा है।
- open license के साथ उपलब्ध models में यह सबसे बड़े पैमाने का है।
performance:
- benchmark performance, Claude 3.5 Sonnet के समान है।
- Chatbot Arena में यह 7वें स्थान पर रहा, Gemini 2.0 और OpenAI 4o/o1 models के ठीक पीछे।
- open license models में यह सबसे ऊँची रैंक पर है।
training cost:
- DeepSeek v3: 2,788,000 H800 GPU hours, कुल लगभग $5,576,000।
- Meta Llama 3.1 405B: 30,840,000 GPU hours, यानी DeepSeek v3 से 11 गुना अधिक लागत, लेकिन benchmark performance थोड़ी कम।
चीन पर GPU export restrictions का प्रभाव:
- ऐसा लगता है कि अमेरिका के GPU export restrictions ने training optimization को काफ़ी बढ़ावा दिया।
- DeepSeek v3 की cost-efficient training को ऐसे optimization का परिणाम माना जा रहा है।

# पर्यावरणीय प्रभाव में सुधार

efficiency बढ़ने से energy consumption में कमी:
- model efficiency में बड़े सुधार के कारण prompts चलाने में लगने वाली energy और पर्यावरणीय प्रभाव पिछले कुछ वर्षों में तेज़ी से घटे हैं।
- OpenAI ने GPT-3 के समय की तुलना में prompt cost को 100 गुना कम किया है।
- Google Gemini और Amazon Nova जैसे low-cost model providers भी बिना घाटे के prompts operate कर सकते हैं।
व्यक्तिगत उपयोगकर्ता के दृष्टिकोण से:
- ज़्यादातर prompts चलाने से होने वाली energy consumption वास्तव में बहुत कम होती है।
- इसका पर्यावरणीय प्रभाव छोटी दूरी तक कार चलाने या YouTube video देखने से भी कम हो सकता है।
training cost में कमी:
- DeepSeek v3 का $6 million से कम training cost दिखाता है कि training लागत आगे भी घट सकती है।
- कम resources के साथ अधिक efficient training संभव हो रही है।
अकुशल models से तुलना:
- Llama 3 के सबसे बड़े model की training cost, New York से London तक पूरी तरह भरी हुई कुछ commercial flights की energy cost के बराबर है।
- लेकिन training पूरी होने के बाद इसे अतिरिक्त लागत के बिना लाखों लोग उपयोग कर सकते हैं, इसलिए लंबी अवधि में यह efficient है।

# पर्यावरणीय प्रभाव, और अधिक खराब

बड़े पैमाने पर data center निर्माण की दौड़:
- Google, Meta, Microsoft, Amazon जैसी प्रमुख कंपनियाँ भविष्य के model demand को पूरा करने के लिए अरबों डॉलर निवेश करके data center बना रही हैं।
- इस तरह का infrastructure expansion power grid और environment पर बड़ा असर डालता है।
- नए nuclear power plant बनाने पर भी चर्चा हो रही है, लेकिन इसमें कई दशक लग सकते हैं।
infrastructure की जरूरत पर बहस:
- DeepSeek v3 की $6 million training cost और LLM की गिरती कीमतें यह संकेत देती हैं कि यह विस्तार जरूरी ही हो, ऐसा नहीं है।
- लेकिन शायद ही कोई executive ऐसा होगा जो "infrastructure न बनाकर बाद में उसे गलत फैसला साबित होने" का जोखिम उठाए।
ऐतिहासिक समानता:
- इसकी तुलना 1800 के दशक में दुनिया भर में railway network बिछाए जाने के दौर से की जा सकती है।
- उसमें भारी निवेश और पर्यावरणीय असर शामिल थे, और कई routes एक-दूसरे की पुनरावृत्ति करते हुए अंततः अनावश्यक साबित हुए।
- नतीजतन कई financial crises पैदा हुईं:
  - Panic of 1873, Panic of 1893, Panic of 1901, और ब्रिटेन की Railway Mania।
- infrastructure तो बचा रहा, लेकिन उसके साथ बड़े पैमाने पर bankruptcies और environmental damage भी आया।
वर्तमान के लिए सबक:
- data center की यह दौड़ उपयोगी infrastructure छोड़ सकती है, लेकिन अनावश्यक विस्तार और पर्यावरणीय नुकसान का जोखिम भी पैदा करती है।

# 2024, "Slop" का साल

"Slop" की परिभाषा:
- यह AI द्वारा बनाए गए अनचाहे और बिना समीक्षा किए गए content के लिए एक प्रचलित शब्द बन गया।
- जैसे "spam" का मतलब unwanted email हो गया, वैसे ही "slop" भी इतना व्यापक हो गया कि शब्दकोश तक में जगह पा सकता है।
शब्द की उत्पत्ति:
- @deepfates के tweet से शुरू हुई चर्चा:
  - "अभी रियल टाइम में 'slop' को एक term के रूप में स्थापित होते देख रहे हैं।"
- मई 2024 में इस अवधारणा को आगे बढ़ाते हुए इसे "अनुरोध न किया गया और बिना समीक्षा वाला AI-generated content" के रूप में परिभाषित किया गया।
media की प्रतिक्रिया:
- NY Times और Guardian में "slop" से जुड़ी interview quotes शामिल हुईं:
  - "हमें आधुनिक AI के बारे में संक्षेप में बात करने के लिए एक शब्द चाहिए। 'उस email को ignore करो, वो spam है.' और 'उस article को ignore करो, वो slop है.' — दोनों उपयोगी सीख हैं।"
slop का महत्व:
- यह generative AI के गलत इस्तेमाल को संक्षेप में व्यक्त करने के लिए उपयोगी है।
- यह AI को अधिक कुशल और जिम्मेदार तरीके से इस्तेमाल करने में मदद कर सकता है।
2024 में सांस्कृतिक प्रभाव:
- "Slop" Oxford Word of the Year के उम्मीदवारों में शामिल था, लेकिन "brain rot" से हार गया।

# synthetic training data का चौंकाने वाला प्रभाव

"model collapse" की अवधारणा:
- इसका पहला उल्लेख मई 2023 के paper The Curse of Recursion में हुआ, और जुलाई 2024 में Nature में इस पर ज्यादा ध्यान गया।
- दावा यह था: अगर AI-generated content इंटरनेट में भर जाएगा, तो models बार-बार अपने ही output पर train होंगे और उनकी performance गिर जाएगी।
- हकीकत: ऐसा collapse नहीं हुआ; उलटे synthetic data का इस्तेमाल करके model training करना धीरे-धीरे सामान्य होता जा रहा है।
synthetic data के फायदे:
- Phi-4 technical report में समझाया गया है:
  - synthetic data organic data का सिर्फ विकल्प नहीं है, बल्कि यह सीधे कुछ फायदे देता है:
    - structured और progressive learning:
      - organic data में tokens के बीच संबंध जटिल और अप्रत्यक्ष होते हैं, इसलिए सीखना कठिन होता है।
      - इसके विपरीत, synthetic data language model द्वारा पिछले tokens के आधार पर बनाया जाता है, इसलिए reasoning patterns सीखना आसान हो जाता है।
    - training process अधिक व्यवस्थित और अनुमानित हो जाती है।
बड़े models द्वारा छोटे models की मदद के उदाहरण:
- बड़े models छोटे models के लिए synthetic data बनाते हैं:
  - DeepSeek v3: DeepSeek-R1 द्वारा बनाए गए "reasoning" data का उपयोग।
  - Meta Llama 3.3 70B: 25 million से अधिक synthetic examples के साथ fine-tune किया गया।
data design का महत्व:
- LLM training में data design सबसे महत्वपूर्ण तत्व बनकर उभरा है।
- पहले की तरह इंटरनेट के पूरे data को अंधाधुंध scrape करके train करने का तरीका अब इस्तेमाल नहीं हो रहा।

# 2024 में LLM का इस्तेमाल और कठिन हो गया

LLM जटिल tools हैं:
- ऊपर से सरल दिखने के बावजूद, वे वास्तव में ऐसे "power user tools" हैं जिनके लिए गहरी समझ और अनुभव चाहिए।
- इसे इस तरह समझाया गया: "यह chainsaw जैसा जटिल tool है, लेकिन खुद को kitchen knife जैसा दिखाता है।"
2024 में समस्या और बढ़ी:
- models ज्यादा शक्तिशाली हुए, लेकिन उनमें अब भी पुरानी सीमाएँ और constraints मौजूद हैं।
- कई तरह के systems आए, जिनमें अलग-अलग tools (Python, JavaScript, web search, image generation आदि) का support है।
- users को हर tool की क्षमता और सीमाएँ समझनी पड़ती हैं, तभी वे उनका प्रभावी उपयोग कर सकते हैं।
systems के बीच बढ़ती जटिलता:
- उदाहरण: ChatGPT में Python दो अलग तरीकों से चलाया जा सकता है।
- external API से बात करने वाला Claude Artifact बनाने के लिए CSP और CORS HTTP headers की समझ चाहिए।
- OpenAI का o1 सीमित features के साथ चलता है, जबकि GPT-4o web search और code interpreter को support करता है।
  - एक ही ChatGPT UI में इन दोनों models के feature differences को समझना पड़ता है।
user experience की सीमाएँ:
- LLM की मूल chat UI ऐसा अनुभव देती है जैसे किसी beginner को Linux terminal में छोड़ दिया गया हो।
- बहुत से users LLM कैसे काम करते हैं और क्या कर सकते हैं, इस बारे में गलत mental models बना लेते हैं।
  - उदाहरण: बहस के सबूत के रूप में ChatGPT screenshots का इस्तेमाल करने जैसी अव्यावहारिक घटनाएँ बढ़ रही हैं।
दोहरी समस्या:
- गलत उपयोग: LLM की अपूर्णताओं के बावजूद उसे universal tool समझने वाले users।
- परहेज: वे लोग भी, जो इसे अच्छी तरह समझते हैं, LLM की खामियों के कारण इसका उपयोग पूरी तरह छोड़ देते हैं।
- LLM का प्रभावी उपयोग करने के लिए इस अपूर्ण लेकिन शक्तिशाली तकनीक के साथ सहयोग करने की क्षमता जरूरी है।
शैक्षिक content की जरूरत:
- user education महत्वपूर्ण है, लेकिन अभी इसकी कमी है।
- AI से जुड़े बढ़ा-चढ़ाकर लिखे गए Twitter threads पर निर्भर रहने के बजाय, अधिक भरोसेमंद शैक्षिक सामग्री विकसित करने की जरूरत है।

# ज्ञान का असमान वितरण

जो ज्ञात है और जो अज्ञात है:
- ज्यादातर लोग ChatGPT को जानते हैं, लेकिन Claude के बारे में सुनने वाले लोग बहुत कम हैं।
- इस क्षेत्र को सक्रिय रूप से follow करने वालों और बाकी 99% लोगों के बीच knowledge gap बहुत बड़ा है।
तेज बदलाव की रफ्तार:
- तकनीकी बदलाव की गति इस knowledge gap को और गहरा कर रही है।
- पिछले एक महीने में live interfaces आए हैं:
  - मोबाइल camera से किसी चीज़ की ओर इशारा करते हुए आवाज़ में बातचीत की जा सकती है।
  - Santa Claus की भूमिका निभाने वाला feature चुनना भी संभव है।
- यहाँ तक कि खुद को tech enthusiast कहने वाले लोग भी कई बार इन features को आज़मा नहीं पाए हैं।
सामाजिक प्रभाव और जरूरत:
- जब इन तकनीकों के वर्तमान और भविष्य के समाज पर असर को ध्यान में रखा जाए, तो यह knowledge gap स्वस्थ स्थिति नहीं है।
- इसे सुधारने के लिए और अधिक प्रयासों की जरूरत है।

# LLM पर और बेहतर आलोचना की जरूरत है

तकनीक के प्रति प्रतिरोध:
- Mastodon, Bluesky, Lobste.rs, Hacker News जैसे कुछ समुदायों में केवल "LLM उपयोगी हैं" ऐसा कहने भर से भी बहस छिड़ जाती है।
- तकनीक के प्रति प्रतिरोध के कारण:
  - पर्यावरणीय प्रभाव।
  - training data से जुड़े नैतिक प्रश्न।
  - विश्वसनीयता की कमी।
  - नकारात्मक उपयोग के मामले।
  - नौकरियों पर संभावित प्रभाव।
आलोचना की आवश्यकता:
- LLM आलोचना के पात्र हैं, और समस्याओं पर चर्चा करना, समाधान खोजना, तथा ज़िम्मेदार उपयोग के तरीकों के बारे में शिक्षित करना महत्वपूर्ण है।
- लक्ष्य यह है कि सकारात्मक उपयोग नकारात्मक प्रभावों पर भारी पड़ें।
संशयवादी दृष्टिकोण का मूल्य:
- अत्यधिक hype ने पिछले 2 वर्षों में समस्या को और बढ़ाया है:
  - गलत जानकारी और बढ़ा-चढ़ाकर बनाई गई अपेक्षाएँ व्यापक रहीं।
  - बार-बार गलत फैसले लिए गए।
- इस तकनीक को सही ढंग से समझने और उपयोग करने के लिए आलोचनात्मक सोच आवश्यक है।
निर्णय लेने वालों से संवाद:
- टूल के अच्छे उपयोग के मामलों को स्वीकार करते हुए, यह समझाना चाहिए कि सहज रूप से न दिखने वाले pitfalls से कैसे बचा जाए।
- यह दावा करना कि अच्छे उपयोग के मामले मौजूद ही नहीं हैं, इस तकनीक के संभावित मूल्य को नज़रअंदाज़ करना है।
सही संदेश देना:
- "पर्यावरण को नष्ट करने वाली और हमेशा झूठ बोलने वाली plagiarism machine" जैसी खंडित आलोचना समस्याओं को हल करने में मदद नहीं करती।
- LLM के वास्तविक मूल्य को खोजने और साकार करने के लिए सहज रूप से स्पष्ट न होने वाली guidance और शिक्षा की आवश्यकता है।
ज़िम्मेदार भूमिका:
- जो लोग इस तकनीक को समझते हैं, उन पर यह ज़िम्मेदारी है कि वे दूसरों को इसका सही उपयोग करने में मदद करें।

1 टिप्पणियां

GN⁺ 2025-01-01

Hacker News की राय

बहुत से लोग ChatGPT 4 का इस्तेमाल करके यह मानने लगते हैं कि LLMs बेकार हैं। लेकिन Claude Sonnet 3.5 अभी भी उपयोगी हो सकता है
- LLMs की उपयोगिता काफी हद तक उपयोगकर्ता की communication क्षमता पर निर्भर करती है
- सटीक सवाल और background explanation के ज़रिए LLMs की performance को अधिकतम किया जा सकता है
- उबाऊ कामों को जल्दी निपटाने में यह उपयोगी है
"agent" शब्द का कोई स्पष्ट अर्थ नहीं है, इसलिए यह भ्रम पैदा करता है
- "Agentic" जैसा buzzword असहज लग सकता है
LLM कीमतों में गिरावट को लेकर चिंता है
- Gemini का free tier अब भी आकर्षक है, लेकिन उस पर भरोसा करना मुश्किल है
- 2025 की पहली छमाही में कीमतें फिर बढ़ सकती हैं, इसे लेकर चिंता है
"agent" की अवधारणा अभी भी स्पष्ट रूप से परिभाषित नहीं है
- उनका मानना है कि एक सच्चे "agent" में autonomy शामिल होनी चाहिए
इस दावे से सहमति नहीं है कि LLMs का इस्तेमाल करना और कठिन हो गया है
- विकल्प बढ़े हैं, लेकिन इस्तेमाल अपने आप में कठिन नहीं हुआ है
- शुरुआती उपयोगकर्ताओं को अब भी वही निर्देश दिए जाते हैं
यह तय करना और कठिन हो गया है कि क्या "अच्छा" है
- benchmark manipulation बहुत बढ़ गई है, जिससे भ्रम होता है
- व्यक्तिगत रूप से एक test framework बनाने की कोशिश की जा रही है
कुछ लोगों ने LLMs की खामियों की वजह से उनका इस्तेमाल छोड़ दिया है
- LLMs का पूरा लाभ लेने के लिए अस्थिर लेकिन शक्तिशाली तकनीक के साथ काम करना सीखना होगा
कुछ GPT-4 models laptop पर भी चल सकते हैं
- इसका मतलब है कि बड़े data center हमेशा ज़रूरी नहीं हैं
- OpenAI की value शायद बढ़ा-चढ़ाकर आंकी गई हो
समझ नहीं आता कि Apple का 64GB DRAM इस्तेमाल इतना खास क्यों माना जा रहा है
- यह जिज्ञासा है कि जब data center RAM निर्माण क्षमता का ज़्यादातर हिस्सा ले रहे हैं, तब भी Apple DRAM कैसे हासिल कर रहा है
Google Gemini और Amazon Nova की cost structure को लेकर भ्रम है
- कुछ लोग कहते हैं कि यह energy cost से भी कम कीमत पर दिया जा रहा है, जबकि कुछ इससे असहमत हैं
यह राय है कि LLMs रोज़मर्रा के कामों में उपयोगी नहीं हैं
- दावा किया जाता है कि नए LLM models के सुधार बढ़ा-चढ़ाकर बताए गए हैं
यह महसूस किया गया कि इस industry में नैतिकता और उत्कृष्टता के मानक काफ़ी नीचे हैं
"reasoning" को latent/neural space में धकेलने की मौजूदा स्थिति पर सवाल है
- model का अपने आप से बातचीत करना final output से बहुत कम जुड़ा होता है, इसलिए यह अक्षम है

2024 में LLMs के बारे में सीखी गई बातें

# GPT-4 की सीमाओं को पूरी तरह पार कर लिया गया

# कुछ GPT-4 स्तर के मॉडल मेरे लैपटॉप पर चल रहे हैं

# LLM की कीमतों में भारी गिरावट, प्रतिस्पर्धा और दक्षता से आया बदलाव

# Multimodal vision का विस्तार, audio और video का नया आगमन

# वॉइस और लाइव कैमरा मोड, साइंस फिक्शन का सच होना

# prompt-आधारित app generation, अब पहले से ही रोज़मर्रा की तकनीक

# सर्वश्रेष्ठ models तक मुफ़्त पहुँच, कुछ ही महीनों में समाप्त

# "agents", अब भी हक़ीक़त न बन सका एक विचार

# evaluations का महत्व

# Apple Intelligence निराशाजनक है, लेकिन MLX library शानदार है

# reasoning scaling और “Reasoning” models का उदय

# क्या वर्तमान का सर्वश्रेष्ठ LLM चीन में $6 million से कम में train किया गया?

# पर्यावरणीय प्रभाव में सुधार

# पर्यावरणीय प्रभाव, और अधिक खराब

# 2024, "Slop" का साल

# synthetic training data का चौंकाने वाला प्रभाव

# 2024 में LLM का इस्तेमाल और कठिन हो गया

# ज्ञान का असमान वितरण

# LLM पर और बेहतर आलोचना की जरूरत है

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय