Amazon Bedrock में OpenAI मॉडल की एंट्री: OpenAI और AWS CEO इंटरव्यू
(stratechery.com)- OpenAI के frontier models अब Amazon Bedrock के AWS-native agent runtime में आ रहे हैं, यानी यह सिर्फ मॉडल उपलब्ध कराने से आगे बढ़कर enterprise के लिए managed agent के रूप में एकीकृत हो रहा है
- Bedrock Managed Agents identity, permissions, logging, governance, deployment को एक साथ पैकेज करते हैं, जिससे ग्राहक enterprise environment में बिना अलग-अलग हिस्से जोड़ने के agents को तेज़ी से चला सकते हैं
- अभी agent performance सिर्फ model itself पर निर्भर नहीं है, बल्कि tools, state, memory, permissions, evals समेत पूरे harness integration पर काफ़ी निर्भर है, और AWS व OpenAI इसे एक shared product की तरह देख रहे हैं
- customer data AWS VPC के अंदर रहता है, OpenAI models Bedrock के ज़रिए चलते हैं, और support भी मुख्य रूप से AWS के ज़रिए दिया जाता है
- जिस तरह शुरुआती cloud ने startup शुरू करने की बाधाएँ कम की थीं, उसी तरह यह एकीकरण भी AI adoption barrier को कम करने की दिशा में है, और तेज़ी से बढ़ती frontier demand के साथ एक नए platform layer के रूप में उभरने की कोशिश भी दिखाता है
AWS, स्टार्टअप और AI अपनाने की रफ़्तार
- AWS के शुरुआती cloud model ने ऐसा infrastructure, जो पहले सिर्फ बहुत बड़ी कंपनियों के पास हो सकता था, उसे कुछ डॉलर और एक credit card के सहारे उपलब्ध कराया, और developers को पहले से यह तय किए बिना कि वे क्या बनाएँगे, internet पर creation की scope काफ़ी बढ़ाने दी
- AI adoption का असर भी वैसा ही, या उससे भी बड़ा माना जा रहा है
- application बनाने के लिए 10 साल coding सीखना ज़रूरी हो, यह ढाँचा कमज़ोर पड़ रहा है
- छोटी teams अब सैकड़ों लोगों की टीम और लंबे development cycle के बिना भी तेज़ी से बना और iterate कर सकती हैं
- यह दुनिया के कई क्षेत्रों में नए innovation खोलने के साधन की तरह काम कर रहा है
- cloud के शुरुआती दौर से अलग, AI adoption की speed बहुत तेज़ है
- 2006 में cloud के लिए लंबी व्याख्या देनी पड़ती थी कि “एक bookstore company computing क्यों दे रही है”, लेकिन AI को लोग बहुत तेज़ी से समझ लेते हैं
- simple intelligent chatbot से enterprise के अंदर असली काम करने तक बढ़ने की प्रक्रिया में शिक्षा की ज़रूरत थी, लेकिन technology change की रफ़्तार के हिसाब से यह काफ़ी तेज़ रही
- startup platform shifts को Internet, cloud, mobile, AI की चार बड़ी लहरों में समेटा गया
- YC के शुरुआती दिनों में AWS जैसे cloud की वजह से कम capital से भी company शुरू करना संभव हुआ
- colo space किराए पर लेना, server assemble करना और पहले से बड़ी रकम जुटाना जैसी बाधाएँ बहुत कम हो गईं
- यह मान्यता टूट गई कि सिर्फ server cost पर ही दसियों हज़ार डॉलर लगेंगे, और low-capital startup structure संभव हुआ
- बड़े platform transition के समय startups के लिए बड़ी कंपनियों को हराना आसान होता है, अगर वे छोटे cycle और कम capital के साथ तेज़ी से चल सकें
- अभी AI में भी वही पैटर्न दिखाई देता है
- YC के भीतर तो batch की शुरुआत और अंत के बीच ही अच्छी कंपनियों की revenue expectations बदल जाती हैं; revenue growth की speed पहले से कहीं ज़्यादा तेज़ है
- AWS अब भी कई scaling-stage startups का प्रमुख cloud बताया गया
- scale, availability, security, reliability, AWS के भीतर ISV partner ecosystem, और AWS के भीतर customer base — सब इसकी ताकत माने जाते हैं
- credits के अलावा system design advice और go-to-market advice भी दी जाती है, और startups को AWS की core foundation की तरह देखा जाता है
- हर quarter startup founders से मिलकर यह भी जाँचा जाता है कि product वास्तव में fit बैठ रहा है या नहीं
- आज startups में general compute के लिए AWS और AI के लिए OpenAI API को साथ इस्तेमाल करना बहुत आम pattern बन गया है
Bedrock Managed Agents और shared product की दिशा
- Bedrock Managed Agents को सिर्फ इस रूप में नहीं पेश किया गया कि OpenAI models AWS में आ रहे हैं, बल्कि OpenAI के frontier models को AWS-native agent runtime के भीतर रखने वाली संरचना के रूप में पेश किया गया
- identity, permission state, logging, governance, deployment जैसे operational elements साथ में आते हैं
- AI का अगला चरण text input देकर text output लेने से आगे बढ़कर, कंपनी के अंदर असल काम करने वाले stateful agents की ओर जा रहा है
- “virtual co-workers” शब्द पूरी तरह सही नहीं माना गया, लेकिन अभी के लिए सबसे कम अटपटा शब्द है
- industry अब भी इस चीज़ को क्या कहा जाए और कैसे इस्तेमाल किया जाए, इस पर पूरी तरह तय नहीं है
- Codex को इस प्रवाह का साफ़ उदाहरण बताया गया
- असली बात यह है कि चाहा गया काम हो जाए; user यह अलग करके नहीं देखता कि model ने ज़्यादा योगदान दिया या harness ने
- model और harness का integration agent performance का core माना गया
- tools, state, memory, permissions, evals असली behavior तय करते हैं
- यह pre-training के समान नहीं है, लेकिन post-training और prompt, दोनों स्तरों पर integration होता है
- शुरुआत में अलग लगने वाला tool-calling भी समय के साथ training process में अधिक गहराई से जुड़ रहा है
- आगे model और harness, और pre-training व post-training के बीच integration और मज़बूत हो सकता है
- industry की maturity को अब भी इतना शुरुआती बताया गया कि उसकी तुलना Homebrew Computer Club युग से की गई
- AWS और OpenAI की joint work का focus उन हिस्सों को साथ जोड़ना है जिन्हें ग्राहक को अभी तक खुद assemble करना पड़ता था, ताकि enterprise environment में value तक तेज़ी से पहुँचा जा सके
- ग्राहक चाहते हैं कि model और agent memory बनाए रखें और साथ में अच्छी तरह काम करें
- वे third-party tools के साथ-साथ अपने tools, अपने data, अपनी applications और अपने operational environment को भी जोड़ना चाहते हैं
- अभी तक यह integration work हर customer को खुद करना पड़ता था
- shared product में identity built-in है, और database authentication भी AWS VPC के अंदर होने के लिए डिज़ाइन की गई है
- लक्ष्य सिर्फ convenience बढ़ाना नहीं है, बल्कि उन चीज़ों को भी संभव बनाना है जो पुराने तरीके से मुश्किल assembly के बाद भी reliably implement नहीं हो पाती थीं
- मौजूदा हालत में developers को models के साथ कुछ बनाने के लिए बहुत ज़्यादा दर्द और manual work झेलना पड़ता है
- ChatGPT इस्तेमाल करते समय भी copy-paste और complex prompt combinations बहुत हैं
- यह friction धीरे-धीरे गायब होगी, लेकिन अभी का चरण बहुत शुरुआती और असुविधाजनक है
- यह partnership AWS में पहले से मौजूद उन ग्राहकों की demand से भी निकली है जो OpenAI technology चाहते हैं, और OpenAI की उस दिशा से भी जिसमें वह AWS customers तक अपनी पहुँच बढ़ाना चाहता है
- सिर्फ model distribution से आगे बढ़कर एक नया product साथ बनाने की भावना पर ज़्यादा ज़ोर दिया गया
- उम्मीद यह है कि एक साल बाद पीछे मुड़कर देखने पर “AWS से OpenAI models तक पहुँच मिल गई” से ज़्यादा अहम यह नया product साबित हो
- model, harness और capability के स्तर पर यह पारंपरिक model API call से अलग एक नए तरह की computing के करीब है
AgentCore, Managed Agents, और operating model
- AgentCore को memory, secure execution environment, authorization जैसी agent primitives के सेट के रूप में पेश किया गया
- Bedrock Managed Agents को AgentCore components के ऊपर OpenAI models और कई operational layers को जोड़कर AWS और OpenAI द्वारा jointly बनाए गए higher-level product के रूप में रखा गया
- सिर्फ AgentCore से भी सीधे agentic workflow बनाए जा सकते हैं
- कुछ ग्राहक इन्हें production में चला भी रहे हैं और real use cases में इस्तेमाल कर रहे हैं
- अभी भी AgentCore इस्तेमाल करते हुए OpenAI models को externally call करना संभव है
- यह Bedrock के भीतर native integration नहीं है, लेकिन कुछ ग्राहक दूसरे cloud में मौजूद OpenAI models को सीधे call करते हैं
- AWS इसे open ecosystem की तरह देखता है
- इच्छित capabilities जोड़कर खुद build करने का तरीका आगे भी जारी रह सकता है
- जैसे कुछ लोग घर पर खुद computer बनाना पसंद करते हैं, वैसे ही लंबे समय तक अपने agents खुद बनाने वाले builders भी रहेंगे
- लेकिन बहुत से ग्राहक ऐसा आसान तरीका चाहते हैं जिसमें उन्हें सारे pieces खुद configure न करने पड़ें, और यह launch उसी demand को target करता है
- Azure पर OpenAI का उपयोग जहाँ direct API access experience है, वहीं Amazon की यह घोषणा उससे अलग एक managed service के रूप में रखी गई
- यह managed agent service फिलहाल Amazon के साथ exclusive रूप में आगे बढ़ रही है
- यह सिर्फ Amazon API चलाने जैसा नहीं, बल्कि दोनों कंपनियों का joint effort है
- customer data AWS के भीतर ही रहता है
- पूरा flow VPC के भीतर रहता है और Bedrock environment में सुरक्षित रहता है
- OpenAI models Bedrock के माध्यम से चलते हैं, और infrastructure में Trainium और GPU का मिश्रण इस्तेमाल होता है
- कुछ हिस्से timing के कारण हैं, कुछ capabilities के कारण
- समय के साथ अधिक workload Trainium की ओर जाएगा, ऐसी दिशा बताई गई
- OpenAI भी इस बात को लेकर काफ़ी उत्साहित है कि उसके models Trainium पर चलें
- AWS environment में OpenAI models चलाने पर first-line support AWS संभालेगा
- ग्राहक AWS support और AWS account team के ज़रिए मदद पाएँगे
- build phase में OpenAI की टीम भी उपयोग के तरीके समन्वित करने में शामिल होगी
- जिन bugs में OpenAI की मदद चाहिए, उन्हें AWS OpenAI तक escalate करेगा
लोकल, cloud, permissions और security boundaries
- Codex के बारे में कहा गया कि वह पहले cloud में शुरू हुआ, लेकिन व्यवहार में फिर local execution की ओर लौटने जैसा pattern दिखा
- local आसान इसलिए है क्योंकि environment पहले से वहीं मौजूद होता है
- computer settings, data, file access पहले से उपलब्ध हैं, इसलिए extra setup कम चाहिए
- भले यह final state न हो, short term में usability ज़्यादा महत्वपूर्ण बन जाती है
- लंबे समय में agents का cloud में चलना अधिक उपयोगी दिशा माना गया, खासकर बहुत heavy कामों या ऐसे मामलों में जहाँ computer बंद करना पड़े
- local client के अपने फायदे बने रहते हैं
- iPhone app की तरह उसमें local component होने से connectivity, latency, local compute, file और application access के लाभ मिलते हैं
- लेकिन laptop को वैसे scale-out नहीं किया जा सकता, इसलिए scalability limits साफ़ हैं
- enterprise environment में local approach और कठिन हो जाती है
- जैसे ही दो लोगों के बीच sharing आती है, complexity बढ़ जाती है
- permissions और security boundaries संभालना ज़्यादा मुश्किल हो जाता है
- आख़िरकार local और cloud को जोड़ने वाला bridge चाहिए होता है
- agents को उसी तरह के environment में develop करना स्वाभाविक लगता है जिसमें उन्हें deploy किया जाएगा, और identity व permission design अब भी बहुत अधूरा क्षेत्र है
- क्या agent को सीधे human account इस्तेमाल करना चाहिए
- क्या agent का अलग account होना चाहिए
- कई agents होने पर उन्हें कैसे अलग किया जाए
- “Ben का agent, Ben के रूप में login करे लेकिन यह भी दर्ज रहे कि वह असली Ben नहीं बल्कि agent है” — इस तरह की primitive भी अभी मौजूद नहीं है
- जैसे-जैसे agents workforce का हिस्सा बनेंगे और autonomy व task complexity बढ़ेगी, कंपनी के अंदर और पूरे internet पर access control और permission models को भी विकसित होना पड़ेगा
- cloud की ओर जाने पर central organization security control अधिक मज़बूती से लागू कर सकती है
- ग्राहक शक्तिशाली models और agents की संभावना पसंद करते हैं, लेकिन सबसे बड़ी चिंता यह है कि कहीं गलती से कंपनी को भारी नुकसान न हो जाए
- VPC के अंदर चलाना, किसी खास gateway से गुज़रना, या environment role की तरह permission देना — इन तरीकों से boundaries नियंत्रित की जा सकती हैं
- AWS की 20 साल की security architecture की वजह से startups के साथ-साथ global banks, healthcare institutions और government agencies भी इसका उपयोग कर पाए
- risk-averse organizations के लिए sandbox के भीतर guardrails adoption को सीमित नहीं बल्कि बढ़ा भी सकते हैं
AI stack और enterprise architecture
- enterprise customers ऐसा management layer चाहते हैं जो data और agents को जोड़े, और token spend tracking व oversight दे
- बड़े enterprise ग्राहक लगातार ऐसा package माँगते हैं जिसमें agent runtime environment, management layer और employee workspace एक साथ हों
- employee workspace के उदाहरण के तौर पर Codex जैसी चीज़ का उल्लेख किया गया
- इस तरह के package की demand काफ़ी consistent है, लेकिन actual offering अभी और बननी बाकी है
- संगठन के भीतर अलग-अलग databases, SaaS apps और बिखरे data को जोड़ने के लिए middleware / middle layer की ज़रूरत पर सहमति दिखी
- इसी संदर्भ में OpenAI Frontier का भी उल्लेख हुआ
- मौजूदा structure में user interaction संभालने वाला user agent layer और company management layer — दोनों ज़रूरी लगते हैं
- user side पर कई agents से interaction और agents के बीच आपसी संवाद की build pattern उपयोग में है
- company management layer में AI जब file system वगैरह explore करे, तब ज़रूरी controls अहम हो जाते हैं
- लेकिन अगर models काफ़ी smarter हो जाएँ, तो पूरे architecture को दोबारा डिज़ाइन करना पड़ सकता है
- अभी का dual-layer structure मौजूदा दुनिया के हिसाब से बना है
- future architecture कैसा होगा, यह अभी साफ़ नहीं है
- किसी बिंदु पर यह निष्कर्ष आ सकता है कि “यह तो सीधे model के अंदर होना चाहिए”
- ग्राहक वास्तव में कैसे use और build करते हैं, उसी प्रक्रिया से सीखा जाएगा कि क्या चीज़ आसान, तेज़ और बेहतर बनानी है
demand, capacity, और model layering
- OpenAI इस business में काफ़ी compute खरीद और भारी effort लगा रहा है, और उसी के मुताबिक revenue की उम्मीद भी रखता है
- intelligence की demand को ऐसा माना गया कि अगर price काफ़ी कम हो जाए, तो यह लगभग बिना ऊपरी सीमा वाली demand जैसी हो सकती है
- फिलहाल price से ज़्यादा बड़ी रुकावट capacity shortage है
- ऐसे ग्राहक ज़्यादा हैं जो price की परवाह किए बिना अधिक capacity चाहते हैं और extra cost भी देने को तैयार हैं, बनिस्बत उन ग्राहकों के जो price पर बहस करते हैं
- यह भरोसा भी जताया गया कि मौजूदा स्तर की intelligence की cost आगे नाटकीय रूप से घटेगी
- पूरे market demand का बड़ा हिस्सा absolute frontier पर केंद्रित है, और इसे अपेक्षा से अधिक चौंकाने वाला संकेत बताया गया
- यह मानने के बजाय कि पिछली पीढ़ी के models काफी होंगे, ग्राहक लगातार सबसे नए top-tier models ही चाहते दिख रहे हैं
- जैसे compute cost दशकों से घटती रही लेकिन sales volume बढ़ता रहा, उसी तरह AI भी demand expansion के समान रास्ते पर जा सकता है
- अभी useful कामों के लिए अक्सर frontier models चाहिए होते हैं, इसलिए हर कोई उसी तरफ़ जाता दिखता है
- समय के साथ छोटे, सस्ते, तेज़ models और बहुत बड़े models साथ रहने वाली mixed structure बनने की उम्मीद है
- कुछ छोटे models समय के साथ ऐसे काम भी कर सकते हैं जो आज के latest OpenAI models भी अभी नहीं कर पाते
- बहुत बड़े models cancer treatment जैसी बड़ी समस्याओं की ओर जा सकते हैं
- अभी दौर बहुत शुरुआती है, और इसी स्तर पर demand व growth दोनों का साथ दिखना भविष्य की संभावना को और बड़ा बनाता है
Trainium, abstraction, और internal compute
- Trainium पर यह सवाल उठने पर कि नाम के उलट क्या inference में उसकी भूमिका आगे ज़्यादा बढ़ सकती है, AWS ने कहा कि वह training और inference दोनों में उपयोगी है
- ज़ोर इस बात पर रहा कि customer Trainium को सीधे नहीं बल्कि managed service abstraction के माध्यम से देखेंगे
- जैसे अधिकांश ग्राहक GPU को सीधे नहीं संभालते, वैसे ही OpenAI या Claude उपयोग करते समय वे असल में GPU, Trainium, TPU नहीं बल्कि interface से interact करते हैं
- आगे भी accelerator chips शायद कम संख्या वाले बड़े models और services के पीछे काम करेंगे
- संख्या 5, 10, 20 या 100 हो सकती है, लेकिन उन्हें सीधे program करने वाले लोग लाखों में नहीं पहुँचेंगे
- model training बहुत महँगी है और उसके लिए operational expertise भी काफ़ी चाहिए
- OpenAI team बड़े compute clusters से value निकालने में बेहद सक्षम है, लेकिन ऐसी टीम हर जगह नहीं होती
- OpenAI ने पहले खुद को token factory जैसा कहा, फिर तुरंत उसे सुधारते हुए intelligence factory के अधिक करीब बताया
- ग्राहक tokens की संख्या नहीं चाहते; वे पर्याप्त capacity के साथ सबसे कम cost पर सबसे अच्छी intelligence unit चाहते हैं
- GPT-5.5 का उदाहरण दिया गया कि per-token cost 5.4 से अधिक है, लेकिन वही उत्तर पाने के लिए tokens कहीं कम लगते हैं
- user इस बात से कम मतलब रखता है कि response में कितने tokens लगे; उसे यह ज़्यादा अहम लगता है कि काम पूरा हुआ या नहीं
- चाहे बड़ा model कम tokens में चले, या छोटा model ज़्यादा tokens में; चाहे GPU हो या Trainium — ग्राहक internal implementation नहीं बल्कि कम cost पर अधिक उपयोगिता चाहते हैं
- Codex या Amazon Bedrock के लिए Stateful Runtime Environment में नया agent बनाते समय भी user को internal compute choice के बारे में सोचने की ज़रूरत नहीं होनी चाहिए
- token usage में कमी मुख्य रूप से model improvements का परिणाम बताई गई; harness का असर सिर्फ आंशिक है
- AWS से पूछा गया कि क्या वह ऐसी managed service को दूसरे models तक भी बढ़ाएगा; जवाब सिर्फ इतना था कि अभी फोकस OpenAI के साथ collaboration पर है
बाज़ार का विकास और platform strategy
- ChatGPT को Facebook के बाद आया पहला बड़ा नया mass consumer product बताया गया
- OpenAI ने कहा कि ChatGPT के अलावा API और खासकर Codex में भी उसे काफ़ी अच्छे परिणाम मिले हैं
- यह भी याद किया गया कि पहले ज़ोर इस बात पर ज़्यादा था कि नया language interface internet से information खोजने के तरीके को कैसे बदल सकता है
- Google को आज भी breadth और depth के मामले में phenomenal company कहा गया
- AWS ने शुरुआत से partner-centric strategy अपनाई, और उसका विचार रहा कि partner सफल होंगे तो AWS भी सफल होगा
- यह हर चीज़ खुद own करने की strategy से अलग है और ज़्यादा pie बढ़ाने जैसा है
- ग्राहकों को उनके लिए सबसे उपयुक्त चीज़ चुनने की आज़ादी होनी चाहिए, चाहे वह AWS का अपना product हो या partner का
- Bedrock को भी इसी strategy पर broad model support और कई capabilities के लिए बनाया गया
- databases, compute platforms और दूसरे क्षेत्रों में भी AWS का रुख ऐसा ही रहा है
- AWS का मानना है कि infrastructure layer पर वह S3 जैसी अपनी core building blocks को मज़बूती से आगे बढ़ा सकता है, लेकिन stack के ऊपर जाते-जाते broader partner ecosystem को अपनाना ग्राहकों के लिए भी बेहतर होता है
- दोनों कंपनियों की भूमिकाएँ इस तरह रखी गईं: OpenAI software लाता है, AWS infrastructure देता है, और दोनों मिलकर platform बनाते हैं
- अगले 1 साल में model capabilities के तेज़ी से आगे बढ़ने की उम्मीद के बीच, अभी साथ में platform बनाना सही समय बताया गया
1 टिप्पणियां
Hacker News की राय
क्योंकि उसे Amazon जैसे "trusted" intermediary के ज़रिए access किया जा सकता था। OpenAI प्रतिबंधित है और उस पर भरोसा नहीं किया जाता
मैं ज़रूरी नहीं कि इन organizations की legal teams के फैसलों से सहमत हूँ, लेकिन उन्होंने service terms मुझसे कहीं ज़्यादा ध्यान से पढ़ी होंगी
यह घोषणा खेल बदल देगी या नहीं, यह देखना होगा, लेकिन अभी मेरे अनुभव में OpenAI कई मायनों में काफ़ी पीछे दिखता है
हालाँकि AI इंडस्ट्री में 2~8 हफ़्तों का फ़र्क बहुत बड़ा गैप भी नहीं होता, इसलिए यह वास्तविक असर से ज़्यादा perception की समस्या भी हो सकती है
कम-से-कम मेरे information bubble में Sam Altman की वजह से OpenAI की reputation बिल्कुल नीचे है, और यह unethical भी लगता है; fabs से जुड़ी माँगों जैसी चीज़ें देखें तो काफ़ी unstable भी दिखता है, इसलिए पसंद नहीं आता
सिर्फ AWS इस्तेमाल करना काफ़ी नहीं है, और AWS model चलाए तब भी अगर सही ZDR चाहिए तो उसके लिए अलग से बात करनी पड़ेगी [0]
[0]: https://platform.claude.com/docs/en/build-with-claude/claude...
दोनों को इससे साफ़ फ़ायदा हुआ, और AWS customers की feedback loop culture ने शायद Anthropic को enterprise readiness तेज़ी से बनाने में मदद की
Azure वाला विकल्प तो पहले से काफ़ी समय से मौजूद है
जबकि Anthropic एक चीज़ पर फ़ोकस करता है, और शायद यही वजह है कि वह SWE benchmarks में लगातार शीर्ष पर रहता है
AWS साफ़ कहता है कि input और output model provider के साथ share नहीं किए जाते, और base model training में भी इस्तेमाल नहीं होते [1]
ऊपर से OpenAI को NYT v. OpenAI मामले में मई 2025 का preservation order मिला है, और court उसे ChatGPT output logs को लगभग अनिश्चित समय तक सुरक्षित रखने के लिए मजबूर कर रही है
इसमें वे user-deleted conversations भी शामिल हैं जो सामान्यतः 30 दिनों में हटा दी जातीं [2]
इसलिए HIPAA/GDPR से बंधे organizations के लिए यह शुरुआती स्तर पर ही अयोग्य शर्त बन जाती है
[1] https://aws.amazon.com/bedrock/faqs/
[2] https://openai.com/index/response-to-nyt-data-demands/
politics या bureaucratic review ज़्यादातर निचले स्तर के लोगों को feature leftovers और operational कामों में उलझाए रखने जैसी चीज़ लगते हैं
अगर model GPT के OSS variant से काफ़ी मिलता-जुलता है, तो शायद यह जितना लगता है उतना जटिल नहीं रहा होगा
quantization, custom serving silicon, batching, और दूसरी inference optimizations की वजह से hosted version का व्यवहार original provider वाले version से अलग हो सकता है
यह paper बिल्कुल यही स्थिति नहीं देखता, बल्कि auditable open-weight Llama पर है, लेकिन मिलते-जुलते symptoms अच्छी तरह दिखाता है
https://arxiv.org/pdf/2410.20247
लगता है वहाँ अच्छा-ख़ासा margin भी निकाला जा सकता है
यह Microsoft से दूर जाने वाले broader trend से सीधे जुड़ा है या नहीं, यह भी जानना चाहूँगा
मेरे आसपास के उदाहरणों में, serious enterprise deployments में OpenAI को लगभग नज़रअंदाज़ किया जा रहा है, क्योंकि Azure पर उसका offering ख़ास नहीं है, और उसके अलावा enterprise-friendly रास्ते भी नहीं हैं
ऐसा लगता है कि OpenAI को समझ आ गया कि अगर वह enterprise market को Anthropic + AWS के हाथ लगातार जाने देता रहा तो यह घातक होगा, इसलिए वह catch up करने के लिए आगे बढ़ा है
https://news.ycombinator.com/item?id=47921248
finance और healthcare जैसे regulated industries के पास अक्सर पहले से AWS के साथ data residency commitments वाले contracts होते हैं
Bedrock पर OpenAI ऐसे organizations को OpenAI के साथ अलग से DPA negotiate करने की ज़रूरत से बचाता है, इसलिए यह कागज़ पर जितना दिखता है उससे कहीं बड़ा breakthrough हो सकता है
एक subprocessor कम हो जाता है, और data पहले से AWS के भीतर है, इसलिए उसे कहीं और भेजे जाने की चिंता भी कम होती है
जब तक AWS ने आख़िरकार हार मानकर Bedrock को उपयोगी बनाने के लिए OpenAI API compatibility नहीं जोड़ दी हो
Responses और Chat Completions supported हैं, यहाँ देख सकते हैं https://docs.aws.amazon.com/bedrock/latest/userguide/endpoin...
सिर्फ इस HN पोस्ट में ही announcement links एक साथ 4 आईं, यह संयोग नहीं है
अगर ग़लत बात ग़लत समय पर निकल जाए तो अरबों डॉलर की funding हिल सकती है, इसलिए messaging को बहुत सावधानी से तराशकर चरणबद्ध तरीके से बाहर भेजा जाता है