Cloudflare का AI प्लेटफ़ॉर्म: एजेंट्स के लिए inference layer

(blog.cloudflare.com)

2 पॉइंट द्वारा GN⁺ 13 일 전 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

अलग-अलग मॉडल और providers को एकीकृत करके agentic applications की जटिलता कम करने के लिए unified inference layer बनाया गया है
AI Gateway और Workers AI के ज़रिए 70 से अधिक models और 12 से अधिक providers को एक ही API से कॉल किया जा सकता है, और cost व usage को केंद्रीय रूप से मैनेज किया जा सकता है
custom models को सीधे deploy करने के लिए Replicate की Cog technology का उपयोग कर container-based model execution को support किया गया है
दुनिया भर के 330 शहरों के infrastructure का उपयोग करके latency को न्यूनतम किया जाता है, और failure होने पर automatic routing से stable inference सुनिश्चित किया जाता है
Replicate टीम Cloudflare में शामिल हो गई है, जिससे model hosting और deployment का पूर्ण integration हो रहा है, और यह agent development के लिए single platform के रूप में विस्तार कर रहा है

Cloudflare AI Platform का overview

AI models में तेज़ बदलाव और providers के बीच अंतर की वजह से, कई models को मिलाकर इस्तेमाल करने वाले agentic applications की जटिलता बढ़ रही है
- उदाहरण के लिए, एक customer support agent message classification के लिए तेज़ model, planning के लिए बड़ा model, और execution के लिए lightweight model इस्तेमाल कर सकता है
- किसी एक provider पर निर्भर हुए बिना cost, reliability, latency को एक साथ मैनेज करने की ज़रूरत होती है
Cloudflare ने AI Gateway और Workers AI के आधार पर, सभी models को एक API से कॉल करने योग्य unified inference layer बनाया है
- हाल ही में dashboard redesign, default gateway auto-configuration, upstream failure auto-retry, और granular logging control जैसी सुविधाएँ जोड़ी गई हैं

एक catalog, एक unified endpoint

AI.run() binding के ज़रिए Cloudflare Workers में third-party models (OpenAI, Anthropic आदि) को सीधे कॉल किया जा सकता है
- Cloudflare-hosted model से third-party model पर स्विच करते समय code की सिर्फ एक line बदलनी होती है
- REST API support भी जल्द उपलब्ध होगा, जिससे किसी भी environment से पूरे model catalog तक पहुँचा जा सकेगा
70 से अधिक models, 12 से अधिक providers को एक ही API और billing unit के साथ इस्तेमाल किया जा सकता है
- प्रमुख providers: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- image, video, और voice models सहित multimodal applications बनाए जा सकते हैं
सभी model calls एक ही API में एकीकृत होने से AI usage और cost को centrally manage किया जा सकता है
- औसतन कंपनियाँ 3.5 models को कई providers से कॉल कर रही हैं, लेकिन AI Gateway इन्हें एक single dashboard में track कर सकता है
- request के समय custom metadata शामिल करके customer-wise और workflow-wise cost analysis किया जा सकता है

अपना मॉडल सीधे deploy करें (Bring Your Own Model)

AI Gateway सभी providers के models को एकीकृत रूप से उपलब्ध कराता है, लेकिन user data पर fine-tuned models को सीधे deploy करने की सुविधा भी तैयार की जा रही है
- अभी enterprise customers dedicated instances पर custom models चला रहे हैं, और इसे आगे सामान्य users तक विस्तारित किया जाएगा
Cloudflare, Replicate की Cog technology का उपयोग करके machine learning models को containerize करता है
- cog.yaml फ़ाइल में dependencies define करें, और predict.py फ़ाइल में inference code लिखें, तो packaging अपने आप हो जाती है
- Cog, CUDA, Python versions, weight loading जैसी जटिल settings को abstract कर देता है
cog build कमांड से container image build करके Workers AI पर upload करने के बाद, Cloudflare deployment और service संभालता है
- आगे wrangler commands, GPU snapshot-based fast cold starts, और customer API उपलब्ध कराने की योजना है
- अभी internal और कुछ external customers के साथ testing चल रही है, और योजना है कि कोई भी अपना model Workers AI पर इस्तेमाल कर सके

first token तक की speed optimization

AI Gateway + Workers AI का संयोजन real-time response की ज़रूरत वाले live agents के लिए खास तौर पर फ़ायदेमंद है
- भले ही कुल inference time 3 seconds हो, अगर पहला token 50ms पहले पहुँच जाए तो user-perceived speed बेहतर लगती है
Cloudflare, दुनिया भर के 330 शहरों के data centers के माध्यम से user और inference endpoint के बीच network latency को न्यूनतम करता है
Workers AI, Kimi K2.5 और real-time voice models जैसे agent-specialized open source models host करता है
- AI Gateway के ज़रिए कॉल करने पर code और inference एक ही network में चलते हैं, जिससे सबसे कम latency हासिल होती है

automatic failover पर आधारित reliability

agent workflows में चरणों के बीच निर्भरता अधिक होती है, इसलिए inference reliability बहुत महत्वपूर्ण है
- AI Gateway में यदि एक ही model कई providers पर मौजूद हो, तो किसी एक में failure आने पर यह अपने आप दूसरे provider पर route कर देता है
- developers को अलग से failure-handling logic लिखने की ज़रूरत नहीं होती
Agents SDK** का उपयोग करने वाले long-running agents के मामले में, streaming inference को** कनेक्शन टूटने के बाद भी restore किया जा सकता है
- AI Gateway streaming response को स्वतंत्र रूप से buffer करता है, इसलिए interruption होने पर reconnect के बाद वही response फिर से इस्तेमाल किया जा सकता है
- duplicate billing के बिना वही tokens restore किए जाते हैं, और SDK की checkpoint feature के साथ मिलकर user को interruption का पता भी नहीं चलता

Replicate integration

Replicate टीम Cloudflare AI Platform टीम में शामिल हो गई है, और पूर्ण integration जारी है
- Replicate के सभी models को AI Gateway में migrate किया जा रहा है, और hosted models को Cloudflare infrastructure पर replatform किया जा रहा है
- users मौजूदा Replicate models को AI Gateway से कॉल कर सकते हैं, या Replicate पर deploy किए गए models को Workers AI में host कर सकते हैं

शुरू करना

developers AI Gateway docs या Workers AI docs से शुरुआत कर सकते हैं
Agents SDK के माध्यम से Cloudflare पर agents बनाए जा सकते हैं

Cloudflare की भूमिका

Cloudflare एक connectivity cloud के रूप में enterprise networks की सुरक्षा, large-scale applications का निर्माण, web performance acceleration, DDoS defense और Zero Trust security को support करता है
मुफ़्त app 1.1.1.1 के ज़रिए तेज़ और अधिक सुरक्षित इंटरनेट इस्तेमाल किया जा सकता है
Cloudflare का mission बेहतर इंटरनेट बनाना है, और अधिक जानकारी व hiring से जुड़ी बातें इसकी official website पर देखी जा सकती हैं

Cloudflare का AI प्लेटफ़ॉर्म: एजेंट्स के लिए inference layer

Cloudflare AI Platform का overview

एक catalog, एक unified endpoint

अपना मॉडल सीधे deploy करें (Bring Your Own Model)

first token तक की speed optimization

automatic failover पर आधारित reliability

Agents SDK** का उपयोग करने वाले long-running agents के मामले में, streaming inference को** कनेक्शन टूटने के बाद भी restore किया जा सकता है

Replicate integration

शुरू करना

Cloudflare की भूमिका

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.

Agents SDK का उपयोग करने वाले long-running agents के मामले में, streaming inference को कनेक्शन टूटने के बाद भी restore किया जा सकता है