1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3.7-Max एक agent-केंद्रित proprietary मॉडल है, जिसे coding·debugging, office automation, और सैकड़ों से हज़ारों चरणों वाले autonomous execution के लिए बनाया गया है
  • coding·general-purpose agent·reasoning·multilingual evaluations में यह प्रतिस्पर्धी मॉडलों के साथ टक्कर लेता है, और Terminal Bench 2.0-Terminus में 69.7 तथा GPQA Diamond में 92.4 अंक दर्ज करता है
  • 35 घंटे की autonomous kernel optimization में इसने 1,158 tool calls और 432 evaluations किए, और Triton baseline के मुकाबले geometric mean 10.0x speedup हासिल किया
  • training instances को Task·Harness·Verifier में अलग करके cross-harness RL training की जाती है, जिससे किसी खास harness shortcut के बजाय generalized problem solving को बढ़ावा मिलता है
  • Alibaba Cloud Model Studio के माध्यम से जल्द API उपलब्ध होगी, और Claude Code·OpenClaw·Qwen Code जैसे agent frameworks के साथ integration संभव है

प्रदर्शन मूल्यांकन

  • Qwen3.7-Max का मूल्यांकन coding agents, general-purpose agents, STEM·reasoning, general capabilities, और multilingual क्षेत्रों में कई तुलना मॉडलों के साथ किया गया
  • खाली सेल(--) का अर्थ है कि स्कोर अभी उपलब्ध नहीं कराया गया है
  • Coding agent

    • Terminal Bench 2.0-Terminus में इसने 69.7 अंक दर्ज किए, जो DS-V4-Pro Max के 67.9 से अधिक है
    • SWE-Verified में 80.4 अंक के साथ यह Opus-4.6 Max 80.8 और DS-V4-Pro Max 80.6 के लगभग समान स्तर पर है
    • इसने SWE-Pro 60.6, SWE-Multilingual 78.3, SciCode 53.5, और QwenSVG 1608 अंक दर्ज किए
    • NL2repo का मूल्यांकन Claude Code से किया गया, और pip download, pip install, git clone जैसे Bash commands, जो किसी विशेष repository access की कोशिश कर सकते थे, disable किए गए
    • QwenWebDev एक English·Chinese bilingual frontend code generation internal benchmark है, जो 7 categories, automatic rendering, multimodal judging, और BT/Elo scoring का उपयोग करता है
  • General-purpose agent

    • MCP-Mark में 60.8 अंक के साथ इसने GLM-5.1 के 57.5 को पार किया, और MCP-Atlas में 76.4 अंक के साथ Opus-4.6 के 75.8 को पीछे छोड़ा
    • Skillsbench में 59.2 अंक के साथ यह K2.6 के 56.2 से आगे रहा
    • Kernel Bench L3 में median 1.98x speedup और 96% win rate दर्ज कर इसने GPU kernel optimization क्षमता दिखाई
    • BFCL-V4 75.0, Qwenclaw 64.3, और ClawEval 65.2 अंकों के साथ यह Opus-4.6 Max के क़रीब रहा
    • SpreadSheetBench-v1 में 87.0 अंक दर्ज कर इसने office automation benchmark में भी उच्च प्रदर्शन दिखाया
    • QwenClawBench एक open source Claw agent benchmark है, जो वास्तविक user distribution को दर्शाता है
    • CoWorkBench एक internal collaboration benchmark है, जो computer science, finance, law, medical जैसे productivity domains में long-horizon tasks को कवर करता है
  • Reasoning

    • GPQA Diamond में 92.4 अंक के साथ इसने Opus-4.6 के 91.3 को पार किया
    • HLE में 41.4 अंक के साथ इसने Opus-4.6 के 40.0 को पार किया, और HMMT 2026 Feb में 97.1 अंक के साथ Opus-4.6 के 96.2 से आगे रहा
    • IMOAnswerBench में 90.0 अंक के साथ इसने DS-V4-Pro के 89.8 को पार किया, और Apex में 44.5 अंक के साथ DS-V4-Pro के 38.3 को पीछे छोड़ा
    • reasoning scenarios के लिए Reasoning effort is set to xhigh... से शुरू होने वाला system prompt recommended है
  • General capabilities और multilingual

    • IFBench में 79.1 अंक के साथ इसने DS-V4-Pro के 77.0 को पार किया और precise instruction following क्षमता दिखाई
    • WMT24++ में 85.8 और MAXIFE में 89.2 अंक दर्ज कर इसने multilingual understanding और translation quality में भी मजबूती दिखाई
    • SuperGPQA में 73.6 और QwenWorldBench में 57.3 अंक दर्ज किए गए
    • WMT24++ अधिक कठिन WMT24 subset है, जो 55 भाषाओं में XCOMET-XXL average score का उपयोग करता है
    • MAXIFE English और multilingual prompts की 23 settings में accuracy मापता है
    • MMLU-ProX 29 भाषाओं की average accuracy का उपयोग करता है

मूल्यांकन शर्तें और benchmark विवरण

  • Terminal-Bench 2.0 का मूल्यांकन Harbor/Terminus-2 harness, 5 घंटे की सीमा, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, अधिकतम 80K tokens, 256K context, और 5-run average के साथ किया गया
  • SWE-Bench series का मूल्यांकन internal agent scaffold और Bash·file editing tools के साथ, temp=1.0, top_p=0.95, और 200K context window पर किया गया
  • SkillsBench का मूल्यांकन OpenCode से किया गया, और external API dependency वाले 9 tasks को छोड़कर 78 tasks पर 5-run average का उपयोग किया गया
  • MCP-Mark में GitHub MCP v0.30.3 का उपयोग हुआ, और Playwright responses को 32K tokens पर truncate किया गया
  • MCP-Atlas public set score है और इसमें gemini-2.5-pro judge का उपयोग किया गया
  • Kernel Bench L3 में 50 समस्याओं पर PyTorch eager baseline की तुलना में per-problem speedup के median और torch.compile से तेज़ समस्याओं के अनुपात की रिपोर्ट दी गई
  • Kernel Bench L3 का प्रत्येक test sample एक isolated Docker container में चलाया जाता है, जिसमें 1 H100 80GB GPU होता है, और internet access CUTLASS codebase तथा official CUDA docs तक सीमित रहता है
  • Kernel Bench L3 में 500 tool calls की सीमा, 100 non-improving turns के बाद early stopping, GPT-5.4(xhigh) से संभावित hacking behavior detection, और CUPTI से kernel-level timing measurement का उपयोग होता है
  • MRCR-v2, 8 needles वाला 128K context subset है, और Google DeepMind eval_hub का mrcr_v2 protocol अपनाता है

सहयोगी productivity assistant

  • Qwen3.7-Max का लक्ष्य real-world work productivity के लिए एक उन्नत colleague की भूमिका निभाना है, जो complex information synthesis, deep data analysis और modeling, तथा publishable documents·visualizations तैयार कर सके
  • यह मुख्य agent harnesses के साथ baseline compatibility रखता है, और long-horizon tasks में autonomous planning तथा कई घंटों तक लगातार execution को support करता है
  • हज़ारों tool calls और दर्जनों refinement iterations के माध्यम से output quality को क्रमिक रूप से बेहतर बनाता है
  • इसका दावा है कि जिन complex projects में सामान्यतः expert teams को 1–2 हफ़्ते लगते हैं, उन्हें यह कुछ घंटों में end-to-end पूरा कर सकता है

Agent training और generalization

  • Qwen3.5 में पेश किए गए environment scaling दृष्टिकोण के आधार पर, Qwen3.7 में agent training environments की quality और diversity का विस्तार किया गया है
  • यह उस अवलोकन पर आधारित है कि जैसे language models विविध pretraining text से generalize करते हैं, वैसे ही agent capabilities भी विविध training environments से generalize करती हैं
  • मूल्यांकन के सभी benchmarks पूरी तरह नए out-of-domain environments से बने हैं, जो training में शामिल नहीं थे
  • environment scaling स्पष्ट और सुसंगत improvement trajectory बनाता है, और Qwen3.7-Max ने Claude-4.6-Opus-Max के क़रीब top-3 average ranking हासिल की
  • benchmark subsets में performance improvements इतने सुसंगत हैं कि वे शेष benchmarks और overall average में relative gains की भविष्यवाणी कर सकें, जो benchmark-specific tuning की बजाय capability generalization की ओर इशारा करता है
  • scaling dynamics और methodology का अतिरिक्त विश्लेषण भविष्य की technical report में कवर किया जाएगा

Cross-harness generalization

  • Rollout environment infrastructure प्रत्येक training instance को Task, Harness, Verifier नामक तीन orthogonal components में अलग करती है
  • यह विभिन्न harnesses और उनके versions को support करती है, और synthetic proxies के बजाय real-world environments पर आधारित environments का उपयोग करती है
  • यह अलगाव वाला design, उसी task को अलग-अलग harness types·versions और verifiers के साथ न्यूनतम अतिरिक्त लागत पर संयोजित करने वाला combinatorial scaling संभव बनाता है
  • cross-harness·cross-verifier RL training, जिसमें एक ही task अलग harness configurations में मिलता है, मॉडल को किसी खास harness shortcut के बजाय generalized problem-solving strategies सीखने में मदद देती है
  • QwenClawBench और CoWorkBench में Qwen3.7-Max ने evaluation में उपयोग किए गए harness से स्वतंत्र रूप से मज़बूत और सुसंगत प्रदर्शन दिखाया

वास्तविक environment में self-evolution

  • Extend Attention SGLang का production-grade variable-length multihead attention operator है
  • test scenario, MTP के साथ नए generated tokens और अधिकतम 32K items वाले prefix KV-cache के बीच attention scores की गणना करने वाले LLM serving के memory bottleneck और latency-sensitive kernel से जुड़ा है
  • baseline implementation, SGLang की official Triton implementation है
  • अज्ञात PPU architecture पर kernel optimization

    • Qwen3.7-Max ने इस kernel को T-Head ZW-M890 PPU लगे ECS instance पर optimize किया, जिसे उसने training के दौरान कभी नहीं देखा था
    • इसने बिना किसी prior profiling data, hardware documentation, या उस architecture के example kernels के काम शुरू किया
    • खाली workspace में केवल task description, मौजूदा SGLang implementation, और evaluation script मौजूद थे
    • लगभग 35 घंटे के लगातार autonomous execution के दौरान इसने 1,158 tool calls और 432 kernel evaluations किए
    • compile failures का diagnosis, correctness bugs की मरम्मत, runtime profiling आधारित bottleneck पहचान, और kernel architecture redesign—यह सब इसने स्वयं किया
    • अंतिम परिणाम कई workloads पर Triton baseline की तुलना में geometric mean 10.0x speedup रहा
    • 30 घंटे बीत जाने के बाद भी इसने meaningful improvements ढूँढे, जिससे long-horizon autonomous optimization की उत्पादकता दिखाई दी
  • Optimization trajectory

    • Split-KV parallelization के जरिए prefix KV-cache को प्रति query कई thread blocks में बाँटा गया, और online softmax rescaling से partial results merge करने वाला reduction kernel जोड़ा गया, जिससे लगभग 2 घंटे में प्रदर्शन 0.33x से 2.58x हुआ
    • per-call cudaMalloc/cudaFree को preallocated torch::empty tensors से बदला गया, synchronous cudaMemcpy हटाया गया, और inner loop को 2x unroll किया गया, जिससे लगभग 2.5 घंटे में 5.37x तक सुधार हुआ
    • fixed split divisor को workload-size आधारित heuristic से बदला गया और 36-SM architecture की SM wave occupancy बढ़ाई गई, जिससे लगभग 3 घंटे में 6.85x तक पहुँचा गया
    • shared memory barriers हटाने, register-based K/V loading, persistent static tensor, batched softmax update, और Q pre-scaling को मिलाकर 3–25 घंटे के बीच 8.50x तक सुधार हुआ
    • MTP γ=4 specialized kernel, जो प्रति block 4 query tokens को साथ प्रोसेस करता है और queries के बीच K/V loads share करता है, 32–35 घंटे के बीच 10.0x तक पहुँचा
  • समान शर्तों में तुलना

    • GLM 5.1 ने 7.3x, Kimi K2.6 ने 5.0x, DeepSeek V4 Pro ने 3.3x, और Qwen3.6-Plus ने 1.1x हासिल किया
    • जो models जल्दी रुक गए, उन्होंने लगातार 5 tool calls तक कोई प्रगति न होने पर यह मानकर session स्वेच्छा से समाप्त कर दिया कि अब आगे बढ़ना संभव नहीं है
  • NVIDIA GPU kernel generation

    • Qwen3.7-Max केवल PPU kernel generation ही नहीं, बल्कि विभिन्न NVIDIA GPUs पर भी production-grade kernels बना सकता है
    • KernelBench L3 में Qwen3.7-Max, 96% scenarios में accelerated kernels बना सका
    • तुलना के लिए Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, और Qwen3.6-Plus 48% थे
  • Long-horizon autonomous agent की विशेषताएँ

    • 1,000 से अधिक tool calls के दौरान optimization strategy बनाए रखते हुए, context खोए बिना या regression के बिना इसने long-horizon reasoning persistence दिखाई
    • training में न देखे गए architecture पर memorized hardware knowledge की बजाय runtime feedback के आधार पर प्रतिस्पर्धी kernels बनाकर इसने in-context generalization प्रदर्शित की

Reward hacking monitoring

  • Qwen3.7-Max को software engineering tasks के RL monitoring में integrate किया गया, जिससे reward hacking self-monitoring और rule self-evolution framework बना
  • 80 घंटे से अधिक के RL experiments के दौरान इसने training trajectories को autonomously search और replay किया तथा 10,000 से अधिक calls चलाए
  • इसने व्यवस्थित रूप से ऐसे संभावित hacking patterns की पहचान की, जैसे GitHub पर answers तक पहुँचने के लिए constraints को bypass करने की कोशिशें
  • इसने rule validation, counterexample mining, और iterative optimization किया
  • कई बार rule self-evolution के माध्यम से 13 नए heuristic rules जोड़े गए, और 1,618 hacking cases को सटीक रूप से flag किया गया
  • इस प्रक्रिया ने RL rewards की stability सुनिश्चित की और एक sophisticated software engineering agent के रूप में मॉडल के निरंतर self-improvement को प्रोत्साहित किया

Startup management में long-horizon planning और execution

  • Dynamic Cumulative Survival Games framework में training tasks की time complexity को बढ़ाकर long-horizon planning और execution capabilities को मज़बूत किया गया
  • 1,000 से अधिक steps वाले sequential decision-making trajectories में agent की policy consistency बढ़ाई गई, जिससे hypothesis building, environment feedback आधारित strategy adjustment, और long-term experience तथा memory accumulation लगातार बने रहें
  • लंबे समय-क्षेत्र में भी स्थिर execution rhythm बनाए रखते हुए इसे context degradation और instruction drift के प्रति अधिक resilient बनाया गया
  • YC-Bench परिणाम

    • YC-Bench एक benchmark है जो startup के पूरे 1-वर्षीय lifecycle का simulation करता है
    • agent को hiring management, contract review, malicious customers की पहचान जैसी सैकड़ों rounds की decision-making करनी होती है, और बढ़ती labor cost के बीच profit margin भी बनाए रखना होता है
    • Qwen3.7-Max ने कुल revenue 2.08 million dollars हासिल किया, जो Qwen3.6-Plus के 1.05 million dollars से 2x और Qwen3.5-Plus के 352 thousand dollars से 5.9x प्रदर्शन है
    • इसने 237 tasks पूरे किए
    • इसने potential customer discovery, malicious traps की पहचान और blacklist में जोड़ना, stable revenue sources को प्राथमिकता देना, और mid-term crises से autonomous recovery जैसे कार्य किए
    • अंततः यह एक stable और high-efficiency execution loop पर converge हुआ

Qwen3.7 के साथ निर्माण

  • Qwen3.7-Max जल्द Alibaba Cloud Model Studio के माध्यम से उपलब्ध होगा, और इसे लोकप्रिय agent frameworks तथा coding assistants में integrate किया जा सकेगा
  • API उपयोग

  • Frontend coding

    • Qwen3.7-Max एक single prompt से Three.js 3D scenes, Canvas animations, full-page layouts, और dynamic SVG सहित interactive web applications बना सकता है
    • example prompt में camera के माध्यम से हथेली के खुलने·बंद होने का पता लगाकर particle cluster के contraction और diffusion को नियंत्रित करना, और finger gestures 1·2 के अनुसार क्रमशः hello, world तथा I’am Qwen टेक्स्ट बनाना, साथ ही 3D rotation effect वाला HTML implementation माँगा गया है
  • Office assistant

    • Qwen3.7-Max tool integration के माध्यम से intelligent office assistant की तरह काम कर सकता है
    • उदाहरण में यह university thesis formatting rules पढ़ता है और अव्यवस्थित draft को autonomous office-cli tool calls से फिर से format करता है
    • यह page layout, title styles, fonts, margins, table of contents, और bibliography formatting को संशोधित करता है
    • sample thesis demo के लिए AI द्वारा generated है
  • Physical world navigation agent

    • Qwen3.7-Max tool calls के माध्यम से robot dog को संचालित कर सकता है
    • यह physical environment में physical understanding, planning, memory, और decision-making करता है
    • यह robotics agent harness Qwen-RobotClaw, navigation-based model Qwen-RobotNav, और Qwen-plus model से बने कई vision tools का उपयोग करता है
    • demo के बाएँ panel में physical world में 20 मिनट तक चली agent tool-call interaction flow, बीच में quadruped robot की trajectory पर first-person view, और दाएँ में agent की long-term memory दिखाई जाती है
  • Coding assistant integration

    • Qwen3.7-Max लोकप्रिय agent frameworks और coding assistants में integrate होता है
    • Claude Code

      • Qwen API, Anthropic API protocol को support करती है, इसलिए इसे Claude Code में सीधे इस्तेमाल किया जा सकता है
      • ANTHROPIC_MODEL और ANTHROPIC_SMALL_FAST_MODEL को qwen3.7-max पर सेट करें, और ANTHROPIC_BASE_URL को https://dashscope-intl.aliyuncs.com/apps/anthropic पर सेट करें
    • OpenClaw

      • OpenClaw को Model Studio के माध्यम से जोड़ा जा सकता है
      • DASHSCOPE_API_KEY सेट करने के बाद openclaw dashboard चलाएँ, और ~/.openclaw/openclaw.json में modelstudio/qwen3.7-max को default model के रूप में निर्दिष्ट करें
      • configuration example में contextWindow 1000000, maxTokens 65536, और reasoning true शामिल हैं
    • Qwen Code

      • Qwen Code Qwen series के लिए गहराई से optimized है
      • इसे npm install -g @qwen-code/qwen-code@latest से install करने के बाद qwen command से चलाया जा सकता है

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की राय
  • AA-omniscience में non-hallucinated response rate सबसे ऊँचे स्तर पर है, और Opus 4.7, Gemini 3.1 Pro, GPT5.5 से बेहतर है। टीम को बधाई

    • मैंने यह लिंक देखा: https://artificialanalysis.ai/evaluations/omniscience?models...
      यह डिफ़ॉल्ट में दिख नहीं रहा था, चार्ट में हाथ से जोड़ना पड़ा, और मैं सोच रहा हूँ क्या यह dataset में सबसे कम hallucination rate है
    • ऐसे top-tier Chinese models को काफी इस्तेमाल करने पर सबसे बड़ा सवाल यह होता है कि token efficiency कैसी है
      उदाहरण के लिए, अगर Step 3.5 Flash को लोकल में चलाएँ तो overall यह हैरान करने वाला सक्षम है, लेकिन token efficiency इतनी खराब है कि वास्तविक elapsed time के हिसाब से यह ज़्यादातर दूसरे models से पीछे रह जाता है। llama.cpp में MTP support को hack करके डालने पर भी Spark में 20tk/s से 30tk/s तक ही गया, और जबकि इसे तीन heads के साथ train किया गया था, MTP 2 ही sweet spot निकला
      DeepSeek models और Qwen 3.5 Plus भी कुछ ऐसे ही हैं, इसलिए Opus, खासकर GPT 5.5 की तुलना में, वही जवाब देने के लिए बहुत ज़्यादा tokens खर्च करते हैं
      मुझे सच में उम्मीद है कि Qwen 3.7 इस मामले में बेहतर होगा, और मैं इसे जल्दी आज़माना चाहता हूँ। वैसे Spark पर DeepSeek v4 Flash चलाना सचमुच अविश्वसनीय रूप से दिलचस्प था, और अगर antirez इसे देखें तो मैं उन्हें धन्यवाद कहना चाहूँगा
    • “non-hallucinated response rate” का perfect होना अपने आप में बहुत मायने नहीं रख सकता। क्योंकि ऐसे tests में human-made hallucinations भी हो सकते हैं
      आखिर में इसका मतलब बस इतना है कि model उस समूह की उन मान्यताओं से कितना मेल खाता है जिसने test बनाया, चाहे वे सच हों या झूठ
    • वाकई कमाल है, और प्रगति प्रभावशाली है। यह भी जानना दिलचस्प होगा कि training में in-house chips का कितना इस्तेमाल हुआ
    • मैं सोच रहा हूँ कि किस स्तर पर capability state transition होता है। 5% पर, या 1% पर
  • कल रात मैं अपने साप्ताहिक Claude Code limit के खतरनाक रूप से करीब पहुँच गया, इसलिए मैंने Claude से llama.cpp और OpenCode के साथ Qwen3.6 सेटअप करवाया। ईमानदारी से कहूँ तो यह Claude Code का शानदार मुफ्त विकल्प है, और छोटे व कम जटिल कामों के अच्छे-खासे हिस्से के लिए पर्याप्त रूप से अच्छा है
    इस नए version को भी आज़माने का इंतज़ार है। open source models का frontier के इतना करीब आ जाना बहुत प्रभावशाली है

    • जानना चाहूँगा कि आप इसे किस मशीन और किस model पर चला रहे हैं
      पिछले हफ्ते मैंने M2 MacBook Pro 32GB पर llama.cpp और LM Studio के साथ qwen3.6-27b Q6_k GUFF चलाने की कोशिश की, और दोनों में मुश्किल से 1 token प्रति सेकंड मिल रहा था
      समझ नहीं आ रहा कि कितनी speed की उम्मीद करनी चाहिए। मुझे याद है कि 2 साल पहले llama.cpp पर Llama 3 34b family models चलाते समय कुछ tokens per second मिल जाते थे, इसलिए समझ नहीं आ रहा कि मैंने config पूरी तरह गलत किया है या मेरी expectations ही अवास्तविक हैं
      यह भी सोच रहा हूँ कि क्या qwen 3.x किसी वजह से ज़्यादा slow है। यह mixture-of-experts (MoE) architecture है या नहीं, यह भी जानना है। मुझे instant responses की उम्मीद नहीं है, लेकिन मौजूदा speed पर इसे practically इस्तेमाल करना मुश्किल है
    • यह नया version लोकल में चलाने लायक चीज़ नहीं है। यह एक cloud model है, और अगर weights जारी भी किए जाएँ तो शायद बहुत बड़े होंगे
    • जानना चाहूँगा कि आप ठीक कौन-सा model इस्तेमाल कर रहे हैं। कौन-से parameters और quantization हैं, और hardware क्या है
      यह भी जानना चाहूँगा कि क्या आप context-mode या dynamic context pruning जैसी performance optimization के लिए MCP या कोई और tool इस्तेमाल कर रहे हैं। मैंने local models काफी चलाए हैं, लेकिन opencode अभी शुरू किया है, और अभी नतीजे बहुत अच्छे नहीं हैं, फिर भी simple tasks में यह ज़रूर अच्छा काम करे ऐसी उम्मीद है। साथ ही, नया install किया हुआ opencode idle रहने पर भी iTerm CPU का 100% खा रहा है
    • Qwen Max आमतौर पर closed model होता है, जो अफ़सोस की बात है
    • मैं जानना चाहूँगा कि Qwen 3.6 का अनुभव Sonnet 4.6 की तुलना में कैसा है। क्योंकि वास्तविक उपयोग में लोग उसी का ज़्यादा इस्तेमाल करते हैं
      अगर मैं code-related काम पूरी तरह Opus 4.7 से करूँ, तो मासिक bill Sonnet इस्तेमाल करने की तुलना में 10–20 गुना ज़्यादा होगा
  • जब वे ज़्यादा proprietary models जारी करने लगे हैं, तो अच्छा होगा अगर वे किसी बड़े अमेरिकी hyperscaler के साथ साझेदारी करें ताकि ऐसे models को US-based providers के ज़रिए इस्तेमाल किया जा सके
    मैं पूरी तरह समझता हूँ कि यह उनके लिए तर्कसंगत न हो, या उनके हित में न हो। और यह भी सही है कि अमेरिका भी उल्टी दिशा में ऐसा अपने आप नहीं करता। फिर भी अच्छा होगा अगर इन्हें असली production workloads पर ठीक से टेस्ट किया जा सके

    • जब तक अमेरिकी hyperscalers भी दूसरी दिशा में वही काम नहीं करते, मैं चाहूँगा कि मौजूदा स्थिति बनी रहे। अगर सबको sharing मंज़ूर है तो यह दोनों दिशाओं में होना चाहिए, वरना अमेरिकी hyperscalers पहले की तरह अलग-थलग ही रहें
    • Qwen3.6-Plus Fireworks पर उपलब्ध है
    • Alibaba Cloud का Mexico data center है
    • Fireworks अगर Qwen 3.6 Plus host कर रहा है, तो शायद Qwen 3.7 Plus भी ला सकेगा
    • ChatLLM QWEN को support करता है, लेकिन मैं सोच रहा हूँ कि क्या इसे अमेरिकी मानकों के हिसाब से सुरक्षित माना जा सकता है
  • संख्याएँ अपने आप में बहुत अच्छी हैं। लेकिन मुझे अब भी समझ नहीं आता कि ऐसे posts में latest competing models से तुलना क्यों नहीं की जाती। लोगों से यह छूट तो नहीं सकता

    • कोई भी ऐसा डेटा जारी नहीं करता जो उसे competitor से खराब दिखाए
      OpenAI और Anthropic भी अक्सर अलग evaluation datasets इस्तेमाल करते हैं, इसलिए वहाँ भी यही बात है
    • अगर यह minor version increase की सीमा में है तो मुझे यह माफ़ करने लायक लगता है। वैसे आजकल बड़े language models में, पता नहीं क्यों, x.5 को practically major version increase की तरह इस्तेमाल किया जाता है
      बड़े language models होने पर भी ऐसे posts अचानक हवा से नहीं बन जाते। अगर आपके model के लिए target benchmark set है, तो उसके साथ side-by-side compare होने वाले models का set लगातार बनाए रखना अपने आप में एक अलग maintenance burden है
    • शायद तर्क यह होगा कि वे खुद को latest top-tier से करीब N महीनों पीछे दिखाना चाहते हैं
      व्यावहारिक रूप से देखें तो शायद वे उम्मीद करते हैं कि readers details पर ध्यान नहीं देंगे
      Qwen models open weights के हिसाब से शानदार हैं, लेकिन पिछली releases वास्तविक उपयोग में benchmarks जितना अच्छा नहीं निकलीं। उन्हें पता है कि benchmark score optimization असरदार है, इसलिए वे उसी दिशा में optimize करते हैं
    • मुझे लगता है यह expectations सेट करने की प्रक्रिया का हिस्सा है। हो सकता है किसी खास model के आधार पर distillation या evaluation harness बनाया गया हो
      अगर आप कहते हैं कि यह 4.7 से comparable है, तो लोगों के दिमाग में evaluation reference model उसी तरह fixed हो जाता है
    • सच कहूँ तो Opus-4.6 के शुरुआती versions, अभी जो 4.7 के नाम से दिया जा रहा है, उससे कहीं बेहतर थे। अगर वह उसी स्तर पर काम करे तो मैं पूरी तरह switch करने को तैयार हूँ
  • क्या यह भी वैसा ही मामला है जहाँ एक हफ्ते बाद Hugging Face release आ जाएगा? या फिर पक्का है कि इसे proprietary ही रखा जाएगा

    • अगर मैं गलत हूँ तो सुधार दें, लेकिन मेरी समझ में Max models आमतौर पर सार्वजनिक नहीं किए जाते
  • मैं Qwen की और open weights releases देखना चाहता हूँ। खासकर 122B और 397B का इंतज़ार है

    • सही बात। 60–150B की range अभी prosumer hardware के लिए सचमुच बहुत अच्छी जगह है, इसलिए 120b-a14b जैसा model अच्छा रहेगा
    • व्यक्तिगत रूप से मैं 9B जैसे और छोटे quantized models को लेकर ज़्यादा उत्साहित हूँ
    • मुझे qwen3.7 9b और 72b का ज़्यादा इंतज़ार है। आमतौर पर size के मुकाबले performance बहुत अच्छी होती है
    • मैं अब भी qwem image-edit 2.0 open weights का इंतज़ार कर रहा हूँ
    • दुख होता है। मैंने अभी-अभी ऐसी चीज़ों के साथ हाथ आज़माना शुरू किया है, और मेरा setup बस एक सामान्य gaming desktop है, जिसमें 12GB 3060 और 32GB RAM है
      Qwen 9B से ऊपर जाते ही मशीन के पूरी तरह freeze हो जाने का जोखिम रहता है
  • benchmarks में Opus 4.7, GPT5.5, Gemini Flash 3.5 नहीं हैं

  • मैं pi agent इस्तेमाल कर रहा हूँ और hosted Qwen models आज़माना चाहता हूँ। अच्छे विकल्प क्या हैं, यह जानना चाहता हूँ
    official providers में Alibaba नहीं है। यह भी जानना है कि OpenRouter जैसी services पर्याप्त fast हैं या नहीं। संदर्भ के लिए, DeepSeek v4 ऐसे proxy services पर काफ़ी throttle हो जाता है

    • मैं pi + openrouter पर qwen3.6-max-preview काफी इस्तेमाल कर रहा हूँ। अभी तक stability या performance की कोई समस्या नहीं आई
  • मैंने अभी-अभी local large language models के साथ प्रयोग शुरू किया है, और ईमानदारी से कहूँ तो यह काफ़ी प्रभावशाली है। मैं NVIDIA A1000 (6GB VRAM) और 96GB RAM वाले workstation laptop का उपयोग कर रहा हूँ
    GPU का लगभग इस्तेमाल नहीं हुआ, कभी-कभार सिर्फ CAD design या OpenCV-आधारित machine learning के लिए। llama3:latest चलाकर देखा तो काफ़ी तेज़ चला, और मैं सोच रहा हूँ कि Qwen मेरे system पर कैसा चलेगा

  • जिस pattern पर मुझे सबसे ज़्यादा भरोसा है, वह है हर external action के साथ एक छोटा verification artifact जोड़ना। agents अक्सर reasoning depth की कमी से कम, और silent state drift की वजह से ज़्यादा जल्दी fail होते हैं

    • क्या आप इस हिस्से को थोड़ा और विस्तार से समझा सकते हैं