2 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Ornith-1.0 एजेंटिक कोडिंग के लिए एक self-improving open source मॉडल है, जो 9B Dense, 31B Dense, 35B MoE, 397B MoE कॉन्फ़िगरेशन देता है और Gemma 4 व Qwen 3.5 के ऊपर post-training किया गया है
  • training framework reinforcement learning के जरिए केवल solution rollout ही नहीं, बल्कि rollout को guide करने वाले scaffold तक generate करना सीखता है, जिससे scaffold और अंतिम solution दोनों को साथ में optimize किया जाता है
  • README के अनुसार, Ornith-1.0 ने Terminal-Bench 2.1, SWE-Bench, NL2Repo, OpenClaw जैसे coding benchmarks में समान आकार के open source models की तुलना में state-of-the-art प्रदर्शन हासिल किया है
  • सभी checkpoints OpenAI-compatible interface expose करते हैं और 256K token context window support करते हैं; इन्हें vLLM, SGLang, Hugging Face Transformers, llama.cpp, Ollama आदि से चलाया जा सकता है
  • यह MIT license के तहत है, बिना regional restrictions के दुनिया भर में accessible है, और reasoning_content व tool_calls के जरिए reasoning blocks और tool calls को अलग करके agent frameworks और coding CLI से जोड़ा जा सकता है

मॉडल का overview और training method

  • Ornith-1.0 एजेंटिक कोडिंग के लिए self-improving open source models का परिवार है
  • उपलब्ध model sizes 9B Dense, 31B Dense, 35B MoE, 397B MoE हैं, और इन्हें Gemma 4 व Qwen 3.5 के ऊपर post-training किया गया है
  • self-improvement training framework reinforcement learning का उपयोग करता है
    • मॉडल केवल solution rollout ही नहीं, बल्कि rollout को guide करने वाला scaffold भी generate करना सीखता है
    • scaffold और resulting solution को साथ में optimize करके बेहतर search trajectories और अधिक उच्च-गुणवत्ता वाले solutions खोजे जाते हैं
  • license MIT है, यह worldwide accessible है और इसमें कोई regional restriction नहीं है

benchmark results

  • हर model की तुलना उसके size के अनुरूप baseline models से की गई, और तीनों models ने समान harness और decoding settings का उपयोग किया
  • Ornith-1.0-9B

    • Terminal-Bench 2.1 में Terminus-2 आधार पर 43.1, Claude Code आधार पर 40.6 रिकॉर्ड किया
    • SWE-bench Verified 69.4, SWE-bench Pro 42.9, SWE-bench Multilingual 52 रिकॉर्ड किया
    • NL2Repo 27.2, Claw-eval Avg 63.1 रिकॉर्ड किया
    • SWE Atlas में QnA 17.9, RF 16.6, TW 15.3 रिकॉर्ड किया
  • Ornith-1.0-35B

    • Terminal-Bench 2.1 में Terminus-2 आधार पर 64.2, Claude Code आधार पर 62.8 रिकॉर्ड किया
    • SWE-bench Verified 75.6, SWE-bench Pro 50.4, SWE-bench Multilingual 69.3 रिकॉर्ड किया
    • NL2Repo 34.6, Claw-eval Avg 69.8 रिकॉर्ड किया
    • SWE Atlas में QnA 37.1, RF 29.7, TW 27.8 रिकॉर्ड किया
  • Ornith-1.0-397B

    • Terminal-Bench 2.1 में Terminus-2 आधार पर 77.5, Claude Code आधार पर 78.2 रिकॉर्ड किया
    • SWE-bench Verified 82.4, SWE-bench Pro 62.2, SWE-bench Multilingual 78.9 रिकॉर्ड किया
    • NL2Repo 48.2, Claw-eval Avg 77.1 रिकॉर्ड किया
    • SWE Atlas में QnA 41.2, RF 42.6, TW 39.1 रिकॉर्ड किया

evaluation settings

  • Terminal-Bench 2.1 Terminus-2 evaluation में Harbor/Terminus-2 framework, parser=json, temperature=1.0, top_p=1.0, 128K context window का उपयोग किया गया
    • हर run में 4-hour timeout, 32 CPU cores, 48GB RAM का उपयोग हुआ और यह 5 runs का average है
    • training और inference consistency के लिए Qwen chat template adjust किया गया, और Harbor को vLLM के reasoning_content key से match करने के लिए modify किया गया
  • Terminal-Bench 2.1 Claude Code evaluation में Claude Code 2.1.126, parser=json, temperature=1.0, top_p=1.0, max_new_tokens=131072 का उपयोग हुआ और यह 5 runs का average है
  • SWE-bench Verified / Pro / Multilingual में OpenHands harness, temperature=1.0, top_p=0.95, 256K context window का उपयोग हुआ
  • SWE Atlas QnA / RF / TW में mini-SWE-agent harness, temperature=1.0, top_p=0.95, 128K context window का उपयोग हुआ और यह 5 runs का average है
  • NL2Repo में temperature=1.0, top_p=1.0, 400K context, 48K output, anti-hacking filters का उपयोग हुआ
  • ClawEval real user task distribution पर आधारित agentic code benchmark है, जिसमें temperature=0.6, 256K context का उपयोग हुआ

execution और checkpoints

  • Ornith-1.0 एक reasoning model है, और default रूप से assistant turn <think> … </think> block से शुरू होकर final answer लौटाता है
  • serving recipe reasoning parser चालू करके chain-of-thought को अलग reasoning_content field में लौटाती है, और tool-call parser चालू करके <tool_call> blocks को OpenAI-style tool_calls के रूप में expose करती है
  • आवश्यक runtime versions ये हैं
    • Transformers ≥ 5.8.1
    • vLLM ≥ 0.19.1
    • SGLang ≥ 0.5.9
  • recommended sampling parameters temperature=0.6, top_p=0.95, top_k=20 हैं
    • reported benchmark settings reproduce करने के लिए temperature=1.0 इस्तेमाल करें
  • सभी checkpoints समान OpenAI-compatible interface expose करते हैं और 256K, यानी 262,144-token context window support करते हैं
    • Dense 9B single 80GB GPU के लिए उपयुक्त है
    • MoE checkpoints tensor parallelism के जरिए multi-GPU node पर shard किए जाते हैं
  • उपलब्ध checkpoints
    • Ornith-1.0-9B: Dense लगभग 9B, bf16, single-GPU serving और fine-tuning के लिए
    • Ornith-1.0-9B-GGUF: Dense लगभग 9B, GGUF quantization, llama.cpp / Ollama local inference के लिए
    • Ornith-1.0-35B: MoE 35B, bf16, full-precision multi-GPU serving के लिए
    • Ornith-1.0-35B-FP8: MoE 35B, FP8, FP8-supported GPUs पर VRAM को लगभग आधा कम करने वाली serving के लिए
    • Ornith-1.0-35B-GGUF: MoE 35B, GGUF quantization, llama.cpp / Ollama local inference के लिए
    • Ornith-1.0-397B: MoE 397B, bf16, multi-GPU node full-precision serving के लिए
    • Ornith-1.0-397B-FP8: MoE 397B, FP8, FP8-supported GPUs पर memory-efficient serving के लिए

OpenAI-compatible API और agent उपयोग

  • vLLM या SGLang server चलने पर OpenAI-compatible client से /v1/chat/completions endpoint call किया जा सकता है
  • local server example base_url="http://localhost:8000/v1";, api_key="EMPTY", model="Ornith-1.0" का उपयोग करता है
  • response message में reasoning_content <think> reasoning trace रखता है, और content final answer रखता है
  • tools pass करने पर Ornith-1.0 well-formed function calls generate करता है, और server इन्हें standard tool_calls field में parse करता है
  • OpenAI-compatible SDK Python, Node.js, curl आदि में same endpoint इस्तेमाल कर सकता है

supported frameworks और coding CLI

  • Ornith-1.0 tool calling और agentic coding capabilities के लिए optimized है
  • OpenAI-compatible endpoint और tool calling देने के कारण इसे standard agent frameworks के साथ इस्तेमाल किया जा सकता है
  • README में MCP server के जरिए tools connect करने का example और run_shell function tool call example शामिल है
  • examples में दिए गए agent harnesses और runtimes ये हैं
    • Hermes Agent: OPENAI_BASE_URL, OPENAI_API_KEY, MODEL="Ornith-1.0" settings
    • OpenHands: LiteLLM के openai/Ornith-1.0 path और local base URL का उपयोग
    • llama.cpp / Ollama: 9B और 35B GGUF builds load करके local inference
    • Unsloth Studio: FastLanguageModel.from_pretrained से local inference या fine-tuning
    • OpenClaw: OpenAI-compatible endpoint को Ornith server पर set करना
  • coding CLI को OPENAI_BASE_URL और OPENAI_API_KEY Ornith-1.0 endpoint पर set करके connect किया जा सकता है
  • OpenCode example में ~/.config/opencode/opencode.json में Ornith local provider register करके Ornith-1.0 model इस्तेमाल किया गया है

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News प्रतिक्रियाएँ
  • पिछली चर्चा: https://news.ycombinator.com/item?id=48709744
    https://swelljoe.com/post/will-it-mythos/: “परफ़ॉर्मेंस अच्छी नहीं है; लगभग हर दूसरे मॉडल ने जो एक बग ढूँढा, यह भी बस वही ढूँढ पाया। आकार के मुकाबले इसके दूसरे benchmark scores शानदार हैं, फिर भी ऐसा है. […] बिना tools वाले chat में भी इसका प्रदर्शन खराब है, और यह काफ़ी मेहनत से hallucination करता है। अभी मैं इसे bash/Python सहित full tool access देकर reproduce करने की कोशिश कर रहा हूँ; उस स्थिति में यह मॉडल प्रतिस्पर्धी हो सकता है”

    • 2026 में “बिना tools वाले chat में प्रदर्शन खराब है” जैसी बात का गंभीरता से आना अजीब है। यह fine-tuning अच्छी है या नहीं, यह मैंने खुद इस्तेमाल करके नहीं देखा, लेकिन साफ़ तौर पर agentic model को tool access के बिना test करके उससे अच्छा चलने की उम्मीद करना क्या बेमानी नहीं है? पता नहीं आखिर test क्या किया गया
    • वह benchmark Kimi K2.6 और K2.7 Code को लगभग सबसे नीचे रखता है। दोनों को Ornith 35B से नीचे रखा गया है, और Gemma 4 26B को GLM-5.2 से बहुत ऊपर आँका गया है। नतीजे ज़्यादा भरोसेमंद नहीं लगते
  • यह local LLM कम्युनिटी में पहला Qwen fine-tune है जिसे आते ही खारिज नहीं किया गया, और कुछ मामलों में recommend भी किया जा रहा है। सीमित इस्तेमाल में यह ठीक लगा, और coding problems के लिए रचनात्मक solutions देता है। मैं 9~35B models से एक click में पूरा app बन जाने की उम्मीद नहीं करता। शिकायत करने वालों में ज़्यादातर शायद इसी तरह की उम्मीद लेकर आए थे

    • local LLM कम्युनिटी में पुराने crypto/NFT बेचने वाले लोग घुस आए हैं, और वे अपनी पिछली कम्युनिटी की बढ़ा-चढ़ाकर बोलने वाली संस्कृति भी साथ ले आए हैं। अभी भी कुछ गहरे तकनीकी लोग बचे हैं, लेकिन वे खोखली marketing की आवाज़ों में दबते जा रहे हैं
    • अफ़सोस की बात है कि शुरू से ही हाल कुछ ऐसा ही रहा है। local models को local कामों के लिए, ठीक-ठाक safeguards के साथ, आज़माने में कोई बुराई नहीं है
      Qwen, Gemma, Llama, gpt-oss जैसे ज़्यादातर models में special tokens, prompt structure, model preferences जैसी छोटी-छोटी पेचीदगियाँ ढूँढना अभी सच में बहुत झंझटभरा है। फिर भी, मेहनत से सीखे गए prompts और parameters के हिसाब से tune किए गए agent execution environment में बहुत अच्छा चलने वाला मॉडल मिल सकता है
    • इसमें ज़्यादा सुधार नहीं हुआ है। LocalLLama कम्युनिटी का ज़्यादातर हिस्सा इसे खास पसंद नहीं करता, बस कुछ नए लोग ही इसके बारे में पोस्ट कर रहे हैं
    • लगता है हम अलग-अलग कम्युनिटीज़ देख रहे हैं। Qwen models उन models में सबसे ज़्यादा recommend किए जाते हैं जिन्हें आम लोगों के लिए उपलब्ध local hardware पर वास्तव में चलाया जा सकता है
  • ऐसे “self-improving” models आख़िर इतने बेहतर क्यों नहीं हो जाते कि state-of-the-art models से आगे निकल जाएँ?

  • मेरे अपने tests में Ornith-1.0 35B Qwen-3.6 35B से थोड़ा बेहतर था
    मेरे tests बड़े C++ codebase में features जोड़ने या बदलने वाले tasks पर हैं। दिलचस्प बात यह है कि यह मॉडल Qwen3.6 35B से काफ़ी तेज़ है। लगता है Ornith छोटे reasoning traces बनाता है
    मेरे tests में जवाब बनाने की speed 3x तक तेज़ थी। मैं इसे llamacpp और codex-cli के साथ इस्तेमाल कर रहा हूँ

  • मैंने Ornith-1.0 35B को खुद बनाए गए FP8 block quantization के साथ test किया और यह पसंद आया। RTX PRO 6000(sm120) पर vLLM में 200 tokens/sec से ऊपर मिल रहे हैं, और पिछले कुछ दिनों में agent-style coding workloads पर 14 करोड़ से ज़्यादा cached tokens चला चुका हूँ
    मोटे तौर पर यह Qwen 3.6 35B-A3B और 27B के बीच कहीं लगता है, लेकिन अच्छी बात यह है कि Qwen 3.6 की तुलना में यह बहुत कम overthink करता है या उसी loop में फँसता है। reasoning trace देखने पर इसका decomposition approach template पसंद आया
    एक medium-size Go codebase में इसने basic analysis, task handling, और कुछ frontend/backend changes अच्छी तरह किए, लेकिन लंबे simple kernel implementation tasks में यह पूरी तरह सीमा पर पहुँच गया। Pi Agent execution environment में लगभग 100 iterations तक चलाया, लेकिन यह विफल रहा; इस तरह के tasks वे हैं जिन्हें Kimi K2.6 या GLM 5.2 जैसे मज़बूत public models कर सकते हैं

    • इस model size पर execution environment ज़्यादा महत्वपूर्ण लगा। मैंने व्यक्तिगत रूप से qwen3.6 27b में raw pi की जगह little-coder इस्तेमाल करना शुरू किया है; एक बार देखना बनता है
  • क्या कोई समझा सकता है कि यहाँ हुआ क्या है? क्या यह बस Qwen का ऊपर-ऊपर का rebrand है? deepreinforce-ai कौन है, और यह मॉडल उनकी वेबसाइट पर क्यों नहीं है?
    यह self-improving कैसे करता है, यह जानने की जिज्ञासा है। क्या disk पर पड़ा मॉडल बदलता है, या सिर्फ़ एक single-context run के दौरान ही बेहतर होता है?

    • यह self-improve नहीं करता। शीर्षक थोड़ा भ्रामक है
      मेरी समझ से इन्होंने Qwen और Gemma 4 के ऊपर अपना reinforcement learning चलाकर train किया है। दोनों के weights को कैसे मिलाया गया, यह नहीं पता, और यह भी पक्का नहीं कि base Qwen था और Gemma 4 को training helper की तरह इस्तेमाल किया गया। यहाँ “self-improving” शायद weights के इस्तेमाल के तरीके की नहीं, बल्कि training process की ओर इशारा करता है
  • ये बस Qwen या Gemma 4 के benchmark-optimized versions जैसे लगते हैं

    • अगर ऐसा है, तो पहले से काफ़ी benchmark-optimized Qwen को और आगे धकेल देना अपने आप में प्रभावशाली है
  • “dense 9B एक single 80GB GPU में फिट हो जाता है”
    हमारे जैसे आम लोग तो इसे इस्तेमाल नहीं कर पाएँगे

    • यह अजीब लगता है। 9B model तो आमतौर पर 24GB GPU में भी बिना quantization के फिट हो जाता है
    • quantized versions पहले से उपलब्ध हैं
  • मैंने बहुत सारे local models इस्तेमाल किए हैं और वे सब खिलौनों जैसे लगे। लेकिन यह सच में उपयोगी लगा। Qwen 36-A3B के बारे में भी अच्छा सुना है, मगर अभी तक इस्तेमाल नहीं किया

  • self-improving system दिलचस्प हैं, लेकिन वे provenance tracking और governance को कहीं ज़्यादा कठिन बना देते हैं। अगर agents समय के साथ अपना व्यवहार बदल सकते हैं, तो यह समझना और भी ज़रूरी हो जाता है कि उन्होंने किसी खास तरीके से व्यवहार क्यों किया