• code-flow बहु-चरणीय training के जरिए स्थिर code नहीं, बल्कि repository के बदलाव और development process को सीखने वाला coding-विशेष open code LLM
  • pretraining–mid-training–post-training से जुड़ी evolutionary learning pipeline के माध्यम से long-horizon reasoning और agent tasks की performance को मजबूत करना
  • 32K·128K context में reasoning data और agent trajectories inject करके जटिल multi-file·repository-स्तरीय समस्याओं को हल करने की क्षमता हासिल
  • iterative structure वाली LoopCoder architecture के साथ model capacity के मुकाबले deployment efficiency बेहतर करने वाला practical design प्रस्ताव
  • SWE-Bench, LiveCodeBench, Terminal-Bench आदि में commercial models के मुकाबले प्रतिस्पर्धी performance open-weight model के रूप में हासिल

अवलोकन

  • IQuest-Coder-V1, 7B·14B·40B·40B-Loop से बना code-विशेष large language model family है
  • code snapshot नहीं, बल्कि commit और repository evolution process को training target बनाने वाला code-flow paradigm अपनाता है
  • agent-आधारित software engineering, competitive programming और tool use समेत कई क्षेत्रों में performance evaluation किया गया

Code-Flow learning pipeline

  • pretraining चरण में सामान्य data और बड़े पैमाने के code data को मिलाकर train करने के बाद high-quality code annealing लागू किया गया
  • mid-training चरण में 32K → 128K context expansion, reasoning QA·agent trajectories·repository-स्तरीय code data पर training
  • post-training चरण में Thinking path (reasoning-केंद्रित RL) और Instruct path (general assistant optimization) में विभाजन

मुख्य शोध परिणाम

  • repository commit-flow data, static code snapshots की तुलना में task planning signal बेहतर देता है, यह प्रयोगों से पुष्टि हुई
  • high-quality code annealing के बाद mid-training में reasoning·agent data inject करने की संरचना distribution shift के प्रति स्थिरता देती है
  • reasoning-केंद्रित RL लागू किए गए Thinking path में लंबे tasks के दौरान self-error recovery क्षमता स्पष्ट रूप से दिखाई दी

LoopCoder architecture

  • समान parameter block को दो बार दोहराकर चलाने वाली loop transformer structure पेश की गई
  • global attention और local attention को gating के साथ जोड़कर long-range context refinement और causality preservation एक साथ हासिल किए गए
  • model capacity के मुकाबले compute efficiency बेहतर कर deployment environment constraints से निपटने का उद्देश्य

डेटा संरचना और pretraining strategy

  • बहुभाषी code मिश्रित training में भाषाओं के बीच synergy effect को formula-आधारित scaling law के रूप में औपचारिक बनाया गया
  • repository lifecycle के 40~80% खंड के commits का उपयोग कर (R_old, Patch, R_new) triplet data तैयार किया गया
  • file·repository-स्तरीय Fill-In-the-Middle तकनीक से code completion क्षमता मजबूत की गई

मूल्यांकन परिणाम

  • SWE-Bench Verified में 76.2, और LiveCodeBench v6·Terminal-Bench·Mind2Web सहित कई benchmarks में शीर्ष-स्तरीय performance दर्ज
  • code generation·reasoning·editing·efficiency·Text-to-SQL·agent tasks तक पूरे दायरे में evaluation किया गया
  • कुछ metrics में Claude Sonnet 4.5, GPT-5.1 जैसे closed models के करीब या प्रतिस्पर्धी परिणाम देखे गए

सुरक्षा मूल्यांकन

  • BeaverTails, HarmBench, TrustLLM जैसे safety benchmarks में Thinking model ने उच्च refusal accuracy और balanced performance दर्ज की
  • reasoning-केंद्रित RL के safety पक्ष में भी सकारात्मक प्रभाव दिखाने वाले परिणाम प्रस्तुत किए गए

निष्कर्ष

  • code evolution flow और agent trajectories पर केंद्रित learning, autonomous code intelligence बनाने में प्रभावी है, यह प्रदर्शित किया गया
  • LoopCoder structure के जरिए performance–efficiency trade-off को ध्यान में रखने वाली practical code LLM design direction पेश की गई
  • पूरे training stages और checkpoints को public करके open code intelligence research और वास्तविक agent systems development को तेज़ करने का लक्ष्य

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.