- code-flow बहु-चरणीय training के जरिए स्थिर code नहीं, बल्कि repository के बदलाव और development process को सीखने वाला coding-विशेष open code LLM
- pretraining–mid-training–post-training से जुड़ी evolutionary learning pipeline के माध्यम से long-horizon reasoning और agent tasks की performance को मजबूत करना
- 32K·128K context में reasoning data और agent trajectories inject करके जटिल multi-file·repository-स्तरीय समस्याओं को हल करने की क्षमता हासिल
- iterative structure वाली LoopCoder architecture के साथ model capacity के मुकाबले deployment efficiency बेहतर करने वाला practical design प्रस्ताव
- SWE-Bench, LiveCodeBench, Terminal-Bench आदि में commercial models के मुकाबले प्रतिस्पर्धी performance open-weight model के रूप में हासिल
अवलोकन
- IQuest-Coder-V1, 7B·14B·40B·40B-Loop से बना code-विशेष large language model family है
- code snapshot नहीं, बल्कि commit और repository evolution process को training target बनाने वाला code-flow paradigm अपनाता है
- agent-आधारित software engineering, competitive programming और tool use समेत कई क्षेत्रों में performance evaluation किया गया
Code-Flow learning pipeline
- pretraining चरण में सामान्य data और बड़े पैमाने के code data को मिलाकर train करने के बाद high-quality code annealing लागू किया गया
- mid-training चरण में 32K → 128K context expansion, reasoning QA·agent trajectories·repository-स्तरीय code data पर training
- post-training चरण में Thinking path (reasoning-केंद्रित RL) और Instruct path (general assistant optimization) में विभाजन
मुख्य शोध परिणाम
- repository commit-flow data, static code snapshots की तुलना में task planning signal बेहतर देता है, यह प्रयोगों से पुष्टि हुई
- high-quality code annealing के बाद mid-training में reasoning·agent data inject करने की संरचना distribution shift के प्रति स्थिरता देती है
- reasoning-केंद्रित RL लागू किए गए Thinking path में लंबे tasks के दौरान self-error recovery क्षमता स्पष्ट रूप से दिखाई दी
LoopCoder architecture
- समान parameter block को दो बार दोहराकर चलाने वाली loop transformer structure पेश की गई
- global attention और local attention को gating के साथ जोड़कर long-range context refinement और causality preservation एक साथ हासिल किए गए
- model capacity के मुकाबले compute efficiency बेहतर कर deployment environment constraints से निपटने का उद्देश्य
डेटा संरचना और pretraining strategy
- बहुभाषी code मिश्रित training में भाषाओं के बीच synergy effect को formula-आधारित scaling law के रूप में औपचारिक बनाया गया
- repository lifecycle के 40~80% खंड के commits का उपयोग कर (R_old, Patch, R_new) triplet data तैयार किया गया
- file·repository-स्तरीय Fill-In-the-Middle तकनीक से code completion क्षमता मजबूत की गई
मूल्यांकन परिणाम
- SWE-Bench Verified में 76.2, और LiveCodeBench v6·Terminal-Bench·Mind2Web सहित कई benchmarks में शीर्ष-स्तरीय performance दर्ज
- code generation·reasoning·editing·efficiency·Text-to-SQL·agent tasks तक पूरे दायरे में evaluation किया गया
- कुछ metrics में Claude Sonnet 4.5, GPT-5.1 जैसे closed models के करीब या प्रतिस्पर्धी परिणाम देखे गए
सुरक्षा मूल्यांकन
- BeaverTails, HarmBench, TrustLLM जैसे safety benchmarks में Thinking model ने उच्च refusal accuracy और balanced performance दर्ज की
- reasoning-केंद्रित RL के safety पक्ष में भी सकारात्मक प्रभाव दिखाने वाले परिणाम प्रस्तुत किए गए
निष्कर्ष
- code evolution flow और agent trajectories पर केंद्रित learning, autonomous code intelligence बनाने में प्रभावी है, यह प्रदर्शित किया गया
- LoopCoder structure के जरिए performance–efficiency trade-off को ध्यान में रखने वाली practical code LLM design direction पेश की गई
- पूरे training stages और checkpoints को public करके open code intelligence research और वास्तविक agent systems development को तेज़ करने का लक्ष्य
अभी कोई टिप्पणी नहीं है.