• A.T.L.A.S (Adaptive Test-time Learning and Autonomous Specialization) एक self-hosted AI system है, जो एक consumer GPU पर बड़े मॉडलों के स्तर का code generation प्रदर्शन हासिल करता है
  • LiveCodeBench v5 में इसने 74.6% pass@1-v(k=3) दर्ज किया, जो Claude 4.5 Sonnet(71.4%) से आगे है, और पिछले संस्करण की तुलना में लगभग दोगुना प्रदर्शन सुधार हासिल किया
  • 14B parameter model(Qwen3-14B-Q4_K_M) को freeze रखकर constraint-based generation, self-verification·repair loop, और Geometric Lens candidate selection के जरिए उच्च प्रदर्शन हासिल किया गया
  • यह cloud या API call के बिना local environment में पूरी तरह autonomous execution करता है, और लागत केवल बिजली की होती है, इसलिए API-आधारित मॉडलों की तुलना में cost efficiency बहुत अधिक है
  • RTX 5060 Ti 16GB GPU वातावरण में यह लगभग 2 घंटे के भीतर 599 tasks प्रोसेस करता है, और बड़े मॉडलों की code generation क्षमता को personal hardware पर पुनःनिर्मित करना संभव बनाता है

बेंचमार्क परिणाम

  • LiveCodeBench v5: 74.6% pass@1-v(k=3), 599 tasks पूरे
    • V3 pipeline: PlanSearch + self-verified PR-CoT repair
  • GPQA Diamond: 47.0%, 198 tasks
  • SciCode: 14.7%, 341 tasks
  • pass@k-v(k=3) एक single-attempt result नहीं है, बल्कि 3 candidates generate करने के बाद Lens selection और failure पर iterative repair शामिल करने वाली विधि है
  • V3 चरणवार योगदान (Ablation Study)

    • A: बेसलाइन (V3 लागू नहीं) → 54.9%
    • B: Phase 1 (PlanSearch + BudgetForcing + DivSampling) → 67.3% (+12.4pp)
    • C: Phase 1+2 (Lens routing) → 67.3% (+0.0pp)
    • D: Phase 1+3 (self-verified refinement) → 74.6% (+7.3pp)
    • Phase 3 में मॉडल द्वारा स्वयं बनाए गए test cases से internal verification किया जाता है; वास्तविक answer key का उपयोग नहीं होता
    • PR-CoT ने Phase 3 में 42 में से 36 (85.7%) समस्याओं को recover किया

लागत और प्रदर्शन तुलना

सिस्टम LCB pass@1 प्रति task लागत टिप्पणी
DeepSeek V3.2 Reasoning 86.2% ~$0.002 API, single attempt
GPT-5 (high) 84.6% ~$0.043 API, single attempt
ATLAS V3 74.6% ~$0.004 केवल local power उपयोग, best-of-3 + repair
Claude 4.5 Sonnet 71.4% ~$0.066 API, single attempt
Claude 4 Sonnet 65.5% ~$0.066 API, single attempt
  • ATLAS में केवल बिजली की लागत आती है, API लागत नहीं
  • 165W GPU के आधार पर 599 tasks पूरे करने में लगभग 1 घंटा 55 मिनट लगते हैं
  • latency अधिक है, लेकिन cost efficiency बहुत ऊंची है

काम करने का तरीका

  • पूरा pipeline

    • Phase 1: Generate
      • PlanSearch: constraints निकालना और विविध plans बनाना
      • Budget Forcing: token उपयोग नियंत्रण
    • Verify चरण
      • Geometric Lens (C(x)): 5120-dimensional self-embedding आधारित energy scoring
      • Sandbox: code execution और verification
    • Phase 3: Repair
      • Self-Test Generation: मॉडल स्वयं input-output pairs बनाता है
      • PR-CoT Repair: multi-perspective chain-of-thought आधारित code correction
    • single llama-server instance K3s पर चलता है, और speculative decoding तथा self-embedding generation एक साथ करता है
    • Geometric Lens candidates में से सबसे अच्छा code चुनता है (mixed-result tasks में 87.8% accuracy)
    • असफल tasks Phase 3 में भेजे जाते हैं, जहां self-test generation और iterative repair किया जाता है

इंस्टॉलेशन और रन

  • GitHub repository clone करने के बाद config file copy करें और installation script चलाएँ
  • benchmark/v3_runner.py से V3 benchmark चलाएँ
  • विस्तृत installation प्रक्रिया के लिए docs/SETUP.md देखें

हार्डवेयर और पुनरुत्पादन

संसाधन न्यूनतम टेस्ट वातावरण
GPU VRAM 16 GB RTX 5060 Ti 16 GB
सिस्टम RAM 14 GB 16 GB
Python 3.10+ 3.11
OS RHEL 9 / Ubuntu 24 RHEL 9 (Proxmox VM)
  • इसे Proxmox VM + VFIO GPU passthrough वातावरण में reproduce किया गया
  • 16GB या अधिक VRAM वाले अन्य NVIDIA GPU पर भी संभव है, लेकिन driver और VRAM settings में समायोजन की आवश्यकता हो सकती है
  • मुख्य tuning variables:
    • --parallel slots की संख्या (डिफ़ॉल्ट 2, VRAM कम होने पर 1)
    • KV cache quantization(Q4_0)
    • प्रति slot context length (डिफ़ॉल्ट 20480 tokens)
    • CUDA 12.8 version पर परीक्षण पूरा
  • V3.1 में portability सुधार की योजना है

रोडमैप

  • V3.0 (पूरा, 2026-03-05)

    • Qwen3-14B-Q4_K_M आधारित, 74.6% LCB प्रदर्शन
    • PlanSearch + BudgetForcing + Geometric Lens + PR-CoT pipeline पूरा
  • ज्ञात सीमाएँ

    1. LCB-केंद्रित optimization: GPQA, SciCode जैसे अन्य benchmarks के लिए optimization अपर्याप्त
    2. Phase 2 (Lens routing): dataset की कमी के कारण प्रभाव नगण्य (+0.0pp)
    3. G(x) metric tensor निष्क्रिय: C(x) के untrained होने से अर्थपूर्ण geometric structure अनुपस्थित
    4. single-threaded processing: task parallelization का समर्थन नहीं
    5. SandboxAdapter stdio bug: input separation feature निष्क्रिय (V3.1 में fix yojit)
  • V3.1 (प्रगति पर)

    • मॉडल बदलाव: Qwen3-14B → Qwen3.5-9B (DeltaNet linear attention, 3~4x speedup)
    • Lens retraining: real-time feedback आधारित C(x) recalibration
    • Phase 2 redesign: G(x) को फिर से implement करना या हटाना, SandboxAdapter bug fix
    • parallel processing की शुरुआत: task parallel execution से processing speed बढ़ाना
    • expanded benchmark suite: coding के अलावा reasoning·knowledge evaluation शामिल
  • नियोजित V3.1 benchmarks

    • Coding: LiveCodeBench v5, SciCode, अतिरिक्त contamination-resistant datasets
    • Reasoning/Knowledge: GPQA Diamond, AA-LCR, AA-Omniscience, Humanity’s Last Exam, CritPt आदि
    • Confidence Router task difficulty के अनुसार route चुनता है:
      • सरल queries → RAG-आधारित तेज reasoning (~30 सेकंड)
      • जटिल coding problems → पूरा pipeline (~20 मिनट)
    • लक्ष्य: 80~90% LCB pass@1-v(k=3) और और तेज processing speed

लाइसेंस

  • A.T.L.A.S Source Available License v1.0 लागू

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.