12 पॉइंट द्वारा GN⁺ 2024-11-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • OpenCoder एक ओपन सोर्स कोड large language model (LLM) है, जिसमें 1.5B और 8B base तथा chat मॉडल शामिल हैं, और यह अंग्रेज़ी व चीनी को सपोर्ट करता है
    • इसे 2.5 ट्रिलियन टोकन वाले डेटा पर train किया गया है, जिसमें 90% raw code और 10% code-संबंधित web data शामिल है
    • यह शीर्ष कोड LLM के प्रदर्शन स्तर तक पहुँचता है, और model weights, inference code, reproducible training data, data processing pipeline, experimental ablation results, तथा विस्तृत training protocol प्रदान करता है
    • यह एक open platform है जो शोधकर्ताओं को code AI को आगे बढ़ाने और नवाचार करने में मदद करता है
  • OpenCoder की विशेषताएँ
    • एक पूरी तरह open source code LLM, जो पारदर्शी data processing pipeline और reproducible dataset पर बनाया गया है, और कई code LLM evaluation benchmark पर शीर्ष प्रदर्शन हासिल करता है
    • RefineCode: 607 programming languages में फैले 960 बिलियन टोकन से बना उच्च-गुणवत्ता, reproducible code pre-training corpus
    • सार्थक ablation study: विभिन्न design choices और code LLM की training strategies पर उपयोगी insight देने के लिए कई ablation experiments शामिल
    • सार्वजनिक resources: final model weights, complete data processing pipeline, efficient evaluation pipeline, reproducible pre-training dataset, large-scale SFT dataset, और intermediate checkpoints

1 टिप्पणियां

 
GN⁺ 2024-11-10
Hacker News राय
  • केवल मॉडल weights और inference code ही नहीं, बल्कि reproducible training data, data processing pipeline, experimental results, और training protocol भी सार्वजनिक किए गए हैं, जिससे वैज्ञानिक शोध में योगदान मिलता है.

    • इस बात पर ज़ोर दिया गया है कि ऐसा काम, मॉडल के प्रदर्शन से अलग, सभी के लिए लाभकारी होता है.
  • टेस्ट नतीजों में hallucination काफ़ी हैं, और प्रदर्शन Qwen 2.5 या Mistral-Nemo जैसे सामान्य मॉडलों की तुलना में कमज़ोर है.

  • arXiv पेपर के होमपेज का लिंक दिया गया है: https://opencoder-llm.github.io/

  • Qwen2.5-Coder-7B का HumanEval स्कोर 61.6 है, लेकिन Table 1 में 88.4 दिखने से भ्रम हुआ.

    • इसका कारण यह है कि दोनों मॉडल अलग हैं (Qwen2.5-Coder-7B-Base 61.6 है, Qwen2.5-Coder-7B-Instruct 88.4 है).
  • कोडबेस में forks और copy-paste की वजह से 75% फाइलें पूरी तरह duplicate हैं.

    • क्योंकि hashing file level पर की जाती है, इसलिए यह पक्का नहीं कहा जा सकता कि पूरी फाइल बिना किसी बदलाव के कॉपी की गई थी या नहीं.
  • क्या कोई compile और execution metadata (जैसे profiling data) को शामिल करके training कर रहा है?

    • जिज्ञासा है कि क्या इसे शामिल करने से मॉडल को अधिक efficient code की दिशा में ले जाया जा सकता है.
  • पेपर दिलचस्प है, लेकिन Ruby सहित कुछ भाषाओं में यह मॉडल Qwen2.5-Coder से बेहतर नहीं दिखता.

  • जिज्ञासा है कि इस मॉडल को चलाने के लिए किस hardware की ज़रूरत होगी.

  • plumbing महत्वपूर्ण है.

  • अच्छा है.