2 पॉइंट द्वारा GN⁺ 2025-03-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Hunyuan-T1, TurboS पर आधारित एक अल्ट्रा-लार्ज Hybrid-Transformer-Mamba MoE मॉडल है
  • बड़े पैमाने के post-training learning के जरिए मानव वरीयताओं के अनुरूप reasoning क्षमता का विस्तार किया गया और performance में सुधार हुआ
  • TurboS की लंबे टेक्स्ट को प्रोसेस करने की क्षमता से context loss और long-range information dependency की समस्या हल होती है
  • Mamba आर्किटेक्चर लंबे sequence processing को optimize करता है, जिससे efficient computation के साथ लंबे टेक्स्ट की जानकारी capture की जा सकती है
    • समान deployment conditions में decoding speed 2 गुना बेहतर
  • मॉडल के post-training चरण में कुल computing power का 96.7% reinforcement learning में लगाया गया
    • गणित, logical reasoning, science, code आदि से जुड़ी विभिन्न समस्याओं वाले dataset इकट्ठा कर मॉडल की reasoning क्षमता को मजबूत किया गया
    • correct answer feedback और real-time user feedback के जरिए मॉडल performance को मजबूत किया गया
    • curriculum learning approach लागू किया गया
      • data difficulty को धीरे-धीरे बढ़ाते हुए मॉडल की context length का विस्तार
      • token को efficient तरीके से उपयोग करने की क्षमता मजबूत
  • reinforcement learning strategy: data relearning और policy reset strategy लागू → training stability में 50% से अधिक सुधार
  • reward system
    • self-reward approach अपनाया गया → मॉडल output का स्वयं मूल्यांकन और scoring
    • comprehensive reward framework लागू → मॉडल की information efficiency और content detail को मजबूत किया गया

बेंचमार्क प्रदर्शन मूल्यांकन

  • MMLU-pro, CEval, AIME, Zebra Logic जैसे चीनी और अंग्रेज़ी reasoning metrics में उत्कृष्ट performance
  • DeepSeek R1 के बराबर प्रदर्शन या थोड़ा बेहतर नतीजे
    • cultural creativity, text summarization, agent capability में बढ़त
  • MMLU-PRO मूल्यांकन में 87.2 अंक → humanities, social sciences, science and technology सहित 14 क्षेत्रों में उत्कृष्ट memory और comprehension साबित
  • GPQA-diamond मूल्यांकन में 69.3 अंक → PhD-स्तर के physics, chemistry, biology प्रश्न हल करने की क्षमता की पुष्टि
  • code, mathematics, logical reasoning आदि में मजबूत प्रदर्शन साबित
    • LiveCodeBench में 64.9 अंक → code writing और understanding क्षमता की पुष्टि
    • MATH-500 में 96.2 अंक → DeepSeek R1 के करीब mathematics problem-solving क्षमता साबित
  • ArenaHard में 91.9 अंक → विभिन्न alignment tasks, instruction-following tasks और tool-use tasks में मजबूत adaptability दिखाई

1 टिप्पणियां

 
GN⁺ 2025-03-23
Hacker News राय
  • मॉडल का शानदार प्रदर्शन पूरी तरह साबित करता है कि optimization process में reinforcement learning अहम भूमिका निभाता है
    • अगर यह reinforcement learning कहीं और बेहतर जवाब देने के बजाय सिर्फ benchmark को manipulate कर रहा हो, तो सवाल उठता है कि हम इसे कैसे पहचान सकते हैं
  • इस मॉडल को थोड़ा इस्तेमाल करने पर लगा कि यह English सवालों का जवाब Chinese में देने की प्रवृत्ति रखता है
  • उनका large model 389b parameters का था, तो ultra-large model कितना बड़ा है, यह जानने की जिज्ञासा है
  • आजकल बहुत सारे मॉडल आ रहे हैं और AI क्षेत्र में इतनी प्रगति हो रही है कि उसके साथ बने रहना मुश्किल है
    • यह यकीन से कहना कठिन है कि वास्तव में कौन-सी चीज़ breakthrough है या महत्वपूर्ण है
  • Mamba-आधारित मॉडल को अच्छा काम करते देखना दिलचस्प है
  • इस तरह के नामों का Romanization हमेशा भ्रमित करता है
    • जब अक्षर और tones हटा दिए जाते हैं, तो वह बस बिना अर्थ के अक्षरों जैसा रह जाता है
    • "Hunyuan" या Chinese में 混元 का अर्थ "आदिम अराजकता" या "मूलभूत एकता" है
    • इससे ज़्यादा Chinese products और services बाज़ार में आने पर उन्हें याद रखना आसान हो सकता है
    • यह Western products में Greek mythology की लोकप्रियता जैसा है (जैसे "Apollo" नाम वाले सभी products)
  • यह बात कि वे Huggingface demo से जुड़े हैं, क्या इस ओर इशारा करती है कि वे weights जारी करेंगे, यह जानने की उत्सुकता है
  • Kobe?