Tencent Hunyuan-T1 - Mamba आर्किटेक्चर पर आधारित पहला अल्ट्रा-लार्ज मॉडल

(llm.hunyuan.tencent.com)

2 पॉइंट द्वारा GN⁺ 2025-03-23 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Hunyuan-T1, TurboS पर आधारित एक अल्ट्रा-लार्ज Hybrid-Transformer-Mamba MoE मॉडल है
बड़े पैमाने के post-training learning के जरिए मानव वरीयताओं के अनुरूप reasoning क्षमता का विस्तार किया गया और performance में सुधार हुआ
TurboS की लंबे टेक्स्ट को प्रोसेस करने की क्षमता से context loss और long-range information dependency की समस्या हल होती है
Mamba आर्किटेक्चर लंबे sequence processing को optimize करता है, जिससे efficient computation के साथ लंबे टेक्स्ट की जानकारी capture की जा सकती है
- समान deployment conditions में decoding speed 2 गुना बेहतर
मॉडल के post-training चरण में कुल computing power का 96.7% reinforcement learning में लगाया गया
- गणित, logical reasoning, science, code आदि से जुड़ी विभिन्न समस्याओं वाले dataset इकट्ठा कर मॉडल की reasoning क्षमता को मजबूत किया गया
- correct answer feedback और real-time user feedback के जरिए मॉडल performance को मजबूत किया गया
- curriculum learning approach लागू किया गया
  - data difficulty को धीरे-धीरे बढ़ाते हुए मॉडल की context length का विस्तार
  - token को efficient तरीके से उपयोग करने की क्षमता मजबूत
reinforcement learning strategy: data relearning और policy reset strategy लागू → training stability में 50% से अधिक सुधार
reward system
- self-reward approach अपनाया गया → मॉडल output का स्वयं मूल्यांकन और scoring
- comprehensive reward framework लागू → मॉडल की information efficiency और content detail को मजबूत किया गया

बेंचमार्क प्रदर्शन मूल्यांकन

MMLU-pro, CEval, AIME, Zebra Logic जैसे चीनी और अंग्रेज़ी reasoning metrics में उत्कृष्ट performance
DeepSeek R1 के बराबर प्रदर्शन या थोड़ा बेहतर नतीजे
- cultural creativity, text summarization, agent capability में बढ़त
MMLU-PRO मूल्यांकन में 87.2 अंक → humanities, social sciences, science and technology सहित 14 क्षेत्रों में उत्कृष्ट memory और comprehension साबित
GPQA-diamond मूल्यांकन में 69.3 अंक → PhD-स्तर के physics, chemistry, biology प्रश्न हल करने की क्षमता की पुष्टि
code, mathematics, logical reasoning आदि में मजबूत प्रदर्शन साबित
- LiveCodeBench में 64.9 अंक → code writing और understanding क्षमता की पुष्टि
- MATH-500 में 96.2 अंक → DeepSeek R1 के करीब mathematics problem-solving क्षमता साबित
ArenaHard में 91.9 अंक → विभिन्न alignment tasks, instruction-following tasks और tool-use tasks में मजबूत adaptability दिखाई

1 टिप्पणियां

GN⁺ 2025-03-23

Hacker News राय

मॉडल का शानदार प्रदर्शन पूरी तरह साबित करता है कि optimization process में reinforcement learning अहम भूमिका निभाता है
- अगर यह reinforcement learning कहीं और बेहतर जवाब देने के बजाय सिर्फ benchmark को manipulate कर रहा हो, तो सवाल उठता है कि हम इसे कैसे पहचान सकते हैं
इस मॉडल को थोड़ा इस्तेमाल करने पर लगा कि यह English सवालों का जवाब Chinese में देने की प्रवृत्ति रखता है
उनका large model 389b parameters का था, तो ultra-large model कितना बड़ा है, यह जानने की जिज्ञासा है
आजकल बहुत सारे मॉडल आ रहे हैं और AI क्षेत्र में इतनी प्रगति हो रही है कि उसके साथ बने रहना मुश्किल है
- यह यकीन से कहना कठिन है कि वास्तव में कौन-सी चीज़ breakthrough है या महत्वपूर्ण है
Mamba-आधारित मॉडल को अच्छा काम करते देखना दिलचस्प है
इस तरह के नामों का Romanization हमेशा भ्रमित करता है
- जब अक्षर और tones हटा दिए जाते हैं, तो वह बस बिना अर्थ के अक्षरों जैसा रह जाता है
- "Hunyuan" या Chinese में 混元 का अर्थ "आदिम अराजकता" या "मूलभूत एकता" है
- इससे ज़्यादा Chinese products और services बाज़ार में आने पर उन्हें याद रखना आसान हो सकता है
- यह Western products में Greek mythology की लोकप्रियता जैसा है (जैसे "Apollo" नाम वाले सभी products)
यह बात कि वे Huggingface demo से जुड़े हैं, क्या इस ओर इशारा करती है कि वे weights जारी करेंगे, यह जानने की उत्सुकता है
Kobe?

Tencent Hunyuan-T1 - Mamba आर्किटेक्चर पर आधारित पहला अल्ट्रा-लार्ज मॉडल

बेंचमार्क प्रदर्शन मूल्यांकन

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय