- Hunyuan-T1, TurboS पर आधारित एक अल्ट्रा-लार्ज Hybrid-Transformer-Mamba MoE मॉडल है
- बड़े पैमाने के post-training learning के जरिए मानव वरीयताओं के अनुरूप reasoning क्षमता का विस्तार किया गया और performance में सुधार हुआ
- TurboS की लंबे टेक्स्ट को प्रोसेस करने की क्षमता से context loss और long-range information dependency की समस्या हल होती है
- Mamba आर्किटेक्चर लंबे sequence processing को optimize करता है, जिससे efficient computation के साथ लंबे टेक्स्ट की जानकारी capture की जा सकती है
- समान deployment conditions में decoding speed 2 गुना बेहतर
- मॉडल के post-training चरण में कुल computing power का 96.7% reinforcement learning में लगाया गया
- गणित, logical reasoning, science, code आदि से जुड़ी विभिन्न समस्याओं वाले dataset इकट्ठा कर मॉडल की reasoning क्षमता को मजबूत किया गया
- correct answer feedback और real-time user feedback के जरिए मॉडल performance को मजबूत किया गया
- curriculum learning approach लागू किया गया
- data difficulty को धीरे-धीरे बढ़ाते हुए मॉडल की context length का विस्तार
- token को efficient तरीके से उपयोग करने की क्षमता मजबूत
- reinforcement learning strategy: data relearning और policy reset strategy लागू → training stability में 50% से अधिक सुधार
- reward system
- self-reward approach अपनाया गया → मॉडल output का स्वयं मूल्यांकन और scoring
- comprehensive reward framework लागू → मॉडल की information efficiency और content detail को मजबूत किया गया
बेंचमार्क प्रदर्शन मूल्यांकन
- MMLU-pro, CEval, AIME, Zebra Logic जैसे चीनी और अंग्रेज़ी reasoning metrics में उत्कृष्ट performance
- DeepSeek R1 के बराबर प्रदर्शन या थोड़ा बेहतर नतीजे
- cultural creativity, text summarization, agent capability में बढ़त
- MMLU-PRO मूल्यांकन में 87.2 अंक → humanities, social sciences, science and technology सहित 14 क्षेत्रों में उत्कृष्ट memory और comprehension साबित
- GPQA-diamond मूल्यांकन में 69.3 अंक → PhD-स्तर के physics, chemistry, biology प्रश्न हल करने की क्षमता की पुष्टि
- code, mathematics, logical reasoning आदि में मजबूत प्रदर्शन साबित
- LiveCodeBench में 64.9 अंक → code writing और understanding क्षमता की पुष्टि
- MATH-500 में 96.2 अंक → DeepSeek R1 के करीब mathematics problem-solving क्षमता साबित
- ArenaHard में 91.9 अंक → विभिन्न alignment tasks, instruction-following tasks और tool-use tasks में मजबूत adaptability दिखाई
1 टिप्पणियां
Hacker News राय