Gemma 4 MTP को छिपाने के बाद कम्युनिटी ने इसका खुलासा किया, और Google ने देर से वर्कअराउंड सपोर्ट दिया
(reddit.com)Google ने MTP के साथ train किए गए Gemma 4 से इस फीचर को public distribution से हटा दिया था, लेकिन कम्युनिटी की reverse engineering से यह सामने आने के बाद उसने बाद में external assistant model के रूप में सपोर्ट देना शुरू किया।
जब open source डेवलपर्स Google द्वारा वितरित मोबाइल/edge devices के लिए .litertlm (TFLite-आधारित) फ़ाइलों का विश्लेषण कर रहे थे, तब उन्हें एक चौंकाने वाली बात पता चली। HuggingFace पर सार्वजनिक standard model weights में मौजूद न होने वाली MTP (Multi-Token Prediction) architecture केवल edge-targeted compiled files में शामिल थी।
जब इस पर सार्वजनिक रूप से सवाल उठाया गया, तो Google ने तथ्य स्वीकार करते हुए यह जवाब दिया:
"MTP-संबंधित prediction heads को HuggingFace Transformers API के साथ compatibility के लिए public model से जानबूझकर हटाया गया था। LiteRT runtime में on-device performance बेहतर करने के लिए इन्हें बनाए रखा गया।"
MTP क्या है
सामान्य LLM टोकन को एक-एक करके क्रमवार generate करते हैं। MTP एक ऐसी तकनीक है जो एक forward pass में कई tokens की एक साथ prediction करती है, और speculative decoding के साथ मिलकर output quality में बदलाव किए बिना inference speed को काफी बढ़ा सकती है। सैद्धांतिक रूप से यह एक lossless optimization है।
कम्युनिटी की reverse engineering कोशिश
मूल खोजकर्ता ने .litertlm फ़ाइल से कई .tflite फ़ाइलें extract करने में सफलता पाई और HuggingFace पर extracted files तथा reproduction प्रक्रिया साझा करते हुए C++ जानने वालों से सहयोग मांगा। इसके बाद कम्युनिटी contributors ने गंभीर reverse engineering शुरू की।
तकनीकी कठिनाई: TFLite kernel structure बेहद जटिल था। 1024-wide attention vectors को INT8 में quantize करना → INT8 weights के साथ multiplication → परिणाम को requantize करना → फिर dequantize करना, ऐसा ढांचा था।
नतीजा: कई दिनों की केंद्रित मेहनत के बाद वे निम्नलिखित को reconstruct करने में सफल रहे:
- GQA (Grouped-Query Attention) structure और external KV cache mapping
- sliding local window behavior
pre_project/q_proj/ MLP /o_proj/post_projectquantization paths- partial RoPE behavior
- end-to-end TFLite parity 20/20 top-1 match हासिल
लाइसेंस Apache 2.0 है, इसलिए कोई कानूनी समस्या नहीं है।
वास्तविक प्रदर्शन: कितना तेज़ है
कम्युनिटी के वास्तविक माप (Strix Halo के आधार पर):
| कार्य | पहले | MTP लागू होने के बाद |
|---|---|---|
| कोड जनरेशन | 8 tps | 25 tps (लगभग 3x) |
| सामान्य लेखन | 7~8 tps | 11~14 tps |
मौजूदा LLaMA/Qwen3 श्रृंखला की speculative decoding आमतौर पर 1.5~1.7x, और अधिकतम 2x तक रहती है; इसकी तुलना में coding में 3x एक असाधारण आंकड़ा है। विश्लेषण के अनुसार, code generation की प्रकृति में repetitive boilerplate अधिक होने से draft token acceptance rate ऊंची रहती है।
कम्युनिटी की प्रतिक्रिया और संदेह
आलोचना मुख्य रूप से दो दिशाओं में आई।
① undocumented होने पर आलोचना: MTP के साथ train करने के बाद इसे public distribution से जानबूझकर हटाया गया, और इसका कहीं कोई उल्लेख भी नहीं किया गया।
② व्यावसायिक मंशा पर संदेह: "अगर local पर चलने वाला open source 31B model बहुत तेज़ हो जाए, तो वह कंपनी के commercial API (Flash Lite आदि) की competitiveness को नुकसान पहुंचा सकता है, इसलिए इसे जानबूझकर nerf किया गया" — ऐसा दावा किया गया। लीक होने के बाद हटाए गए 122B model का भी इसी संदर्भ में ज़िक्र हुआ।
Google का संरचनात्मक विकल्प
| वितरण चैनल | MTP शामिल है या नहीं |
|---|---|
| HuggingFace सार्वजनिक weights | ❌ जानबूझकर हटाया गया |
| LiteRT (edge/मोबाइल) | ✅ अंतर्निहित |
| gemma4_assistant (5/5 नया) | ✅ बाहरी सहायक मॉडल के रूप में परोक्ष सपोर्ट |
Google की देर से आई आधिकारिक प्रतिक्रिया (5 मई 5~6)
जब कम्युनिटी का दबाव बढ़ गया, तो Google ने 5 मई को gemma4_assistant assistant model को HuggingFace पर अलग से रिलीज़ किया, और आधिकारिक ब्लॉग के जरिए Gemma 4 MTP drafter की घोषणा की। जो फीचर मूल मॉडल के अंदर होना चाहिए था, उसे अलग external model के रूप में निकालकर वर्कअराउंड सपोर्ट देने का यह तरीका है।
- स्पीड: quality घटाए बिना inference speed में अधिकतम 3 गुना सुधार
- assistant model: लगभग 500M parameters का lightweight drafter
- इस्तेमाल:
generate()फ़ंक्शन केassistant_model=argument में इसे पास करने पर यह काम करता है। custom MTP implementation की जरूरत नहीं - सपोर्टेड environment: HuggingFace Transformers, vLLM, MLX (Apple Silicon), LiteRT-LM
💡 एक पंक्ति में सार: Google ने MTP के साथ train किए गए Gemma 4 से यह फीचर public distribution में हटा दिया था, लेकिन कम्युनिटी की reverse engineering से खुलासा होने के बाद उसने external assistant model के रूप में देर से वर्कअराउंड सपोर्ट देना शुरू किया।
2 टिप्पणियां
122B मॉडल भी था, कमाल है wow
https://huggingface.co/google/gemma-4-31B-it-assistant
https://github.com/huggingface/transformers/…
https://github.com/Blaizzy/mlx-vlm/pull/1112
https://huggingface.co/collections/mlx-community/gemma-4-assistant-mtp