Kimi K2 1T मॉडल 512GB वाले दो M3 Ultra पर चला

(twitter.com/awnihannun)

1 पॉइंट द्वारा GN⁺ 2025-12-15 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Kimi K2 1T मॉडल को 512GB मेमोरी वाले दो M3 Ultra चिप्स पर चलाए जाने का एक उदाहरण सामने आया
ट्विटर पोस्ट में इस मॉडल के रनिंग environment और hardware configuration का उल्लेख किया गया
1T-स्केल मॉडल को commercial Mac hardware पर चलाया गया, यह बात खास तौर पर ध्यान खींचती है
यह high-performance Apple Silicon-आधारित AI computation की संभावनाओं को दिखाने वाला उदाहरण है
यह बड़े language model के local execution की सीमाओं के विस्तार की ओर इशारा करने वाला एक तकनीकी प्रयास है

ट्विटर पोस्ट की सामग्री

पोस्ट में साफ़ कहा गया है कि Kimi K2 1T मॉडल को दो M3 Ultra (प्रत्येक में 512GB मेमोरी) पर चलाया गया
अतिरिक्त performance metrics या results के बारे में कोई विवरण नहीं दिया गया
इस ट्वीट के अलावा कोई अतिरिक्त संदर्भ या विस्तृत तकनीकी जानकारी उपलब्ध नहीं है

1 टिप्पणियां

GN⁺ 2025-12-15

Hacker News प्रतिक्रियाएँ

Kimi K2 वाकई एक अजीब मॉडल है
यह Opus 4.5 या 5.2-Pro से ज़्यादा स्मार्ट नहीं है, लेकिन इसकी लिखने की शैली बहुत अलग है और इसमें इंसानों की तरह बात करने वाला सीधा-सादा टोन है
ईमेल जैसी छोटी चीज़ें लिखने में यह अभी के सबसे बेहतरीन मॉडलों में है, और बातचीत के दौरान गलतियाँ दिखाने या बकवास को ठीक करने में हिचकिचाता नहीं है
लगता है कि इसे दूसरे मॉडलों से बिल्कुल अलग तरीके से ट्रेन किया गया है, इसलिए यह डेटा विश्लेषण से ज़्यादा editing के लिए बहुत उपयोगी है
इसी वजह से मैं सच में Kimi का subscription लेकर इस्तेमाल कर रहा हूँ
- मैं भी यही सोचता हूँ। छोटी communication में Kimi K2 बेमिसाल है
  इसकी emotional intelligence शानदार है, यह संदेश के nuance और इरादे को अच्छी तरह समझ लेता है, और social context को भी ध्यान में रखकर वाक्य सुधारता है
  Moonshot ने इसे कैसे train किया, पता नहीं, लेकिन यह हिस्सा सच में ध्यान देने लायक है
  EQ-bench पर यह emotional intelligence evaluation में पहले स्थान पर रहा, और यह मेरे अपने अनुभव से पूरी तरह मेल खाता है
- यह मेरे पसंदीदा AI benchmark, Clocks test, को लगातार अच्छे से पास करने वाला इकलौता मॉडल है
- यह इकलौता मॉडल है जो मेरे गलत होने पर ईमानदारी से बता देता है
  “reproducible example दो” जैसी बात कहने वाला chatbot देखना अपने आप में दिलचस्प अनुभव है
  वैसे Kagi में भी Kimi K2 इस्तेमाल किया जा सकता है
- Sonnet 4.5 भी इसी तरह कभी-कभी user से असहमति जताता है, लेकिन ज़्यादातर वह context की कमी से पैदा हुई गलतफहमी होती है
  Kimi K2 इस मामले में कितना सटीक है, यह जानने की उत्सुकता है
  आखिरकार, मॉडल की असली बात instruction following ही तो है, ऐसा लगता है
- इसी वजह से EQ-bench पर इसका स्कोर ऊँचा होना स्वाभाविक है
Kimi K2 सच में एक प्रभावशाली मॉडल है
इसका ज़रूरत से ज़्यादा चापलूसी न करने वाला रवैया इसे logic check के लिए उपयोगी बनाता है
पुराने ChatGPT मॉडल हर बात की तारीफ करते थे, लेकिन Kimi अगर कहो तो बुद्धि या खानदान तक पर शक करने वाली बेरहम आलोचना कर देता है
- कहो तो यह सचमुच roast mode में चला जाता है। ध्यान बनाए रखने में मदद मिलती है
- एक बार Tesla के अंदर Grok चालू था और voice recognition गड़बड़ा गई, तो बड़ा अजीब हाल हो गया था
  उस मॉडल का स्वभाव भी Kimi की तरह बिल्कुल भी चापलूसी वाला नहीं था
M3 Ultra 512GB मॉडल की कीमत $9,499 है
Apple आधिकारिक लिंक
- refurbished प्रोडक्ट इस लिंक पर $8,070 में खरीदा जा सकता है
  gift card के साथ अतिरिक्त 10% discount भी मिल सकता है
सोच रहा हूँ कि क्या इस configuration का कोई Linux version है
RDNA support की बात सुनी है, लेकिन पता नहीं कि यह hardware-dependent है या नहीं (जैसे ConnectX या Apple Thunderbolt चाहिए), या फिर सामान्य 10G NIC से भी काम चल जाएगा
- production-level performance के लिए RDNA-compatible hardware चाहिए
  लेकिन vLLM सामान्य Ethernet आधारित multi-node cluster भी support करता है
हमेशा की तरह, performance claims context length या prefill conditions बताए बिना गलतफहमी पैदा करते हैं
लंबा context इस्तेमाल करो तो जवाब का इंतज़ार करने में कई मिनट लग सकते हैं
ऐसी मशीनें कुछ खरीदने का मन तो है, लेकिन depreciation सोचकर लगता है अभी जल्दी होगी
शायद कुछ सालों में यह काफ़ी सस्ती हो जाएँगी
- खरीदने से पहले असली speed benchmark ज़रूर देखना चाहिए
  सिर्फ “चलता है” सुनकर भरोसा नहीं करना चाहिए, क्योंकि लंबे context में processing speed बिल्कुल अलग होती है
- मेरी राय में ऐसी मशीन खरीदना आर्थिक रूप से सही नहीं है
  उतने ही पैसे में cloud usage बहुत ज़्यादा मिल सकता है
  ऊपर से इसे 24/7 चलाना भी नहीं होता, इसलिए efficiency कम रहती है
  open source मॉडल Groq या Cerebras जैसी ultra-low latency services पर चलाना कहीं ज़्यादा आसान है
- local मॉडल चलाने की वजह privacy होती है, लागत या latency नहीं
- उम्मीद है अगला update M5 variant chip के साथ आएगा
- RAM की कीमतें स्थिर होने तक इंतज़ार करना बेहतर लगेगा
आजकल कौन से benchmark वाकई meaningful हैं, यह जानना चाहता हूँ
Cursor में कई मॉडल test करता हूँ, लेकिन Deepseek v3.2 या Kimi K2 format issues की वजह से ठीक से नहीं चलते, और दूसरे मॉडल भी कई बार गायब रहते हैं
खासकर C++ या Rust जैसे non-web क्षेत्रों के benchmark जानने हैं
यह बताना चाहिए कि यह मॉडल 4bit quantization (quant) version है। फिर भी प्रभावशाली है
- Kimi K2 को शुरू से ही 4bit optimization को ध्यान में रखकर डिज़ाइन किया गया था
- अगर parameter count ट्रिलियन स्तर का है, तो quantization को तो पहले से मानकर ही चलना चाहिए
सोच रहा हूँ कि क्या Exo Labs का token pre-fill acceleration DGX Spark पर चल सकता है
क्या 2 Spark और 2 Mac Studio का कॉम्बिनेशन 2 M5 Ultra जितनी inference speed दे पाएगा?
मुझे लगता है कि हाल की real-time clock drawing competition जीतने वाला मॉडल शायद यही था

Kimi K2 1T मॉडल 512GB वाले दो M3 Ultra पर चला

ट्विटर पोस्ट की सामग्री

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News प्रतिक्रियाएँ