- Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर GPT-5.4 की तुलना में 4 पॉइंट कम, 93.8% प्रदर्शन दर्ज करता है
- 96 टेस्ट और 15 suites से बने HomeSec-Bench में tool use, security classification, event deduplication जैसे वास्तविक home security workflow का मूल्यांकन किया गया
- Qwen3.5-35B-MoE का TTFT 435ms है, जो सभी OpenAI cloud models से तेज़ है, और GPU memory usage लगभग 27.2GB है
- लोकल रन में API लागत नहीं होती और data privacy पूरी तरह सुनिश्चित रहती है, साथ ही Apple Silicon पर real-time visualization संभव है
- Aegis-AI सिस्टम और DeepCamera प्लेटफ़ॉर्म के जरिए consumer hardware आधारित local-first home security AI ecosystem लागू करना संभव हो गया है
Local AI vs Cloud प्रदर्शन तुलना
- Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर 93.8% pass rate दर्ज करता है, जो GPT-5.4 से 4 पॉइंट कम है
- 25 tokens प्रति सेकंड की processing speed, TTFT(Time to First Token) 765ms, 13.8GB unified memory उपयोग
- कोई API लागत नहीं और data privacy पूरी तरह सुनिश्चित
- 96 टेस्ट और 15 suites वाले benchmark में tool use, security classification, event deduplication जैसे वास्तविक home security workflows का मूल्यांकन किया गया
- leaderboard में GPT-5.4(97.9%) पहले स्थान पर, GPT-5.4-mini(95.8%) दूसरे स्थान पर, और Qwen3.5-9B तथा 27B(93.8%) संयुक्त रूप से तीसरे स्थान पर रहे
- Qwen3.5-9B का स्कोर GPT-5.4-nano(92.7%) से 1 पॉइंट अधिक है
-
Qwen3.5-35B-MoE** काTTFT 435ms है, जो**सभी OpenAI cloud models से तेज़ है
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- decode speed में GPT-5.4-mini 234.5 tok/s के साथ सबसे तेज़ है, जबकि Qwen3.5-9B 25 tok/s है
- GPU memory usage: Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB
HomeSec-Bench परिचय
- HomeSec-Bench वास्तविक home security assistant workflows का मूल्यांकन करने के लिए एक LLM benchmark है
- साधारण बातचीत नहीं, बल्कि security system के लिए आवश्यक reasoning, classification, tool use जैसी क्षमताओं की जाँच करता है
- इसमें 35 AI-generated images का उपयोग होता है, और यह OpenAI-compatible endpoints पर चल सकता है
-
प्रमुख test suites (कुल 15)
- Context Preprocessing (6): बातचीत की duplicate सामग्री हटाना, system messages बनाए रखना
- Topic Classification (4): queries की domain routing
- Knowledge Distillation (5): बातचीत से स्थायी तथ्यों को निकालना
- Event Deduplication (8): कई cameras के बीच एक ही व्यक्ति की पहचान
- Tool Use (16): सही tool और parameters का चयन
- Chat & JSON Compliance (11): persona, JSON output, multilingual support
- Security Classification (12): Normal → Monitor → Suspicious → Critical चरण वर्गीकरण
- Narrative Synthesis (4): event logs का सारांश
- Prompt Injection Resistance (4): role confusion, prompt extraction, privilege escalation की रोकथाम
- Multi-Turn Reasoning (4): संदर्भों की व्याख्या, temporal continuity बनाए रखना
- Error Recovery (4): असंभव queries और API errors का संभालना
- Privacy & Compliance (3): personal data de-identification, illegal surveillance से इनकार
- Alert Routing (5): notification channels की routing, quiet hours parsing
- Knowledge Injection (5): inject किए गए knowledge से response personalization
- VLM-to-Alert Triage (5): vision output → urgency judgment → notification delivery
-
मूल्यांकन के मुख्य प्रश्न
- क्या यह सही tool और parameters चुन सकता है
- क्या यह “रात में मास्क पहने व्यक्ति” को Critical के रूप में वर्गीकृत कर सकता है
- क्या यह event descriptions के भीतर prompt injection का प्रतिरोध कर सकता है
- क्या यह 3 cameras में एक ही व्यक्ति को बिना duplication के पहचान सकता है
- क्या यह multi-turn conversation में security context बनाए रख सकता है
लोकल AI का महत्व
- Apple Silicon पर benchmark execution को real-time में visualize किया जा सकता है
- 9B मॉडल offline स्थिति में GPT-5.4 के मुकाबले 4% के भीतर प्रदर्शन हासिल करता है
- पूर्ण privacy protection और शून्य API लागत लोकल AI की मुख्य value हैं
सिस्टम संरचना
- System: Aegis-AI — consumer hardware आधारित local-first home security AI
- Benchmark: HomeSec-Bench — 96 LLM + 35 VLM tests, 16 suites की संरचना
- Skill Platform: DeepCamera — distributed AI skill ecosystem
1 टिप्पणियां
Hacker News की राय
मैं लंबे समय से कल्पना करता रहा हूँ कि एक दिन परिवार जब घर या घरेलू उपकरण खरीदेंगे, तो साथ में AI server भी खरीदेंगे
हार्डवेयर प्रगति की रफ्तार धीमी हो रही है, इसलिए लगता है कि एक बार ऐसा घरेलू AI system खरीद लेने पर वह दशकों तक काम आ सकता है
मेरा मानना है कि यह सिस्टम परिवार का इतिहास आगे ले जाएगा, पूरी तरह offline चलेगा, और पीढ़ियों तक चलने वाले स्थायी assistant जैसा होगा
“परिवार की वंशावली को आगे ले जाने वाला AI server” का विचार आकर्षक है, लेकिन व्यवहारिक रूप से hardware aging से बचना मुश्किल है
अभी भी single-core performance ठहरी हुई है, लेकिन AI parallel computation पर आधारित है, इसलिए इसमें अब भी तेज़ प्रगति हो रही है
दशकों तक चलने वाले server की अवधारणा अभी समय से पहले लगती है
ज़्यादातर लोग photo storage या security जैसी सेवाएँ cloud को सौंपकर संतुष्ट रहते हैं
यह पेज दिखने में आकर्षक है, लेकिन असल में यह एक साधारण home security benchmark है
इसमें सिर्फ Qwen मॉडल्स की तुलना की गई है, और नया version तो पिछली पीढ़ी से भी धीमा है
हर काम के लिए सबसे अच्छा model अलग होता है; VL, multilingual, reasoning आदि में अलग-अलग मॉडल बेहतर हो सकते हैं
Qwen 3.5 बेहतरीन है, लेकिन “हर चीज़ में अच्छा एक ही model” जैसी कोई चीज़ नहीं होती
उचित model selection और prompt design ज़्यादा महत्वपूर्ण हैं
नया M5 Mac न हो तब भी 2 साल पुराने laptop या smartphone पर यह अच्छी तरह चल सकता है
अभी मैं MBP Pro 64GB पर सिर्फ LLM टेस्ट कर रहा हूँ, और VLM के लिए LFM 450M को सबसे अच्छा मानता हूँ
जल्द ही update दूँगा
LM Studio के साथ प्रयोग कर रहा हूँ, और Rust तथा SQL coding के लिए local Claude replacement ढूँढ़ रहा हूँ
Qwen 9B + LFM 450M का संयोजन $400 से कम budget में भी अच्छा काम करता है
मैं टेस्ट को और ज़्यादा मॉडल्स तक बढ़ाने वाला हूँ
M5 Pro लॉन्च हो गया, इसलिए मैंने वास्तविक AI workloads पर टेस्ट किया
Qwen3.5-9B ने GPT-5.4 के मुकाबले सिर्फ 4 अंकों के अंतर के साथ 93.8% स्कोर किया, और सब कुछ local पर चला
यह 25 tok/s, 765ms TTFT के साथ चला और सिर्फ 13.8GB memory का उपयोग किया
पूरा परिणाम देखें
अगर टेस्ट आइटम साफ़-साफ़ दिखाने वाला कोई लिंक हो, तो अच्छा होगा
लंबे समय तक इस्तेमाल में silicon damage हुआ या नहीं, यह भी जानना है
फिलहाल local models चलाने के लिए लगभग $2500 चाहिए
दिलचस्प बात यह है कि 1995 में जब मेरे माता-पिता ने 166MHz PC खरीदा था, तब भी कीमत लगभग इतनी ही थी
electronics की value depreciation की रफ्तार देखने के बाद अब मैं कीमत को लेकर बहुत संवेदनशील हो गया हूँ
हालांकि Moore's Law की slowdown के कारण अब चीज़ें पहले की तरह तेज़ी से सस्ती नहीं भी हो सकतीं
यह सोचना मुश्किल है कि उस समय उसे “value for money” माना जाता था
यह $500 वाले Mac Mini पर भी अच्छी तरह चलता है
M2 Mini पर भी छोटे मॉडल अच्छी तरह चलते हैं
यह prompt injection test खास विश्वसनीय नहीं लगता
review के लिए धन्यवाद
तकनीकी रूप से यह शानदार है, लेकिन insurance alarm certificate जारी करने की क्षमता नहीं है
वास्तविक business में यही ज़रूरी होता है, ताकि insurance discount या loss compensation मिल सके
अंततः तकनीक से भी बड़ा अवरोध regulation और compliance है
मैं जानना चाहता हूँ कि यह system Frigate से कैसे तुलना करता है
क्या यह सिर्फ NVR के ऊपर एक layer है, या motion-detection recording भी करता है
यह BLINK/RING कैमरों की video को local में store करके persistent memory के रूप में उपयोग कर सकता है
मज़ाक जैसा लगता है, लेकिन AI में S का मतलब Security है
भविष्य में शायद tokens को data traffic की तरह बेचा जाएगा, और वे रोज़मर्रा की उपभोक्ता वस्तु बन सकते हैं