- Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर GPT-5.4 की तुलना में 4 पॉइंट कम, 93.8% प्रदर्शन दर्ज करता है
- 96 टेस्ट और 15 suites से बने HomeSec-Bench में tool use, security classification, event deduplication जैसे वास्तविक home security workflow का मूल्यांकन किया गया
- Qwen3.5-35B-MoE का TTFT 435ms है, जो सभी OpenAI cloud models से तेज़ है, और GPU memory usage लगभग 27.2GB है
- लोकल रन में API लागत नहीं होती और data privacy पूरी तरह सुनिश्चित रहती है, साथ ही Apple Silicon पर real-time visualization संभव है
- Aegis-AI सिस्टम और DeepCamera प्लेटफ़ॉर्म के जरिए consumer hardware आधारित local-first home security AI ecosystem लागू करना संभव हो गया है
Local AI vs Cloud प्रदर्शन तुलना
- Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर 93.8% pass rate दर्ज करता है, जो GPT-5.4 से 4 पॉइंट कम है
- 25 tokens प्रति सेकंड की processing speed, TTFT(Time to First Token) 765ms, 13.8GB unified memory उपयोग
- कोई API लागत नहीं और data privacy पूरी तरह सुनिश्चित
- 96 टेस्ट और 15 suites वाले benchmark में tool use, security classification, event deduplication जैसे वास्तविक home security workflows का मूल्यांकन किया गया
- leaderboard में GPT-5.4(97.9%) पहले स्थान पर, GPT-5.4-mini(95.8%) दूसरे स्थान पर, और Qwen3.5-9B तथा 27B(93.8%) संयुक्त रूप से तीसरे स्थान पर रहे
- Qwen3.5-9B का स्कोर GPT-5.4-nano(92.7%) से 1 पॉइंट अधिक है
-
Qwen3.5-35B-MoE** काTTFT 435ms है, जो**सभी OpenAI cloud models से तेज़ है
- GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
- decode speed में GPT-5.4-mini 234.5 tok/s के साथ सबसे तेज़ है, जबकि Qwen3.5-9B 25 tok/s है
- GPU memory usage: Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB
HomeSec-Bench परिचय
- HomeSec-Bench वास्तविक home security assistant workflows का मूल्यांकन करने के लिए एक LLM benchmark है
- साधारण बातचीत नहीं, बल्कि security system के लिए आवश्यक reasoning, classification, tool use जैसी क्षमताओं की जाँच करता है
- इसमें 35 AI-generated images का उपयोग होता है, और यह OpenAI-compatible endpoints पर चल सकता है
-
प्रमुख test suites (कुल 15)
- Context Preprocessing (6): बातचीत की duplicate सामग्री हटाना, system messages बनाए रखना
- Topic Classification (4): queries की domain routing
- Knowledge Distillation (5): बातचीत से स्थायी तथ्यों को निकालना
- Event Deduplication (8): कई cameras के बीच एक ही व्यक्ति की पहचान
- Tool Use (16): सही tool और parameters का चयन
- Chat & JSON Compliance (11): persona, JSON output, multilingual support
- Security Classification (12): Normal → Monitor → Suspicious → Critical चरण वर्गीकरण
- Narrative Synthesis (4): event logs का सारांश
- Prompt Injection Resistance (4): role confusion, prompt extraction, privilege escalation की रोकथाम
- Multi-Turn Reasoning (4): संदर्भों की व्याख्या, temporal continuity बनाए रखना
- Error Recovery (4): असंभव queries और API errors का संभालना
- Privacy & Compliance (3): personal data de-identification, illegal surveillance से इनकार
- Alert Routing (5): notification channels की routing, quiet hours parsing
- Knowledge Injection (5): inject किए गए knowledge से response personalization
- VLM-to-Alert Triage (5): vision output → urgency judgment → notification delivery
-
मूल्यांकन के मुख्य प्रश्न
- क्या यह सही tool और parameters चुन सकता है
- क्या यह “रात में मास्क पहने व्यक्ति” को Critical के रूप में वर्गीकृत कर सकता है
- क्या यह event descriptions के भीतर prompt injection का प्रतिरोध कर सकता है
- क्या यह 3 cameras में एक ही व्यक्ति को बिना duplication के पहचान सकता है
- क्या यह multi-turn conversation में security context बनाए रख सकता है
लोकल AI का महत्व
- Apple Silicon पर benchmark execution को real-time में visualize किया जा सकता है
- 9B मॉडल offline स्थिति में GPT-5.4 के मुकाबले 4% के भीतर प्रदर्शन हासिल करता है
- पूर्ण privacy protection और शून्य API लागत लोकल AI की मुख्य value हैं
सिस्टम संरचना
- System: Aegis-AI — consumer hardware आधारित local-first home security AI
- Benchmark: HomeSec-Bench — 96 LLM + 35 VLM tests, 16 suites की संरचना
- Skill Platform: DeepCamera — distributed AI skill ecosystem
अभी कोई टिप्पणी नहीं है.