3 पॉइंट द्वारा GN⁺ 2026-03-21 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर GPT-5.4 की तुलना में 4 पॉइंट कम, 93.8% प्रदर्शन दर्ज करता है
  • 96 टेस्ट और 15 suites से बने HomeSec-Bench में tool use, security classification, event deduplication जैसे वास्तविक home security workflow का मूल्यांकन किया गया
  • Qwen3.5-35B-MoE का TTFT 435ms है, जो सभी OpenAI cloud models से तेज़ है, और GPU memory usage लगभग 27.2GB है
  • लोकल रन में API लागत नहीं होती और data privacy पूरी तरह सुनिश्चित रहती है, साथ ही Apple Silicon पर real-time visualization संभव है
  • Aegis-AI सिस्टम और DeepCamera प्लेटफ़ॉर्म के जरिए consumer hardware आधारित local-first home security AI ecosystem लागू करना संभव हो गया है

Local AI vs Cloud प्रदर्शन तुलना

  • Qwen3.5-9B मॉडल MacBook Pro M5 पर पूरी तरह लोकल चलकर 93.8% pass rate दर्ज करता है, जो GPT-5.4 से 4 पॉइंट कम है
    • 25 tokens प्रति सेकंड की processing speed, TTFT(Time to First Token) 765ms, 13.8GB unified memory उपयोग
    • कोई API लागत नहीं और data privacy पूरी तरह सुनिश्चित
  • 96 टेस्ट और 15 suites वाले benchmark में tool use, security classification, event deduplication जैसे वास्तविक home security workflows का मूल्यांकन किया गया
  • leaderboard में GPT-5.4(97.9%) पहले स्थान पर, GPT-5.4-mini(95.8%) दूसरे स्थान पर, और Qwen3.5-9B तथा 27B(93.8%) संयुक्त रूप से तीसरे स्थान पर रहे
    • Qwen3.5-9B का स्कोर GPT-5.4-nano(92.7%) से 1 पॉइंट अधिक है
  • Qwen3.5-35B-MoE** काTTFT 435ms है, जो**सभी OpenAI cloud models से तेज़ है

    • GPT-5.4-nano 508ms, GPT-5.4-mini 553ms, GPT-5.4 601ms
    • decode speed में GPT-5.4-mini 234.5 tok/s के साथ सबसे तेज़ है, जबकि Qwen3.5-9B 25 tok/s है
    • GPU memory usage: Qwen3.5-9B 13.8GB, Qwen3.5-35B-MoE 27.2GB, Qwen3.5-122B-MoE 40.8GB

HomeSec-Bench परिचय

  • HomeSec-Bench वास्तविक home security assistant workflows का मूल्यांकन करने के लिए एक LLM benchmark है
    • साधारण बातचीत नहीं, बल्कि security system के लिए आवश्यक reasoning, classification, tool use जैसी क्षमताओं की जाँच करता है
    • इसमें 35 AI-generated images का उपयोग होता है, और यह OpenAI-compatible endpoints पर चल सकता है
  • प्रमुख test suites (कुल 15)

    • Context Preprocessing (6): बातचीत की duplicate सामग्री हटाना, system messages बनाए रखना
    • Topic Classification (4): queries की domain routing
    • Knowledge Distillation (5): बातचीत से स्थायी तथ्यों को निकालना
    • Event Deduplication (8): कई cameras के बीच एक ही व्यक्ति की पहचान
    • Tool Use (16): सही tool और parameters का चयन
    • Chat & JSON Compliance (11): persona, JSON output, multilingual support
    • Security Classification (12): Normal → Monitor → Suspicious → Critical चरण वर्गीकरण
    • Narrative Synthesis (4): event logs का सारांश
    • Prompt Injection Resistance (4): role confusion, prompt extraction, privilege escalation की रोकथाम
    • Multi-Turn Reasoning (4): संदर्भों की व्याख्या, temporal continuity बनाए रखना
    • Error Recovery (4): असंभव queries और API errors का संभालना
    • Privacy & Compliance (3): personal data de-identification, illegal surveillance से इनकार
    • Alert Routing (5): notification channels की routing, quiet hours parsing
    • Knowledge Injection (5): inject किए गए knowledge से response personalization
    • VLM-to-Alert Triage (5): vision output → urgency judgment → notification delivery
  • मूल्यांकन के मुख्य प्रश्न

    • क्या यह सही tool और parameters चुन सकता है
    • क्या यह “रात में मास्क पहने व्यक्ति” को Critical के रूप में वर्गीकृत कर सकता है
    • क्या यह event descriptions के भीतर prompt injection का प्रतिरोध कर सकता है
    • क्या यह 3 cameras में एक ही व्यक्ति को बिना duplication के पहचान सकता है
    • क्या यह multi-turn conversation में security context बनाए रख सकता है

लोकल AI का महत्व

  • Apple Silicon पर benchmark execution को real-time में visualize किया जा सकता है
  • 9B मॉडल offline स्थिति में GPT-5.4 के मुकाबले 4% के भीतर प्रदर्शन हासिल करता है
  • पूर्ण privacy protection और शून्य API लागत लोकल AI की मुख्य value हैं

सिस्टम संरचना

  • System: Aegis-AI — consumer hardware आधारित local-first home security AI
  • Benchmark: HomeSec-Bench — 96 LLM + 35 VLM tests, 16 suites की संरचना
  • Skill Platform: DeepCamera — distributed AI skill ecosystem

1 टिप्पणियां

 
GN⁺ 2026-03-21
Hacker News की राय
  • मैं लंबे समय से कल्पना करता रहा हूँ कि एक दिन परिवार जब घर या घरेलू उपकरण खरीदेंगे, तो साथ में AI server भी खरीदेंगे
    हार्डवेयर प्रगति की रफ्तार धीमी हो रही है, इसलिए लगता है कि एक बार ऐसा घरेलू AI system खरीद लेने पर वह दशकों तक काम आ सकता है
    मेरा मानना है कि यह सिस्टम परिवार का इतिहास आगे ले जाएगा, पूरी तरह offline चलेगा, और पीढ़ियों तक चलने वाले स्थायी assistant जैसा होगा

    • मैं सहमत नहीं हूँ। सिर्फ M1 और M5 की तुलना देख लें, तो 5 साल में CPU/GPU, AI, 3D rendering आदि लगभग हर मामले में 6 गुना से अधिक तेज़ हो गए हैं
      “परिवार की वंशावली को आगे ले जाने वाला AI server” का विचार आकर्षक है, लेकिन व्यवहारिक रूप से hardware aging से बचना मुश्किल है
    • अगर आपने 10 साल पहले घर के लिए server खरीदा होता, तो उसमें GPU या AI accelerator होते ही नहीं
      अभी भी single-core performance ठहरी हुई है, लेकिन AI parallel computation पर आधारित है, इसलिए इसमें अब भी तेज़ प्रगति हो रही है
      दशकों तक चलने वाले server की अवधारणा अभी समय से पहले लगती है
    • प्रस्तावित अवधारणा असल में homelab से बहुत अलग नहीं है
      ज़्यादातर लोग photo storage या security जैसी सेवाएँ cloud को सौंपकर संतुष्ट रहते हैं
    • “दशकों तक चलने वाला server” वाला अनुमान बहुत कमज़ोर दावा लगता है
    • ऊपर से, ऐसे उत्पादों में subscription revenue model नहीं होता, इसलिए कंपनियों के पास इन्हें बनाने की प्रेरणा भी कम होती है
  • यह पेज दिखने में आकर्षक है, लेकिन असल में यह एक साधारण home security benchmark है
    इसमें सिर्फ Qwen मॉडल्स की तुलना की गई है, और नया version तो पिछली पीढ़ी से भी धीमा है
    हर काम के लिए सबसे अच्छा model अलग होता है; VL, multilingual, reasoning आदि में अलग-अलग मॉडल बेहतर हो सकते हैं
    Qwen 3.5 बेहतरीन है, लेकिन “हर चीज़ में अच्छा एक ही model” जैसी कोई चीज़ नहीं होती
    उचित model selection और prompt design ज़्यादा महत्वपूर्ण हैं
    नया M5 Mac न हो तब भी 2 साल पुराने laptop या smartphone पर यह अच्छी तरह चल सकता है

    • feedback के लिए धन्यवाद :) Qwen3.5 की धीमी गति देखकर मैंने thinking mode बंद कर दिया
      अभी मैं MBP Pro 64GB पर सिर्फ LLM टेस्ट कर रहा हूँ, और VLM के लिए LFM 450M को सबसे अच्छा मानता हूँ
      जल्द ही update दूँगा
    • मैं सीखना चाहता हूँ कि कौन सा model किस काम के लिए अच्छा है
      LM Studio के साथ प्रयोग कर रहा हूँ, और Rust तथा SQL coding के लिए local Claude replacement ढूँढ़ रहा हूँ
    • मैं भी Mac mini M2 16GB पर कई कैमरे चला रहा हूँ
      Qwen 9B + LFM 450M का संयोजन $400 से कम budget में भी अच्छा काम करता है
      मैं टेस्ट को और ज़्यादा मॉडल्स तक बढ़ाने वाला हूँ
  • M5 Pro लॉन्च हो गया, इसलिए मैंने वास्तविक AI workloads पर टेस्ट किया
    Qwen3.5-9B ने GPT-5.4 के मुकाबले सिर्फ 4 अंकों के अंतर के साथ 93.8% स्कोर किया, और सब कुछ local पर चला
    यह 25 tok/s, 765ms TTFT के साथ चला और सिर्फ 13.8GB memory का उपयोग किया
    पूरा परिणाम देखें

    • परिणाम साझा करने के लिए धन्यवाद, लेकिन पेज और टिप्पणियों की AI द्वारा लिखी गई लगने वाली बढ़ाचढ़ाकर कही गई शैली के कारण असल टेस्ट समझना कठिन है
      अगर टेस्ट आइटम साफ़-साफ़ दिखाने वाला कोई लिंक हो, तो अच्छा होगा
    • अगर यह “पूरी तरह local home security system” है, तो क्या GPU को 24 घंटे full load पर चलाया जाता है, यह जानना चाहूँगा
      लंबे समय तक इस्तेमाल में silicon damage हुआ या नहीं, यह भी जानना है
  • फिलहाल local models चलाने के लिए लगभग $2500 चाहिए
    दिलचस्प बात यह है कि 1995 में जब मेरे माता-पिता ने 166MHz PC खरीदा था, तब भी कीमत लगभग इतनी ही थी

    • मुझे भी 80-90 के दशक में हज़ारों डॉलर के PC खरीदने की याद है
      electronics की value depreciation की रफ्तार देखने के बाद अब मैं कीमत को लेकर बहुत संवेदनशील हो गया हूँ
      हालांकि Moore's Law की slowdown के कारण अब चीज़ें पहले की तरह तेज़ी से सस्ती नहीं भी हो सकतीं
    • मैंने 1989 में 386sx को $3800 में खरीदा था, जो आज की कीमत में लगभग $10,000 के बराबर होता
      यह सोचना मुश्किल है कि उस समय उसे “value for money” माना जाता था
    • benchmark में शीर्ष local model Qwen3.5-9B (Q4_K_M) है, जो 9B parameters वाला 4.5-bit quantized model है
      यह $500 वाले Mac Mini पर भी अच्छी तरह चलता है
    • शुरुआती उपयोग के लिए Mac Mini 16GB (<$499) पर्याप्त है
      M2 Mini पर भी छोटे मॉडल अच्छी तरह चलते हैं
  • यह prompt injection test खास विश्वसनीय नहीं लगता

    • यह मुख्य रूप से man-in-the-middle attack detection के लिए उपयोग होता है
      review के लिए धन्यवाद
  • तकनीकी रूप से यह शानदार है, लेकिन insurance alarm certificate जारी करने की क्षमता नहीं है
    वास्तविक business में यही ज़रूरी होता है, ताकि insurance discount या loss compensation मिल सके
    अंततः तकनीक से भी बड़ा अवरोध regulation और compliance है

    • सही बात, वह मानक बहुत ऊँचा लगता है
  • मैं जानना चाहता हूँ कि यह system Frigate से कैसे तुलना करता है
    क्या यह सिर्फ NVR के ऊपर एक layer है, या motion-detection recording भी करता है

    • Frigate के लिए Coral TPU खरीदने पर काफ़ी inference सस्ते में offload किए जा सकते हैं
    • Aegis ONVIF camera integration, motion-detection recording, और VLM-आधारित context understanding को support करता है
      यह BLINK/RING कैमरों की video को local में store करके persistent memory के रूप में उपयोग कर सकता है
  • मज़ाक जैसा लगता है, लेकिन AI में S का मतलब Security है

  • भविष्य में शायद tokens को data traffic की तरह बेचा जाएगा, और वे रोज़मर्रा की उपभोक्ता वस्तु बन सकते हैं