1 पॉइंट द्वारा GN⁺ 3 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • व्यक्तिगत AI कोडिंग की लागत घटाने के तीन विकल्प हैं: self-hosting, open source model API किराये पर लेना, और frontier subscription को optimize करना
  • self-hosting में आप हार्डवेयर खरीदकर लोकल मशीन पर open source model चलाते हैं और उसके बाद प्रति token लागत नहीं देनी पड़ती, लेकिन शुरुआती लागत बहुत अधिक होती है और घर पर चलाए जा सकने वाले मॉडल frontier labs के मॉडलों से कमजोर होते हैं
  • अगर open source model को API शुल्क पर किराये पर लिया जाए, तो GPU setup में हजारों डॉलर फँसाने की ज़रूरत नहीं पड़ती, performance निकालने के झंझट से बचा जा सकता है, और अगले महीने किसी सस्ते या बेहतर विकल्प पर जाना आसान होता है
  • OpenAI और Anthropic की frontier subscription लगभग 400 डॉलर प्रति माह में सूची मूल्य के हिसाब से लगभग 2,800 डॉलर के API उपयोग की सुविधा दे सकती है, लेकिन बड़े AI-native workflow शामिल token को बहुत जल्दी खत्म कर देते हैं
  • सबसे उपयुक्त तरीका एक hybrid strategy है, जिसमें frontier subscription को कठिन reasoning और spec लिखने के लिए, और open source API को छोटे व मशीनी कामों के लिए इस्तेमाल किया जाता है

तीन विकल्प

  • घर से कंपनी-स्तर का खर्च किए बिना AI कोडिंग करने के तीन तरीके हैं, और कौन-सा तरीका सही है यह काफी हद तक इस बात पर निर्भर करता है कि आप आने वाले 1 साल में hardware और model releases पर कितना भरोसा करते हैं
  • self-hosting में आप खुद हार्डवेयर खरीदते हैं और open source model को लोकल पर चलाते हैं, जिसके बाद प्रति token कोई लागत नहीं रहती
    • शुरुआती लागत बहुत अधिक होती है, और घर पर वास्तव में चलाए जा सकने वाले मॉडल frontier labs के जारी मॉडलों से कमजोर होते हैं
    • यह तभी लागत के लिहाज से असरदार है जब आप हार्डवेयर को लगातार ऐसे long-running कामों में लगाए रख सकें, जहाँ धीमे और सस्ते मॉडल रात भर काम करते रहें
    • ज़्यादातर लोगों के लिए घर के हार्डवेयर को लगातार इतने ऊँचे लोड पर बनाए रखना मुश्किल होता है, और आज खरीदा गया हार्डवेयर 1 साल बाद खराब विकल्प लग सकता है
  • open source model API किराये पर लेना वही open source model किसी provider से API शुल्क पर लेने का तरीका है, और यह ज़्यादातर लोगों के लिए उपयुक्त विकल्प है
    • एक GPU configuration पर हजारों डॉलर खर्च करने की ज़रूरत नहीं पड़ती, और open model से long-running performance निकालने की मेहनत से बचा जा सकता है
    • अगले महीने किसी सस्ते या बेहतर विकल्प पर जाना आसान होता है, और हार्डवेयर दोबारा बेचने की भी ज़रूरत नहीं पड़ती
    • OpenRouter जैसी सेवाएँ इस बदलाव को लगभग एक लाइन बदलने जितना आसान बना देती हैं
  • frontier subscription optimization का मतलब है OpenAI और Anthropic subscription का अधिकतम उपयोग करना
    • लगभग 400 डॉलर प्रति माह वाले प्लान में सूची मूल्य के हिसाब से लगभग 2,800 डॉलर के API उपयोग का लाभ मिल सकता है, इसलिए limit तक पहुँचने से पहले यह बड़ा discount देता है
    • प्लान usage-metered होते हैं, और बड़े AI-native workflow शामिल token को बहुत तेज़ी से खर्च कर देते हैं
    • यह इंसान द्वारा सीधे संचालित कामों के लिए अच्छा है, लेकिन पूरे दिन चलने वाले agent के engine के रूप में पर्याप्त नहीं है

सबसे बेहतर काम करने वाला संयोजन

  • सबसे अच्छा काम करने वाला तरीका frontier subscription और open source model API को साथ में इस्तेमाल करना था
  • कुछ frontier subscription कठिन reasoning और spec लिखने के लिए रखे जाते हैं, जबकि छोटे मशीनी काम open source model API शुल्क पर कराए जाते हैं
  • spec-driven development का उपयोग करने पर महँगा मॉडल योजना बनाता है और सस्ता मॉडल उस योजना को भरता है
  • अगर इस तरीके को सही तरह से किया जाए, तो 20 engineers की टीम एक महीने में जितना output दे सकती है, उतना लगभग 1,000 डॉलर में तैयार किया जा सकता है

1 टिप्पणियां

 
GN⁺ 3 시간 전
Hacker News की राय
  • लगता है कि मैं ठहराव पर पहुँच गया हूँ, और समझ नहीं आ रहा कि अगले स्तर पर कैसे जाऊँ। अभी मैं $100/माह Codex प्लान पर 5.5-xhigh लगातार इस्तेमाल कर रहा हूँ और यह पर्याप्त लगता है
    मैं अगला काम सोचता हूँ, फिर chat session में implementation से ठीक पहले तक request को विस्तार से स्पष्ट करता हूँ, और जब Codex commit-स्तर का काम संभाल लेता है तो local development server पर जल्दी से जाँच कर लेता हूँ। ज़रूरत हो तो बदलाव के लिए कहता हूँ, फिर commit करवाता हूँ, और उसके बाद spec के आधार पर अगला step सुझाने को कहता हूँ। वैसे भी कभी-कभी sandbox के बाहर की request को “approve” करना पड़ता है
    अभी तक ऐसा कोई काम नहीं मिला जिसे रातभर चलाने लायक समझूँ। एक बड़ा plan एक साथ करवाया जा सकता है, लेकिन बीच के output को थोड़ा अलग करना चाहने की स्थिति बार-बार आ जाती है, इसलिए वह बेकार-सा लगता है
    अगला कदम शायद machine VM जैसी किसी चीज़ को देखना होगा, जिसमें Codex GUI request को tunnel किया जा सके। मैं अपने पूरे Mac को “खतरनाक” access नहीं देना चाहता
    समझ नहीं आता कि side project में लोग ऐसा क्या करते हैं कि tokens इतनी जल्दी जला देते हैं, और $200/माह के 2 subscription के ऊपर extra token billing भी चाहिए होती है

    • ऐसा इसलिए है क्योंकि आप समस्या को engineer की तरह देखते हैं, “influencer” या “10x developer” की तरह नहीं। आप इसे engineering से हल होने वाली समस्या मानते हैं, और AI को सिर्फ एक tool की तरह देखते हैं। मेरे अनुभव में engineer को कई घंटों तक unattended AI code generation की ज़रूरत पड़ने वाली समस्याएँ लगभग नहीं होतीं
      मुझे सिर्फ एक ऐसा मामला मिला जहाँ AI को घंटों तक चलते रहने देना थोड़ा-बहुत समझ में आता है। मैं पाँच firmware image वाले एक widget का reverse engineering कर रहा हूँ, और binary dump करके AI से उन परस्पर उलझे हुए firmware projects को decompile और reverse engineer करवाया। यह जटिल है, लेकिन scope बहुत अच्छी तरह defined है। यह मुश्किल काम से ज़्यादा, बहुत ज़्यादा मात्रा वाला काम है, और output बस C-जैसे दिखने वाले text का ढेर है जो जानकारी देने के लिए है, सीधे compile होने के लिए नहीं। output quality input assembly पर बहुत निर्भर है, और पूरा output code के रूप में documentation है
      जोखिम शून्य है, इसलिए AI को unattended जितना चाहे काम करने देना बिल्कुल ठीक लगता है। फिर भी, जब AI assembly को पहचान सकने वाले C project के रूप में चीज़ों को ठोक-पीटकर तैयार कर देता है, तो मेरे लिए उसे पढ़ना और समझना बहुत आसान हो जाता है। इसे मैं आसान जीत मानता हूँ
    • मैंने non-experts को AI से चीज़ें बनाते हुए काफी वीडियो देखे हैं, और जो लोग 12 घंटे का काम जलाते हैं, वे सचमुच output पढ़ते भी नहीं और समझते भी नहीं कि क्या हो रहा है
      वे program बनाने को कहते हैं, और बनते ही तुरंत AI से पूछते हैं कि इसे चलाना कैसे है। bug आने पर AI से पूछते हैं कि क्या गलत हुआ, या सब कुछ फेंककर model/harness बदलते हैं और फिर से कोशिश करते हैं
      उदाहरण: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
      यह आपके बताए पेशेवर workflow से पूरी तरह अलग है। यह consumer toy के ज़्यादा क़रीब है
    • मैंने Claude को $20/माह प्लान पर downgrade कर दिया है, और अब उसे लगभग सिर्फ web chat के लिए इस्तेमाल करता हूँ। coding के लिए Claude Code में DeepSeek को API billing पर सेट करके इस्तेमाल करता हूँ
      320,000,000 tokens पर मैंने लगभग $4.8 खर्च किए। Claude प्लान इस्तेमाल करते समय यह दबाव रहता था कि कीमत justify करने के लिए LLM को हमेशा कुछ-न-कुछ करते रहना चाहिए। DeepSeek पर बदलने के बाद अब ऐसा नहीं सोचता। subscription इस्तेमाल न करने पर भी guilt नहीं होता, और limit की चिंता भी नहीं रहती। बस ज़्यादा pay कर दो। खासकर hourly limit न होने से parallel execution में फ़र्क बहुत बड़ा लगता है
    • “अगला क्या करना है, यह सोचना” वही असली bottleneck है जिसे वास्तव में काम करने की कोशिश करने वाला हर व्यक्ति खोज लेता है। अगर system मेरी सोच की गति के साथ चल रहा है, तो वह अच्छा कर रहा है
      ज़्यादा tokens खरीद लेने से सोचने की क्षमता “level up” नहीं हो जाती। जो लोग ज़्यादा automated चीज़ें चला रहे हैं, वे शायद अपनी सोच से आगे निकलकर भाग रहे हैं, और अंत में वही उन्हें रोकेगा
    • मैं बच्चों के लिए एक game मज़े और जिज्ञासा में $200/माह Codex से बना रहा हूँ। मैं developer हूँ और games खेले हैं, लेकिन game development कभी नहीं किया। कुछ काम रातभर चलते हैं, लेकिन ज़्यादातर वे “मेरी 3D asset pipeline को संभालना और उसमें कुछ जोड़ना” जैसे काम होते हैं
      RTX 5090 पर Trellis2 -> ultrashapes -> Trellis2 -> rigging hookup और animation setup चलाता हूँ
      लेकिन उस काम का 99% समय Codex के output का इंतज़ार ही होता है। 12 घंटे चलने पर भी ज़्यादातर सिर्फ बहुत सारे sleep सेट करने जैसा होता है। मैंने कभी tokens खत्म नहीं किए। $100/माह Codex पर जब मैं 10 agents एक साथ चलाकर asset pipeline को पागलों की तरह code कर रहा था, तो लगभग 3 दिन में weekly limit पर पहुँच गया और upgrade करना पड़ा। $200/माह प्लान में credits 4 गुना हैं, इसलिए अभी तक कभी दीवार से नहीं टकराया और खुलकर चला सकता हूँ
  • “शुरुआत self-hosting से होती है। मशीन खरीदो, open source model को local पर चलाओ, फिर उसके बाद per-token cost नहीं देनी पड़ती” ऐसा कहते हैं, लेकिन बिजली का बिल मुफ़्त नहीं होता
    मुझे लगता है कि आख़िरकार यह privacy के लिए premium चुकाने जैसा है, और मेरे लिए इसकी कीमत वाजिब है

    • वैसे भी मुझे एक नया laptop चाहिए था, और मैंने एक दोस्त से used M1 Max काफ़ी सस्ते में खरीद लिया, जो मेरी दिलचस्पी की दूसरी चीज़ों को फिर से compile करने के लिए काफ़ी तेज़ था
      इसलिए मेरे मामले में अतिरिक्त hardware cost नहीं है, क्योंकि यह replacement purchase थी
      इस मशीन पर घर में AI model चलाना मेरी अपनी पसंद है, और ज़रूरत पड़ी तो मैं OpenRouter इस्तेमाल करूँगा
      मैं मानता हूँ कि इस लेख की economics calculation सही है। लेकिन यह नतीजा कि हम उन मशीनों की देखभाल करने वाले बनकर रह जाएँ जिनसे हम कभी अपना प्रिय काम करते थे, बहुत दुखद लगता है। लंबी अवधि में शायद इन सूक्ष्म फ़र्कों पर ध्यान देना मायने रखे
      मेरी ज़िंदगी की एक ग़लती—अब उम्र कुछ हो गई है, इसलिए practically उसे सुधारना मुश्किल है—यह थी कि अगर काम से लगातार पर्याप्त संतुष्टि मिलती रहे, तो वह दूसरी व्यक्तिगत संतुष्टियों की कमी की भरपाई कर सकती है। मुझे हमेशा यह अच्छा लगा कि मैं अपने पसंदीदा और अच्छी तरह आने वाले काम के ज़रिए लोगों की सीधे मदद कर सकता था, और इससे पारंपरिक पारिवारिक जीवन बना पाना कठिन होने का दुख दब जाता था
      मुझे हमेशा लगा कि मैं किसी नए तरीके से वही खुशी फिर पा लूँगा, लेकिन अगर चीज़ें फिर से मानवीय प्रयास की तरफ़ थोड़ा वापस नहीं झुकतीं, तो अपने उपकरणों पर अपने तरीक़े से ऐसी चीज़ों को टटोलने की यह छोटी-सी खुशी भी काफ़ी नहीं होगी
      हमने अपने लिए जो दुनिया बनाई है, वह उदास करने वाली है। आजकल इसमें और बूढ़ा होने का ख़याल डराता है
    • मुझे लगता है कि मौजूदा पीढ़ी के cards से कम से कम 5 साल की उम्र की उम्मीद की जा सकती है। 3090 अब भी अपने 24GB RAM की वजह से काम की चीज़ है, क्योंकि कई सालों तक home machine learning में limiting factor यही memory रही है
      अगर 6000 खरीदें तो 7~8 हज़ार डॉलर लगेंगे, लेकिन इसकी resale value काफ़ी अच्छी रहने की संभावना है। 3090 भी अभी तक अपने MSRP के 50% से ज़्यादा पर है। LLM न भी करें, तब भी “traditional” convolutional neural network vision model training के लिए यह दिलचस्प value proposition है। 96GB में बहुत बड़ा batch size डाला जा सकता है। upgrade की सबसे बड़ी वजह यह है कि performance per watt लगभग दोगुनी हो गई है। उदाहरण के लिए 4000 Pro Blackwell, मिलते-जुलते performance पर 3090 की लगभग आधी power लेता है
      लोग अक्सर मान लेते हैं कि capital expenditure बस गायब हो जाता है, लेकिन जैसा RAM में देखा गया, यह मानकर नहीं चलना चाहिए कि ज़रूरत पड़ने पर उसे बेचा नहीं जा सकेगा
    • अगर solar है, तो असल में यह काफ़ी हद तक लगभग मुफ़्त के बराबर हो सकता है। तो क्या दिन के समय private AI compute वास्तव में और सस्ता पड़ता है?
    • hardware cost पर ज़्यादा पैसा देना भी एक अतिरिक्त cost है
      मैंने हिसाब लगाया था, और privacy को छोड़ दें तो यह समझदारी नहीं लगती थी। फिर भी मैंने किया। [0]
      0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
    • “बिजली मुफ़्त नहीं है” वाली बात में एक दिलचस्प thought experiment है। अगर AI वह चीज़ एक दिन में बना दे, जिसे बनाने में मुझे पूरा एक दिन लगाना पड़े, तो ज़्यादा बिजली कौन इस्तेमाल करेगा?
      सिर्फ़ power consumption के नज़रिए से break-even point कहाँ होगा?
  • समझ नहीं आता लोग इतना पैसा कैसे खर्च कर लेते हैं
    मैं $60/माह वाले Cursor प्लान को auto mode में इस्तेमाल कर रहा हूँ, और हफ्ते में 4 दिन पूरी शाम planning और coding करने पर भी included usage के करीब कभी नहीं पहुँचा
    आख़िर वे ऐसा क्या अलग कर रहे हैं कि लागत इतनी बढ़ जाती है?
    क्या वे on-demand usage या दूसरे paid models, या higher modes चालू कर रहे हैं? समझ नहीं आता उसकी ज़रूरत क्यों होगी। जिन tasks पर मैं काम करता हूँ, उनमें Auto output पागलों की तरह अच्छा है, और अब तक ऐसा कोई problem नहीं मिला जिसे वह पर्याप्त स्तर पर कर न पाया हो
    कंपनी में team-matching interview लेते समय candidates कहते हैं कि वे अपनी मौजूदा नौकरी में tokens पर $2K/माह खर्च करते हैं। आखिर क्या हो रहा होगा कि बात वहाँ तक पहुँचती है, इसकी कल्पना भी नहीं कर सकता

    • Claude enterprise plan consumer plan से 30–40 गुना महँगा है
      एक छोटे startup में हमने Max plan पर $200/माह खर्च किए थे। अब वही usage लेकर Claude enterprise पर हर महीने कई हज़ार डॉलर के शुरुआती स्तर तक खर्च हो रहा है
      Anthropic consumer usage को subsidy दे रहा है, और कंपनियों से zero data retention (ZDR) के लिए काफ़ी अच्छा margin वसूल रहा है
    • अगर agents को व्यापक access और effective feedback loop दिया जा सके, तो मुझे सिर्फ दिशा तय करनी होती है और final output ही देखना होता है
      उदाहरण के लिए, browser, logs, metrics, GitHub और CI logs तक पहुँच वाले agent से नई feature implement करने को कह सकता हूँ
      अगर Slack में कुछ bug reports हों तो मैं कुछ और agents चला देता हूँ। अगर PM UI changes चाहता है, तो एक agent चला देता हूँ। डेवलपर का बहुत सा काम ज़रूरी नहीं कि जटिल ही हो; मैं बस final PR review करता हूँ और teammate की तरह comments छोड़ देता हूँ। फिर मेरा agent वापस जाकर उन comments के हिसाब से changes करता है और नया review माँगता है
      इस बीच मैं अपना असली ध्यान ज्यादा भारी features, design docs, data analysis जैसी चीज़ों पर लगा सकता हूँ
      निजी इस्तेमाल के लिए मैं $300/माह, और काम में कई हज़ार डॉलर खर्च करता हूँ। agents सच में productivity बदल सकते हैं, और कीमत के मुकाबले उनकी value पूरी तरह बनती है
      कंपनी के नज़रिए से सवाल यह है कि हर महीने कुछ हज़ार डॉलर दिए जाएँ, या fully-loaded cost के हिसाब से सालाना कई लाख डॉलर वाले एक और engineer को hire किया जाए। इस समय मेरे लिए यह कम से कम 2x multiplier है
    • हो सकता है वे लोग बस अपनी पागल-स्तर की prompting skill दिखाना चाहते हों। जैसे, कोई self-respecting engineer क्या $2K/माह से कम खर्च करता दिखेगा?
      उन लोगों के साथ interaction के context को देखें तो, काफ़ी अटपटे सवाल का सबसे सीधा जवाब शायद यही है। जानबूझकर credit बर्बाद न किया जाए तो $2K/माह खर्च करना संभव भी नहीं लगता
    • सहमत हूँ। लेकिन उन लोगों में से काफ़ी लोग अपने सेट किए हुए custom instructions/rules/skills/features की बातें भी बहुत करते हैं। फिर तो शुरू करने से पहले ही वह context window का बड़ा हिस्सा खा जाता है
      जब मैं AI इस्तेमाल करता हूँ, तो मैं सिर्फ शुद्ध tool itself इस्तेमाल करता हूँ, और context वही होता है जो exact code मैं उस समय देख रहा हूँ। मैं बस यह देखना चाहता हूँ कि वह किसी specific problem को solve करने में मदद करता है या नहीं, और बाकी codebase को मैं इतना समझता हूँ कि यह तय कर सकूँ कि जवाब अच्छा है या बुरा
    • कुछ कारण हैं। 1) अगर prompt काफ़ी precise न हो और scope narrow न करे, तो agent पूरा codebase छानने लगता है, बार-बार उन्हीं जगहों को देखता है, और फँस भी सकता है। 2) अक्सर output verify न भी करें तो काम चल जाता है, लेकिन कभी-कभी वह समझ ही नहीं पाता और कचरा बना देता है; तब code पढ़कर problem समझे बिना सिर्फ prompt से बाहर नहीं निकला जा सकता। उसे auto पर छोड़ दें तो वह tokens जला देता है
      low-level चीज़ें भी agents को ठोकर खिला देती हैं। अभी थोड़ी देर पहले वह इस error को ठीक से पढ़ ही नहीं पा रहा था कि function को bool return value चाहिए, और उसी काम की 10 तरह की variations आज़माता रहा, फिर मुझे बीच में रोकना पड़ा। skills भी समस्या पैदा कर सकते हैं। उदाहरण के लिए, permission दे दो तो उसे मेरे इस्तेमाल की library के source code को पढ़ने का बहुत शौक होता है। वह एक rabbit hole है
  • अगर बात यह है कि “शुरुआती लागत ऊँची है, और घर पर सच में चलाए जा सकने वाले models leading labs के models से कमजोर हैं, इसलिए फ़ायदा तभी है जब आपके पास ऐसे long-running tasks हों जिनमें धीमे और सस्ते models पूरी रात लगे रहकर आपकी machine को लगातार व्यस्त रख सकें। ज़्यादातर लोग अपनी home machine को ऐसे लगातार load नहीं दे सकते, और आज खरीदा गया hardware एक साल बाद बुरी bet लग सकता है”, तो यह घर पर AI coding पर लेख नहीं, बल्कि घर पर vibe coding पर लेख है
    इस लेख में कई बातें हैं जिनसे मैं सहमत नहीं हूँ। मैं यह comment बिना GPU वाले 64GB RAM home computer पर लिख रहा हूँ, और बहुत कम पैसे खर्च करके काफी AI coding करता हूँ
    मैं Ollama पर Gemma 4 26b (mixture-of-experts) और Qwen 3 coder चलाता हूँ। GitHub Copilot code completion इस्तेमाल करता हूँ, और Gemini व Mistral API के free tier भी। मेरे पास Gemini paid API account भी है, लेकिन अब वह prepaid है इसलिए गलती से $1000 का bill आने की चिंता नहीं रहती। Gemini Flash Lite 3.1 से भी काफी काम हो जाता है
    इनमें से कोई भी tokens जलाकर महँगा spaghetti code का ढेर नहीं बनाता, लेकिन यह साफ़ तौर पर AI coding के दायरे में आता है

    • मेरा भी यही अनुभव है। 64GB RAM और 24GB 5090 वाली machine पर मैं Qwen 3.6 35B A3B इस्तेमाल कर रहा हूँ। किस्मत से मैंने Alienware 16 Area51 लगभग उससे 15 सेकंड पहले खरीद लिया, जब लोगों ने अगले 3 साल के computers को बेवकूफ़ी में pre-order करके सब गड़बड़ कर दिया
      इससे “slop cannon” स्टाइल की vibe coding नहीं हो सकती, लेकिन यह मेरा निजी code है और मैं नहीं चाहता कि वह spaghetti बन जाए, इसलिए मैं vibe coding करना भी नहीं चाहता। मुझे तो बस ऐसा कुछ चाहिए जो chat box में तुरंत Stack Overflow और Reddit posts खोज दे, TypeScript code सचमुच टाइप करने की physical तकलीफ़ कम कर दे, और अस्पष्ट Docker problems को endlessly debug करने वाली खीझ घटा दे। मैं backend developer हूँ, इसलिए frontend के लिए मेरा patience माइनस में है, और Docker पसंद होने के बावजूद उसके irritiating issues और endless quirks के लिए भी patience नहीं है। यह model वह काम बहुत अच्छी तरह करता है
    • ऐसे tasks निश्चित ही होते हैं जिन्हें काफ़ी देर तक चलते रहने दिया जा सकता है। Vibe coding और human-in-the-loop coding routine के बीच का फ़र्क, workflow के validate होने और models के ज्यादा smart व सस्ते होने के साथ धुँधला पड़ता जाएगा
      जिन सबसे अच्छे engineers को मैं जानता हूँ, उनमें से ज़्यादातर इस साल बहुत ज़्यादा vibe coding की ओर मुड़े हैं। आजकल इसकी संभावनाएँ कहीं बेहतर हो गई हैं
  • DeepSeek platform API को सीधे इस्तेमाल करना, और V4 Flash model को Opencode जैसी harness से जोड़ना ही काफ़ी संतोषजनक है। कुछ हफ़्तों में शायद लगभग $10 खर्च किए होंगे
    self-hosting models भी देखे थे, लेकिन अभी hardware बहुत महँगा है

    • अगर Opencode Go इस्तेमाल करें लेकिन सिर्फ DeepSeek Flash चलाएँ, तो शायद ज़्यादा समय तक चलेगा। token के हिसाब से यह $65 के बराबर है, लेकिन क्योंकि यह monthly billing है इसलिए पूरा इस्तेमाल करना पड़ता है; usage कम हो तो DeepSeek को सीधे call करना ज़्यादा सस्ता है
      पहला महीना $5 है, उसके बाद $10, और कभी भी cancel किया जा सकता है। नया email लेकर बार-बार discount भी लिया जा सकता है
    • क्या मतलब DeepSeek से सीधे इस्तेमाल करना? मेरी समझ से, मैंने verify तो नहीं किया, लेकिन दूसरे AI providers DeepSeek के कुछ models और सस्ते में दे रहे थे
      फिर भी दिलचस्प है। उस कीमत में क्या मिलता है? सिर्फ coding, या फिर उदाहरण के लिए image generation भी शामिल है, यह जानना चाहूँगा
  • लोग घर पर आख़िर क्या कर रहे हैं? मैं $20/month Claude plan से लगभग 5 apps code कर रहा हूँ, और हाँ, rate limit लग सकती है, लेकिन $3k के tokens जला देने के लिए क्या करना पड़ेगा, यह समझ नहीं आता

    • यह case पर निर्भर करता है, लेकिन automation $100~$200/month plan को बहुत जल्दी खा जाती है, और सिर्फ tokens में ही हज़ारों डॉलर खर्च हो जाते हैं
      customer support issues की root-cause analysis हर घंटे चलती है, logs analysis जैसी daily automation होती है, और KPI tracking व execution के लिए weekly/monthly automation भी होती है
      side projects बनाते समय 1) scope काफ़ी अच्छी तरह defined था और 2) users या automation की ज़रूरत नहीं थी, इसलिए $20/month plan की limit के भीतर रहना काफ़ी आसान था। अब तो अक्सर weekly limit hit हो जाती है और कई Max plans चाहिए होते हैं
    • मेरा भी यही हाल है। $20/month काफ़ी है और मैं रोज़ coding में इसका इस्तेमाल करता हूँ
      जो लोग tokens जला रहे हैं, वे शायद कई sub-agents, 50 loaded skills, 40 MCP tools जैसी setups इस्तेमाल करते हैं। ऐसी चीज़ें हर turn में context भर देती हैं
    • मैं भी कुछ ऐसा ही हूँ, लेकिन मैं अभी भी काफ़ी सोच खुद करता हूँ, और AI को सिर्फ उन boring कामों को तेज़ करने के लिए इस्तेमाल करता हूँ जो मैं खुद नहीं करना चाहता, इसलिए शायद limit कम hit होती है
      घर पर personal projects के लिए यह ख़ास तौर पर अच्छा रहा। कंपनी के boring काम पूरे दिन करने के बाद भी, side project के repetitive कामों से न जूझना पड़े तो काम करने का मन ज़्यादा करता है
      जो लोग घर पर हज़ारों डॉलर के tokens जला रहे हैं, उनमें से ज़्यादातर शायद बड़े slop piles बना रहे हैं
    • $3k के tokens जलाने के लिए क्या करना पड़ता है” का छोटा जवाब है: slop बनाना
      ज़्यादातर coding keyboard, IntelliSense, और थोड़े से code generation templates से ही जल्दी हो सकती है
      लेकिन लोग AI पर निर्भर हो गए हैं कि वही सब कुछ कर दे, और अब tech bros नशे के सौदागरों की तरह निचोड़ना शुरू कर चुके हैं
  • कुछ महीने पहले मैंने NVIDIA DGX Spark में लगभग $4,000 लगाए। इसमें 128GB unified RAM और NVIDIA GB10 chip है
    RAM, कई CPU cores, और 4TB NVMe SSD की वजह से यह GPU के बिना भी काफ़ी सक्षम ARM64 Linux computer है, और अभी तक मैं इसे ज़्यादातर वैसे ही इस्तेमाल कर रहा हूँ। लेकिन जानना चाहता हूँ कि इस hardware पर अच्छे से चल सकने वाला, ख़ासकर coding के लिए सबसे मज़बूत model कौन-सा है

    • मैं अभी Ars के लिए Spark पर एक लेख लिखने के सिलसिले में research और testing कर रहा हूँ, और संयोग से 2 LLM agent setup तक पहुँचा हूँ जिसमें Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4) planning agent है, और Qwen3-Coder-30B-A3B-Instruct का FP8 version(Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8) coding agent है
      inference engine के लिए मैं vLLM पर टिका हुआ हूँ, और Opencode से 2-agent loop को बाँधा है
      Qwen3.6-35B-A3B planner लगभग 50~55 tokens/second पर अच्छी तरह चलता है, और Qwen3-Coder-30B-A3B-Instruct coder लगभग 30~35 tokens/second देता है। दोनों agents को एक साथ चलाकर idle छोड़ा जाए तो RAM usage 128GB में से लगभग 112GB होता है
      काफ़ी ठीक है। मैं 1980s के MS-DOS games को disassemble करवाकर इधर-उधर प्रयोग कर रहा हूँ, और यह उस setup के लिए अच्छी तरह फिट बैठने वाला काम है। दुनिया का सबसे तेज़ नहीं है, लेकिन planner का context window 256k tokens और coding agent का 128k रखो तो यह काफ़ी लंबी task list भी बिना शिकायत एक-दूसरे को पास करके चबा जाता है। एकमात्र असली समस्या यह है कि prompt को बहुत संकीर्ण रखने पर भी coding agent ऐसे hallucinate करता है जैसे उसने LSD ले रखी हो। हालाँकि planning agent उन hallucinations को अच्छी तरह पकड़ लेता है और tasks को फिर से तोड़कर coder को वापस सौंपता दिखता है
      कमाल है। कुछ महीनों बाद जब review unit वापस करनी पड़ेगी तो दुख होगा
      अतिरिक्त तौर पर, Antirez की setup(https://github.com/antirez/ds4) के साथ Deepseek v4 Flash भी चलाकर देखा, और वह काफ़ी शानदार है, ऊपर से चलाना भी बहुत आसान है। लेकिन Spark पर यह लगभग 14 tokens/second पर काफ़ी धीमा है। और अगर आपके पास दो Spark machines नहीं हैं, तो एक समय में शायद यही एक model चलाना पड़ेगा। यह सारी RAM खा जाता है
    • https://www.canirun.ai/?status=tight शायद उस सवाल का जवाब दे सके
    • Deepseek v4 flash अपने आकार के मुकाबले हैरान करने वाली तरह से मज़बूत है, और कहा जाता है कि उस hardware पर भी अच्छी तरह चलता है
    • अगर यह जाने बिना भी तुम “इसे ऐसे इस्तेमाल कर रहा हूँ” कह रहे हो, तो पोस्ट की शुरुआत “कुछ महीने पहले मैंने एक खिलौने पर $4k उड़ा दिए” से होनी चाहिए
    • DeepSeek V4 Flash उस hardware पर, जैसा तुमने बताया, अच्छी तरह चलने वाला बहुत सक्षम coding model है। ख़ास तौर पर local use के लिए optimized version ढूँढो
  • मुझे लगता है कि मेरे लिए हार्डवेयर में निवेश करना सही रास्ता है
    मैंने लगभग 24 साल पहले coding सीखी थी, और आज भी लगातार नई चीज़ें सीख रहा हूँ। इस दौरान नई चीज़ें सीखने और बनाने के लिए मुझे कभी subscription model पर निर्भर नहीं रहना पड़ा
    अगर LLM और agent कम से कम अगले कुछ सालों तक coding और software बनाने के बुनियादी टूल बनने वाले हैं, तो Halo Strix PC जैसे हार्डवेयर पर $2000~3000 निवेश करना स्वाभाविक विकल्प लगता है

    • मैंने सोचा था कि शायद फेंके हुए हार्डवेयर से कोई “free” विकल्प भी हो सकता है
      मेरे पास 2018 के आसपास का एक GTX1080ti है, जो इस्तेमाल में नहीं है, और उसने कई साल पहले ही अपनी पूरी कीमत वसूल कर दी थी, इसलिए अभी उसके हार्डवेयर की लागत 0 है
      यह Gemma e4b multimodal, qwen 3.5 8b, qwen 4b embedding model को काफ़ी अच्छी तरह चला लेता है। LLM पर 40 tokens प्रति सेकंड से ज़्यादा मिलते हैं
      लोड पर यह दीवार से 350W लेता है, power save में 3W, और idle में 80W। बिजली की दर £0.035 प्रति kWh है, जो UK के हिसाब से सस्ती है। इसकी वजह घर की battery से load shifting करना है
      144k output tokens पर लगभग 1 पेंस खर्च आता है, और सैद्धांतिक रूप से इसमें एक घंटा लगता है
      मुफ्त हार्डवेयर और सामान्य बिजली दर से लगभग 10 गुना सस्ती बिजली होने पर भी, यह कहीं ज़्यादा शक्तिशाली deepseek v4 flash model इस्तेमाल करने की तुलना में बस थोड़ा ही सस्ता पड़ता है
    • यह सही भी है और नहीं भी। हार्डवेयर में lock-in effect होता है। मैं 128GB unified memory से संतुष्ट हूँ, लेकिन थोड़ा चिंतित हूँ क्योंकि लगता है कि अब यह मेरे खरीदने के समय से भी महंगा हो गया है
      Anthropic को लेकर White House की हाल की गतिविधियों और इस वास्तविकता को साथ रखें कि अगली पीढ़ी के अच्छे models को ठीक से चलाने के लिए शायद 128GB से ज़्यादा चाहिए होगा, तो भविष्य के लिए यह अच्छा संकेत नहीं है
      मैं local setup को कमतर नहीं बता रहा। मैं खुद भी ऐसा user हूँ और subscription भी साथ में इस्तेमाल करता हूँ, लेकिन trade-off को साफ़ नज़र से देखना चाहिए
    • $3k में leading model-level performance नहीं मिलेगी। अगर सिर्फ GPU नहीं बल्कि पूरा PC खरीदने पर यह खर्च बाँटा जा रहा है, तो ठीक-ठाक performance भी मुश्किल से मिलती है
    • 3 हज़ार डॉलर नहीं, 10 हज़ार डॉलर सोचना चाहिए
    • मेरी भी लगभग यही राय है। मैं करीब एक साल पहले खरीदा हुआ सस्ता 16GB VRAM card इस्तेमाल कर रहा हूँ, और समझता हूँ कि घर पर जो मिल सकता है उससे कहीं ज़्यादा tokens प्रति सेकंड पैसे देकर खरीदे जा सकते हैं
      लेकिन यह मुझे productivity को code lines की संख्या से नापने जैसा लगता है। मैं जो काम करता हूँ उसमें किसी भी subscription से मुझे फायदा महसूस नहीं हुआ
      हाँ, एक ही prompt में कोई उबाऊ CRUD app पूरी की पूरी फिर से नहीं बन सकती, लेकिन खैर, ऐसा ही है
  • मैंने coding के लिए brain -> worker approach इस्तेमाल करना शुरू किया है
    Brain, Claude subscription का महंगा और ज़्यादा स्मार्ट model है। जब संभव हो तो Fable 5, और अभी Opus इस्तेमाल करता हूँ
    Worker एक local model (qwen3.6:46B) है, जिसे 36GB GPU पर Opencode + Ollama के साथ deploy किया है
    Brain analysis/design और task generation संभालता है। Tasks इतने सरल और स्पष्ट होने चाहिए कि worker उन्हें संभाल सके। Worker coding करता है, Brain validate करता है, और ज़रूरत पड़े तो correction tasks बनाता है। अभी correction बनाम task का अनुपात लगभग 1:20 है
    अगर घर में GPU नहीं है तो qwen3.6 cloud में भी काफ़ी सस्ता है
    यह जिज्ञासा में बनाया गया एक experimental setup के ज़्यादा करीब है, लेकिन उम्मीद से बेहतर काम कर रहा है। इसने मुझे अब 4 दिनों से 3 coding agents लगातार चलाने दिया है। मैं इस setup तक कैसे पहुँचा, यह यहाँ बताया था: https://news.ycombinator.com/item?id=48520757

  • क्या अब Opus 4.6 के बराबर कुछ local पर चलाया जा सकता है? इस बारे में लगातार अलग-अलग बातें सुन रहा हूँ
    अगर $10k खर्च करके यह संभव हो, तो मैं subscription बंद कर दूँगा। समस्या यह है कि सिर्फ जाँचने के लिए मैं खुद पैसा खर्च नहीं करना चाहता

    • अगर leading model-level performance चाहिए, तो आर्थिक रूप से तर्कसंगत विकल्प OpenRouter या मनचाहे leading model की सीधी subscription है
      व्यवहारिक रूप से, data center margin बचाने के लिए consumer को ऐसा setup दिया ही नहीं जाता जिसमें एक ही configuration पर इतना VRAM चल सके। Apple के पास पहले यह संभव था, लेकिन उसने बंद कर दिया, और वे मशीनें अब eBay पर $20k+ प्रति यूनिट बिक रही हैं
      3090/4090/5090/6000 series cards से बहुत शक्तिशाली models चलाए जा सकते हैं। लेकिन अगर “leading model-level” चाहिए, तो नए सामान के हिसाब से कम से कम लगभग $22k का निवेश करना होगा। Used parts से शुरुआती लागत काफी घटाकर खुद server बनाया जा सकता है, लेकिन बिजली की खपत शायद 4~6 गुना या उससे भी ज़्यादा होगी
    • $10k में Opus या Sonnet के आसपास भी नहीं पहुँचोगे
      फिलहाल यह आम लोगों के बस की बात नहीं है
    • अफसोस की बात है कि Opus 4.6 के बराबर कुछ अभी local पर नहीं चलाया जा सकता। सबसे करीब जो मिल सकता है, वह लगभग Sonnet 3.7 स्तर है
    • मैंने $8k खर्च किए, और Sonnet के करीब कुछ मिला, लेकिन 2~3 गुना धीमा। यह Spark की 2 मशीनों पर deep seek v4 flash चलाने वाला setup है
    • कुछ benchmarks में Kimi K2.6 को Opus 4.6 के error range के भीतर बताया गया है, और इसे 8 RTX6000 पर चलाया जा सकता है
      अभी ऐसी मशीन शुरू से बनाना $100K से कम में संभव नहीं है। लेकिन अभी हम ऐसे दौर में हैं जहाँ autonomy की कीमत तय करना भी मुश्किल है