कंपनी जैसा खर्च किए बिना घर से AI कोडिंग करना
(stephen.bochinski.dev)- व्यक्तिगत AI कोडिंग की लागत घटाने के तीन विकल्प हैं: self-hosting, open source model API किराये पर लेना, और frontier subscription को optimize करना
- self-hosting में आप हार्डवेयर खरीदकर लोकल मशीन पर open source model चलाते हैं और उसके बाद प्रति token लागत नहीं देनी पड़ती, लेकिन शुरुआती लागत बहुत अधिक होती है और घर पर चलाए जा सकने वाले मॉडल frontier labs के मॉडलों से कमजोर होते हैं
- अगर open source model को API शुल्क पर किराये पर लिया जाए, तो GPU setup में हजारों डॉलर फँसाने की ज़रूरत नहीं पड़ती, performance निकालने के झंझट से बचा जा सकता है, और अगले महीने किसी सस्ते या बेहतर विकल्प पर जाना आसान होता है
- OpenAI और Anthropic की frontier subscription लगभग 400 डॉलर प्रति माह में सूची मूल्य के हिसाब से लगभग 2,800 डॉलर के API उपयोग की सुविधा दे सकती है, लेकिन बड़े AI-native workflow शामिल token को बहुत जल्दी खत्म कर देते हैं
- सबसे उपयुक्त तरीका एक hybrid strategy है, जिसमें frontier subscription को कठिन reasoning और spec लिखने के लिए, और open source API को छोटे व मशीनी कामों के लिए इस्तेमाल किया जाता है
तीन विकल्प
- घर से कंपनी-स्तर का खर्च किए बिना AI कोडिंग करने के तीन तरीके हैं, और कौन-सा तरीका सही है यह काफी हद तक इस बात पर निर्भर करता है कि आप आने वाले 1 साल में hardware और model releases पर कितना भरोसा करते हैं
- self-hosting में आप खुद हार्डवेयर खरीदते हैं और open source model को लोकल पर चलाते हैं, जिसके बाद प्रति token कोई लागत नहीं रहती
- शुरुआती लागत बहुत अधिक होती है, और घर पर वास्तव में चलाए जा सकने वाले मॉडल frontier labs के जारी मॉडलों से कमजोर होते हैं
- यह तभी लागत के लिहाज से असरदार है जब आप हार्डवेयर को लगातार ऐसे long-running कामों में लगाए रख सकें, जहाँ धीमे और सस्ते मॉडल रात भर काम करते रहें
- ज़्यादातर लोगों के लिए घर के हार्डवेयर को लगातार इतने ऊँचे लोड पर बनाए रखना मुश्किल होता है, और आज खरीदा गया हार्डवेयर 1 साल बाद खराब विकल्प लग सकता है
- open source model API किराये पर लेना वही open source model किसी provider से API शुल्क पर लेने का तरीका है, और यह ज़्यादातर लोगों के लिए उपयुक्त विकल्प है
- एक GPU configuration पर हजारों डॉलर खर्च करने की ज़रूरत नहीं पड़ती, और open model से long-running performance निकालने की मेहनत से बचा जा सकता है
- अगले महीने किसी सस्ते या बेहतर विकल्प पर जाना आसान होता है, और हार्डवेयर दोबारा बेचने की भी ज़रूरत नहीं पड़ती
- OpenRouter जैसी सेवाएँ इस बदलाव को लगभग एक लाइन बदलने जितना आसान बना देती हैं
- frontier subscription optimization का मतलब है OpenAI और Anthropic subscription का अधिकतम उपयोग करना
- लगभग 400 डॉलर प्रति माह वाले प्लान में सूची मूल्य के हिसाब से लगभग 2,800 डॉलर के API उपयोग का लाभ मिल सकता है, इसलिए limit तक पहुँचने से पहले यह बड़ा discount देता है
- प्लान usage-metered होते हैं, और बड़े AI-native workflow शामिल token को बहुत तेज़ी से खर्च कर देते हैं
- यह इंसान द्वारा सीधे संचालित कामों के लिए अच्छा है, लेकिन पूरे दिन चलने वाले agent के engine के रूप में पर्याप्त नहीं है
सबसे बेहतर काम करने वाला संयोजन
- सबसे अच्छा काम करने वाला तरीका frontier subscription और open source model API को साथ में इस्तेमाल करना था
- कुछ frontier subscription कठिन reasoning और spec लिखने के लिए रखे जाते हैं, जबकि छोटे मशीनी काम open source model API शुल्क पर कराए जाते हैं
- spec-driven development का उपयोग करने पर महँगा मॉडल योजना बनाता है और सस्ता मॉडल उस योजना को भरता है
- अगर इस तरीके को सही तरह से किया जाए, तो 20 engineers की टीम एक महीने में जितना output दे सकती है, उतना लगभग 1,000 डॉलर में तैयार किया जा सकता है
1 टिप्पणियां
Hacker News की राय
लगता है कि मैं ठहराव पर पहुँच गया हूँ, और समझ नहीं आ रहा कि अगले स्तर पर कैसे जाऊँ। अभी मैं $100/माह Codex प्लान पर 5.5-xhigh लगातार इस्तेमाल कर रहा हूँ और यह पर्याप्त लगता है
मैं अगला काम सोचता हूँ, फिर chat session में implementation से ठीक पहले तक request को विस्तार से स्पष्ट करता हूँ, और जब Codex commit-स्तर का काम संभाल लेता है तो local development server पर जल्दी से जाँच कर लेता हूँ। ज़रूरत हो तो बदलाव के लिए कहता हूँ, फिर commit करवाता हूँ, और उसके बाद spec के आधार पर अगला step सुझाने को कहता हूँ। वैसे भी कभी-कभी sandbox के बाहर की request को “approve” करना पड़ता है
अभी तक ऐसा कोई काम नहीं मिला जिसे रातभर चलाने लायक समझूँ। एक बड़ा plan एक साथ करवाया जा सकता है, लेकिन बीच के output को थोड़ा अलग करना चाहने की स्थिति बार-बार आ जाती है, इसलिए वह बेकार-सा लगता है
अगला कदम शायद machine VM जैसी किसी चीज़ को देखना होगा, जिसमें Codex GUI request को tunnel किया जा सके। मैं अपने पूरे Mac को “खतरनाक” access नहीं देना चाहता
समझ नहीं आता कि side project में लोग ऐसा क्या करते हैं कि tokens इतनी जल्दी जला देते हैं, और $200/माह के 2 subscription के ऊपर extra token billing भी चाहिए होती है
मुझे सिर्फ एक ऐसा मामला मिला जहाँ AI को घंटों तक चलते रहने देना थोड़ा-बहुत समझ में आता है। मैं पाँच firmware image वाले एक widget का reverse engineering कर रहा हूँ, और binary dump करके AI से उन परस्पर उलझे हुए firmware projects को decompile और reverse engineer करवाया। यह जटिल है, लेकिन scope बहुत अच्छी तरह defined है। यह मुश्किल काम से ज़्यादा, बहुत ज़्यादा मात्रा वाला काम है, और output बस C-जैसे दिखने वाले text का ढेर है जो जानकारी देने के लिए है, सीधे compile होने के लिए नहीं। output quality input assembly पर बहुत निर्भर है, और पूरा output code के रूप में documentation है
जोखिम शून्य है, इसलिए AI को unattended जितना चाहे काम करने देना बिल्कुल ठीक लगता है। फिर भी, जब AI assembly को पहचान सकने वाले C project के रूप में चीज़ों को ठोक-पीटकर तैयार कर देता है, तो मेरे लिए उसे पढ़ना और समझना बहुत आसान हो जाता है। इसे मैं आसान जीत मानता हूँ
वे program बनाने को कहते हैं, और बनते ही तुरंत AI से पूछते हैं कि इसे चलाना कैसे है। bug आने पर AI से पूछते हैं कि क्या गलत हुआ, या सब कुछ फेंककर model/harness बदलते हैं और फिर से कोशिश करते हैं
उदाहरण: https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
यह आपके बताए पेशेवर workflow से पूरी तरह अलग है। यह consumer toy के ज़्यादा क़रीब है
320,000,000 tokens पर मैंने लगभग $4.8 खर्च किए। Claude प्लान इस्तेमाल करते समय यह दबाव रहता था कि कीमत justify करने के लिए LLM को हमेशा कुछ-न-कुछ करते रहना चाहिए। DeepSeek पर बदलने के बाद अब ऐसा नहीं सोचता। subscription इस्तेमाल न करने पर भी guilt नहीं होता, और limit की चिंता भी नहीं रहती। बस ज़्यादा pay कर दो। खासकर hourly limit न होने से parallel execution में फ़र्क बहुत बड़ा लगता है
ज़्यादा tokens खरीद लेने से सोचने की क्षमता “level up” नहीं हो जाती। जो लोग ज़्यादा automated चीज़ें चला रहे हैं, वे शायद अपनी सोच से आगे निकलकर भाग रहे हैं, और अंत में वही उन्हें रोकेगा
RTX 5090 पर Trellis2 -> ultrashapes -> Trellis2 -> rigging hookup और animation setup चलाता हूँ
लेकिन उस काम का 99% समय Codex के output का इंतज़ार ही होता है। 12 घंटे चलने पर भी ज़्यादातर सिर्फ बहुत सारे sleep सेट करने जैसा होता है। मैंने कभी tokens खत्म नहीं किए। $100/माह Codex पर जब मैं 10 agents एक साथ चलाकर asset pipeline को पागलों की तरह code कर रहा था, तो लगभग 3 दिन में weekly limit पर पहुँच गया और upgrade करना पड़ा। $200/माह प्लान में credits 4 गुना हैं, इसलिए अभी तक कभी दीवार से नहीं टकराया और खुलकर चला सकता हूँ
“शुरुआत self-hosting से होती है। मशीन खरीदो, open source model को local पर चलाओ, फिर उसके बाद per-token cost नहीं देनी पड़ती” ऐसा कहते हैं, लेकिन बिजली का बिल मुफ़्त नहीं होता
मुझे लगता है कि आख़िरकार यह privacy के लिए premium चुकाने जैसा है, और मेरे लिए इसकी कीमत वाजिब है
इसलिए मेरे मामले में अतिरिक्त hardware cost नहीं है, क्योंकि यह replacement purchase थी
इस मशीन पर घर में AI model चलाना मेरी अपनी पसंद है, और ज़रूरत पड़ी तो मैं OpenRouter इस्तेमाल करूँगा
मैं मानता हूँ कि इस लेख की economics calculation सही है। लेकिन यह नतीजा कि हम उन मशीनों की देखभाल करने वाले बनकर रह जाएँ जिनसे हम कभी अपना प्रिय काम करते थे, बहुत दुखद लगता है। लंबी अवधि में शायद इन सूक्ष्म फ़र्कों पर ध्यान देना मायने रखे
मेरी ज़िंदगी की एक ग़लती—अब उम्र कुछ हो गई है, इसलिए practically उसे सुधारना मुश्किल है—यह थी कि अगर काम से लगातार पर्याप्त संतुष्टि मिलती रहे, तो वह दूसरी व्यक्तिगत संतुष्टियों की कमी की भरपाई कर सकती है। मुझे हमेशा यह अच्छा लगा कि मैं अपने पसंदीदा और अच्छी तरह आने वाले काम के ज़रिए लोगों की सीधे मदद कर सकता था, और इससे पारंपरिक पारिवारिक जीवन बना पाना कठिन होने का दुख दब जाता था
मुझे हमेशा लगा कि मैं किसी नए तरीके से वही खुशी फिर पा लूँगा, लेकिन अगर चीज़ें फिर से मानवीय प्रयास की तरफ़ थोड़ा वापस नहीं झुकतीं, तो अपने उपकरणों पर अपने तरीक़े से ऐसी चीज़ों को टटोलने की यह छोटी-सी खुशी भी काफ़ी नहीं होगी
हमने अपने लिए जो दुनिया बनाई है, वह उदास करने वाली है। आजकल इसमें और बूढ़ा होने का ख़याल डराता है
अगर 6000 खरीदें तो 7~8 हज़ार डॉलर लगेंगे, लेकिन इसकी resale value काफ़ी अच्छी रहने की संभावना है। 3090 भी अभी तक अपने MSRP के 50% से ज़्यादा पर है। LLM न भी करें, तब भी “traditional” convolutional neural network vision model training के लिए यह दिलचस्प value proposition है। 96GB में बहुत बड़ा batch size डाला जा सकता है। upgrade की सबसे बड़ी वजह यह है कि performance per watt लगभग दोगुनी हो गई है। उदाहरण के लिए 4000 Pro Blackwell, मिलते-जुलते performance पर 3090 की लगभग आधी power लेता है
लोग अक्सर मान लेते हैं कि capital expenditure बस गायब हो जाता है, लेकिन जैसा RAM में देखा गया, यह मानकर नहीं चलना चाहिए कि ज़रूरत पड़ने पर उसे बेचा नहीं जा सकेगा
मैंने हिसाब लगाया था, और privacy को छोड़ दें तो यह समझदारी नहीं लगती थी। फिर भी मैंने किया। [0]
0 - https://www.williamangel.net/blog/2026/05/17/offline-llm-ene...
सिर्फ़ power consumption के नज़रिए से break-even point कहाँ होगा?
समझ नहीं आता लोग इतना पैसा कैसे खर्च कर लेते हैं
मैं $60/माह वाले Cursor प्लान को auto mode में इस्तेमाल कर रहा हूँ, और हफ्ते में 4 दिन पूरी शाम planning और coding करने पर भी included usage के करीब कभी नहीं पहुँचा
आख़िर वे ऐसा क्या अलग कर रहे हैं कि लागत इतनी बढ़ जाती है?
क्या वे on-demand usage या दूसरे paid models, या higher modes चालू कर रहे हैं? समझ नहीं आता उसकी ज़रूरत क्यों होगी। जिन tasks पर मैं काम करता हूँ, उनमें Auto output पागलों की तरह अच्छा है, और अब तक ऐसा कोई problem नहीं मिला जिसे वह पर्याप्त स्तर पर कर न पाया हो
कंपनी में team-matching interview लेते समय candidates कहते हैं कि वे अपनी मौजूदा नौकरी में tokens पर $2K/माह खर्च करते हैं। आखिर क्या हो रहा होगा कि बात वहाँ तक पहुँचती है, इसकी कल्पना भी नहीं कर सकता
एक छोटे startup में हमने Max plan पर $200/माह खर्च किए थे। अब वही usage लेकर Claude enterprise पर हर महीने कई हज़ार डॉलर के शुरुआती स्तर तक खर्च हो रहा है
Anthropic consumer usage को subsidy दे रहा है, और कंपनियों से zero data retention (ZDR) के लिए काफ़ी अच्छा margin वसूल रहा है
उदाहरण के लिए, browser, logs, metrics, GitHub और CI logs तक पहुँच वाले agent से नई feature implement करने को कह सकता हूँ
अगर Slack में कुछ bug reports हों तो मैं कुछ और agents चला देता हूँ। अगर PM UI changes चाहता है, तो एक agent चला देता हूँ। डेवलपर का बहुत सा काम ज़रूरी नहीं कि जटिल ही हो; मैं बस final PR review करता हूँ और teammate की तरह comments छोड़ देता हूँ। फिर मेरा agent वापस जाकर उन comments के हिसाब से changes करता है और नया review माँगता है
इस बीच मैं अपना असली ध्यान ज्यादा भारी features, design docs, data analysis जैसी चीज़ों पर लगा सकता हूँ
निजी इस्तेमाल के लिए मैं $300/माह, और काम में कई हज़ार डॉलर खर्च करता हूँ। agents सच में productivity बदल सकते हैं, और कीमत के मुकाबले उनकी value पूरी तरह बनती है
कंपनी के नज़रिए से सवाल यह है कि हर महीने कुछ हज़ार डॉलर दिए जाएँ, या fully-loaded cost के हिसाब से सालाना कई लाख डॉलर वाले एक और engineer को hire किया जाए। इस समय मेरे लिए यह कम से कम 2x multiplier है
उन लोगों के साथ interaction के context को देखें तो, काफ़ी अटपटे सवाल का सबसे सीधा जवाब शायद यही है। जानबूझकर credit बर्बाद न किया जाए तो $2K/माह खर्च करना संभव भी नहीं लगता
जब मैं AI इस्तेमाल करता हूँ, तो मैं सिर्फ शुद्ध tool itself इस्तेमाल करता हूँ, और context वही होता है जो exact code मैं उस समय देख रहा हूँ। मैं बस यह देखना चाहता हूँ कि वह किसी specific problem को solve करने में मदद करता है या नहीं, और बाकी codebase को मैं इतना समझता हूँ कि यह तय कर सकूँ कि जवाब अच्छा है या बुरा
low-level चीज़ें भी agents को ठोकर खिला देती हैं। अभी थोड़ी देर पहले वह इस error को ठीक से पढ़ ही नहीं पा रहा था कि function को bool return value चाहिए, और उसी काम की 10 तरह की variations आज़माता रहा, फिर मुझे बीच में रोकना पड़ा। skills भी समस्या पैदा कर सकते हैं। उदाहरण के लिए, permission दे दो तो उसे मेरे इस्तेमाल की library के source code को पढ़ने का बहुत शौक होता है। वह एक rabbit hole है
अगर बात यह है कि “शुरुआती लागत ऊँची है, और घर पर सच में चलाए जा सकने वाले models leading labs के models से कमजोर हैं, इसलिए फ़ायदा तभी है जब आपके पास ऐसे long-running tasks हों जिनमें धीमे और सस्ते models पूरी रात लगे रहकर आपकी machine को लगातार व्यस्त रख सकें। ज़्यादातर लोग अपनी home machine को ऐसे लगातार load नहीं दे सकते, और आज खरीदा गया hardware एक साल बाद बुरी bet लग सकता है”, तो यह घर पर AI coding पर लेख नहीं, बल्कि घर पर vibe coding पर लेख है
इस लेख में कई बातें हैं जिनसे मैं सहमत नहीं हूँ। मैं यह comment बिना GPU वाले 64GB RAM home computer पर लिख रहा हूँ, और बहुत कम पैसे खर्च करके काफी AI coding करता हूँ
मैं Ollama पर Gemma 4 26b (mixture-of-experts) और Qwen 3 coder चलाता हूँ। GitHub Copilot code completion इस्तेमाल करता हूँ, और Gemini व Mistral API के free tier भी। मेरे पास Gemini paid API account भी है, लेकिन अब वह prepaid है इसलिए गलती से $1000 का bill आने की चिंता नहीं रहती। Gemini Flash Lite 3.1 से भी काफी काम हो जाता है
इनमें से कोई भी tokens जलाकर महँगा spaghetti code का ढेर नहीं बनाता, लेकिन यह साफ़ तौर पर AI coding के दायरे में आता है
इससे “slop cannon” स्टाइल की vibe coding नहीं हो सकती, लेकिन यह मेरा निजी code है और मैं नहीं चाहता कि वह spaghetti बन जाए, इसलिए मैं vibe coding करना भी नहीं चाहता। मुझे तो बस ऐसा कुछ चाहिए जो chat box में तुरंत Stack Overflow और Reddit posts खोज दे, TypeScript code सचमुच टाइप करने की physical तकलीफ़ कम कर दे, और अस्पष्ट Docker problems को endlessly debug करने वाली खीझ घटा दे। मैं backend developer हूँ, इसलिए frontend के लिए मेरा patience माइनस में है, और Docker पसंद होने के बावजूद उसके irritiating issues और endless quirks के लिए भी patience नहीं है। यह model वह काम बहुत अच्छी तरह करता है
जिन सबसे अच्छे engineers को मैं जानता हूँ, उनमें से ज़्यादातर इस साल बहुत ज़्यादा vibe coding की ओर मुड़े हैं। आजकल इसकी संभावनाएँ कहीं बेहतर हो गई हैं
DeepSeek platform API को सीधे इस्तेमाल करना, और V4 Flash model को Opencode जैसी harness से जोड़ना ही काफ़ी संतोषजनक है। कुछ हफ़्तों में शायद लगभग $10 खर्च किए होंगे
self-hosting models भी देखे थे, लेकिन अभी hardware बहुत महँगा है
पहला महीना $5 है, उसके बाद $10, और कभी भी cancel किया जा सकता है। नया email लेकर बार-बार discount भी लिया जा सकता है
फिर भी दिलचस्प है। उस कीमत में क्या मिलता है? सिर्फ coding, या फिर उदाहरण के लिए image generation भी शामिल है, यह जानना चाहूँगा
लोग घर पर आख़िर क्या कर रहे हैं? मैं $20/month Claude plan से लगभग 5 apps code कर रहा हूँ, और हाँ, rate limit लग सकती है, लेकिन $3k के tokens जला देने के लिए क्या करना पड़ेगा, यह समझ नहीं आता
customer support issues की root-cause analysis हर घंटे चलती है, logs analysis जैसी daily automation होती है, और KPI tracking व execution के लिए weekly/monthly automation भी होती है
side projects बनाते समय 1) scope काफ़ी अच्छी तरह defined था और 2) users या automation की ज़रूरत नहीं थी, इसलिए $20/month plan की limit के भीतर रहना काफ़ी आसान था। अब तो अक्सर weekly limit hit हो जाती है और कई Max plans चाहिए होते हैं
जो लोग tokens जला रहे हैं, वे शायद कई sub-agents, 50 loaded skills, 40 MCP tools जैसी setups इस्तेमाल करते हैं। ऐसी चीज़ें हर turn में context भर देती हैं
घर पर personal projects के लिए यह ख़ास तौर पर अच्छा रहा। कंपनी के boring काम पूरे दिन करने के बाद भी, side project के repetitive कामों से न जूझना पड़े तो काम करने का मन ज़्यादा करता है
जो लोग घर पर हज़ारों डॉलर के tokens जला रहे हैं, उनमें से ज़्यादातर शायद बड़े slop piles बना रहे हैं
ज़्यादातर coding keyboard, IntelliSense, और थोड़े से code generation templates से ही जल्दी हो सकती है
लेकिन लोग AI पर निर्भर हो गए हैं कि वही सब कुछ कर दे, और अब tech bros नशे के सौदागरों की तरह निचोड़ना शुरू कर चुके हैं
कुछ महीने पहले मैंने NVIDIA DGX Spark में लगभग $4,000 लगाए। इसमें 128GB unified RAM और NVIDIA GB10 chip है
RAM, कई CPU cores, और 4TB NVMe SSD की वजह से यह GPU के बिना भी काफ़ी सक्षम ARM64 Linux computer है, और अभी तक मैं इसे ज़्यादातर वैसे ही इस्तेमाल कर रहा हूँ। लेकिन जानना चाहता हूँ कि इस hardware पर अच्छे से चल सकने वाला, ख़ासकर coding के लिए सबसे मज़बूत model कौन-सा है
inference engine के लिए मैं vLLM पर टिका हुआ हूँ, और Opencode से 2-agent loop को बाँधा है
Qwen3.6-35B-A3B planner लगभग 50~55 tokens/second पर अच्छी तरह चलता है, और Qwen3-Coder-30B-A3B-Instruct coder लगभग 30~35 tokens/second देता है। दोनों agents को एक साथ चलाकर idle छोड़ा जाए तो RAM usage 128GB में से लगभग 112GB होता है
काफ़ी ठीक है। मैं 1980s के MS-DOS games को disassemble करवाकर इधर-उधर प्रयोग कर रहा हूँ, और यह उस setup के लिए अच्छी तरह फिट बैठने वाला काम है। दुनिया का सबसे तेज़ नहीं है, लेकिन planner का context window 256k tokens और coding agent का 128k रखो तो यह काफ़ी लंबी task list भी बिना शिकायत एक-दूसरे को पास करके चबा जाता है। एकमात्र असली समस्या यह है कि prompt को बहुत संकीर्ण रखने पर भी coding agent ऐसे hallucinate करता है जैसे उसने LSD ले रखी हो। हालाँकि planning agent उन hallucinations को अच्छी तरह पकड़ लेता है और tasks को फिर से तोड़कर coder को वापस सौंपता दिखता है
कमाल है। कुछ महीनों बाद जब review unit वापस करनी पड़ेगी तो दुख होगा
अतिरिक्त तौर पर, Antirez की setup(https://github.com/antirez/ds4) के साथ Deepseek v4 Flash भी चलाकर देखा, और वह काफ़ी शानदार है, ऊपर से चलाना भी बहुत आसान है। लेकिन Spark पर यह लगभग 14 tokens/second पर काफ़ी धीमा है। और अगर आपके पास दो Spark machines नहीं हैं, तो एक समय में शायद यही एक model चलाना पड़ेगा। यह सारी RAM खा जाता है
मुझे लगता है कि मेरे लिए हार्डवेयर में निवेश करना सही रास्ता है
मैंने लगभग 24 साल पहले coding सीखी थी, और आज भी लगातार नई चीज़ें सीख रहा हूँ। इस दौरान नई चीज़ें सीखने और बनाने के लिए मुझे कभी subscription model पर निर्भर नहीं रहना पड़ा
अगर LLM और agent कम से कम अगले कुछ सालों तक coding और software बनाने के बुनियादी टूल बनने वाले हैं, तो Halo Strix PC जैसे हार्डवेयर पर $2000~3000 निवेश करना स्वाभाविक विकल्प लगता है
मेरे पास 2018 के आसपास का एक GTX1080ti है, जो इस्तेमाल में नहीं है, और उसने कई साल पहले ही अपनी पूरी कीमत वसूल कर दी थी, इसलिए अभी उसके हार्डवेयर की लागत 0 है
यह Gemma e4b multimodal, qwen 3.5 8b, qwen 4b embedding model को काफ़ी अच्छी तरह चला लेता है। LLM पर 40 tokens प्रति सेकंड से ज़्यादा मिलते हैं
लोड पर यह दीवार से 350W लेता है, power save में 3W, और idle में 80W। बिजली की दर £0.035 प्रति kWh है, जो UK के हिसाब से सस्ती है। इसकी वजह घर की battery से load shifting करना है
144k output tokens पर लगभग 1 पेंस खर्च आता है, और सैद्धांतिक रूप से इसमें एक घंटा लगता है
मुफ्त हार्डवेयर और सामान्य बिजली दर से लगभग 10 गुना सस्ती बिजली होने पर भी, यह कहीं ज़्यादा शक्तिशाली deepseek v4 flash model इस्तेमाल करने की तुलना में बस थोड़ा ही सस्ता पड़ता है
Anthropic को लेकर White House की हाल की गतिविधियों और इस वास्तविकता को साथ रखें कि अगली पीढ़ी के अच्छे models को ठीक से चलाने के लिए शायद 128GB से ज़्यादा चाहिए होगा, तो भविष्य के लिए यह अच्छा संकेत नहीं है
मैं local setup को कमतर नहीं बता रहा। मैं खुद भी ऐसा user हूँ और subscription भी साथ में इस्तेमाल करता हूँ, लेकिन trade-off को साफ़ नज़र से देखना चाहिए
लेकिन यह मुझे productivity को code lines की संख्या से नापने जैसा लगता है। मैं जो काम करता हूँ उसमें किसी भी subscription से मुझे फायदा महसूस नहीं हुआ
हाँ, एक ही prompt में कोई उबाऊ CRUD app पूरी की पूरी फिर से नहीं बन सकती, लेकिन खैर, ऐसा ही है
मैंने coding के लिए brain -> worker approach इस्तेमाल करना शुरू किया है
Brain, Claude subscription का महंगा और ज़्यादा स्मार्ट model है। जब संभव हो तो Fable 5, और अभी Opus इस्तेमाल करता हूँ
Worker एक local model (qwen3.6:46B) है, जिसे 36GB GPU पर Opencode + Ollama के साथ deploy किया है
Brain analysis/design और task generation संभालता है। Tasks इतने सरल और स्पष्ट होने चाहिए कि worker उन्हें संभाल सके। Worker coding करता है, Brain validate करता है, और ज़रूरत पड़े तो correction tasks बनाता है। अभी correction बनाम task का अनुपात लगभग 1:20 है
अगर घर में GPU नहीं है तो qwen3.6 cloud में भी काफ़ी सस्ता है
यह जिज्ञासा में बनाया गया एक experimental setup के ज़्यादा करीब है, लेकिन उम्मीद से बेहतर काम कर रहा है। इसने मुझे अब 4 दिनों से 3 coding agents लगातार चलाने दिया है। मैं इस setup तक कैसे पहुँचा, यह यहाँ बताया था: https://news.ycombinator.com/item?id=48520757
क्या अब Opus 4.6 के बराबर कुछ local पर चलाया जा सकता है? इस बारे में लगातार अलग-अलग बातें सुन रहा हूँ
अगर $10k खर्च करके यह संभव हो, तो मैं subscription बंद कर दूँगा। समस्या यह है कि सिर्फ जाँचने के लिए मैं खुद पैसा खर्च नहीं करना चाहता
व्यवहारिक रूप से, data center margin बचाने के लिए consumer को ऐसा setup दिया ही नहीं जाता जिसमें एक ही configuration पर इतना VRAM चल सके। Apple के पास पहले यह संभव था, लेकिन उसने बंद कर दिया, और वे मशीनें अब eBay पर $20k+ प्रति यूनिट बिक रही हैं
3090/4090/5090/6000 series cards से बहुत शक्तिशाली models चलाए जा सकते हैं। लेकिन अगर “leading model-level” चाहिए, तो नए सामान के हिसाब से कम से कम लगभग $22k का निवेश करना होगा। Used parts से शुरुआती लागत काफी घटाकर खुद server बनाया जा सकता है, लेकिन बिजली की खपत शायद 4~6 गुना या उससे भी ज़्यादा होगी
फिलहाल यह आम लोगों के बस की बात नहीं है
अभी ऐसी मशीन शुरू से बनाना $100K से कम में संभव नहीं है। लेकिन अभी हम ऐसे दौर में हैं जहाँ autonomy की कीमत तय करना भी मुश्किल है