• एकल VPS, Go भाषा, SQLite और लोकल GPU का उपयोग करके महीने के 20 डॉलर से कम इंफ्रास्ट्रक्चर लागत में $10K से अधिक MRR वाली कई SaaS कंपनियां चलाने की बूटस्ट्रैपिंग रणनीति
  • AWS या जटिल cloud orchestration की जगह 5~10 डॉलर का एक VPS लेकर सभी services चलाना, और infra management नहीं बल्कि request handling पर फोकस करना
  • backend language के रूप में Go चुनकर dependency management के बिना single binary में compile करके server पर deploy करने वाली बेहद सरल deployment process हासिल करना
  • लोकल GPU (RTX 3090) पर VLLM चलाकर AI batch processing की लागत शून्य करना, और केवल user-facing features के लिए OpenRouter के जरिए frontier models का उपयोग करना
  • venture capital के बिना भी अगर लागत लगभग शून्य रखी जाए तो लगभग अनंत runway हासिल किया जा सकता है, और product-market fit खोजने के लिए पर्याप्त समय मिल सकता है

Lean server संचालन रणनीति

  • 2026 में web app launch करने का सामान्य तरीका AWS में EKS cluster, RDS instance, NAT Gateway provision करना है, और इस स्थिति में एक भी user न होने पर भी महीने के 300 डॉलर से अधिक खर्च हो जाता है
  • इसके विकल्प के रूप में Linode या DigitalOcean पर महीने के 5~10 डॉलर का VPS लेकर single server के रूप में चलाना
  • 1GB RAM भी सही तरीके से इस्तेमाल की जाए तो पर्याप्त है, और extra headroom चाहिए तो swapfile इस्तेमाल करें
  • server एक ही हो तो logs कहाँ हैं, crash क्यों हुआ, और restart कैसे करना है, यह सब ठीक-ठीक पता रहता है
  • AWS की जगह VPS चुनने की वजह है predictable cost और simple architecture बनाए रखना

Go भाषा चुनने की वजह

  • Python या Ruby में interpreter boot और gunicorn worker management भर से RAM का आधा हिस्सा खर्च हो जाता है
  • Go web workloads में कहीं बेहतर performance देता है, इसमें strict type system है, और 2026 के हिसाब से LLM के लिए reason करना बेहद आसान भाषा है
  • Go का मुख्य फायदा है deployment process की simplicity: पूरे application को single statically linked binary में compile करें, laptop पर build करें, फिर scp से server पर भेजकर run करें
  • pip install वाली dependency hell या virtual environment की जरूरत नहीं, और bloated frameworks के बिना भी production-grade web server बनाया जा सकता है
  • केवल Go standard library से ऐसा server लिखा जा सकता है जो प्रति सेकंड दसियों हज़ार requests संभाल सके

लोकल AI का उपयोग: batch jobs की लागत शून्य करना

  • अगर घर में graphics card है, तो आपके पास पहले से ही unlimited AI credits हैं
  • eh-trade.ca बनाते समय हज़ारों कंपनियों की quarterly reports का विश्लेषण करने वाली large-scale qualitative stock research की जरूरत थी, और OpenAI API इस्तेमाल करने पर सैकड़ों डॉलर लग सकते थे
  • इसकी जगह Facebook Marketplace से 900 डॉलर में खरीदे गए RTX 3090(24GB VRAM) पर VLLM चलाकर AI provider को भुगतान करने की जरूरत खत्म कर दी गई
  • लोकल AI upgrade path:
    • Ollama से शुरुआत: एक लाइन के command (ollama run qwen3:32b) से setup करें, अलग-अलग models तुरंत test करें, और prompt iteration के लिए बेहतरीन
    • VLLM के साथ production में जाएँ: Ollama concurrent requests में bottleneck बन जाता है, जबकि VLLM PagedAttention का उपयोग करके बहुत तेज़ हो जाता है. 8~16 async requests एक साथ भेजने पर GPU memory में batch processing होती है और समय लगभग एक request जितना ही लगता है
    • Transformer Lab: model pretraining या fine-tuning की जरूरत हो तो लोकल hardware पर आसानी से किया जा सकता है
  • इसे manage करने के लिए खुद बनाया गया laconic: 8K context window के लिए optimized agent research tool, जो OS के virtual memory manager की तरह बातचीत के गैर-ज़रूरी हिस्सों को "page out" करके केवल core facts को active LLM context में रखता है
  • llmhub: सभी LLMs को provider/endpoint/apikey संयोजन के रूप में abstract करके text और image IO को, चाहे लोकल हो या cloud, सहज रूप से handle करने वाला tool

OpenRouter के जरिए frontier models तक पहुँच

  • हर काम लोकल पर नहीं किया जा सकता, और user-facing low-latency chat interactions के लिए Claude 3.5 Sonnet या GPT-4o जैसे cutting-edge reasoning models की जरूरत होती है
  • Anthropic, Google, OpenAI के अलग-अलग billing accounts, API keys और rate limits संभालने के बजाय सब कुछ OpenRouter में एकीकृत
  • सिर्फ एक OpenAI-compatible integration code लिखकर सभी प्रमुख frontier models तक तुरंत पहुँचा जा सकता है
  • seamless fallback routing का support: Anthropic API में समस्या आने पर अपने-आप equivalent OpenAI model पर switch हो जाता है, इसलिए user को कोई error screen नहीं दिखती और जटिल retry logic की जरूरत नहीं पड़ती

GitHub Copilot के साथ cost-efficient AI coding

  • जब हर हफ्ते नए महंगे models लॉन्च हो रहे हैं, तब developers Cursor subscription और Anthropic API keys पर हर महीने सैकड़ों डॉलर खर्च कर रहे हैं
  • इसके उलट Claude Opus 4.6 को पूरे दिन इस्तेमाल करने पर भी मासिक लागत शायद ही 60 डॉलर से ऊपर जाती है
  • इसका रहस्य है Microsoft के pricing model का लाभ उठाना: 2023 में GitHub Copilot subscription खरीदी गई और उसे standard VS Code से जोड़ा गया
  • Copilot की मुख्य ट्रिक: Microsoft token के आधार पर नहीं बल्कि request के आधार पर charge करता है, और एक "request" मतलब chat box में डाली गई एक input. एजेंट 30 मिनट तक पूरे codebase का विश्लेषण करे और सैकड़ों files बदल दे, तब भी लगभग 0.04 डॉलर ही खर्च होते हैं
  • सबसे बेहतर रणनीति: कड़े success criteria के साथ detailed prompt लिखें, और निर्देश दें कि "जब तक सभी errors ठीक न हो जाएँ, जारी रखें", फिर इसे run करें

SQLite को हर database के रूप में इस्तेमाल करना

  • नया venture शुरू करते समय हमेशा sqlite3 को main database के रूप में इस्तेमाल किया जाता है
  • enterprise नज़रिए से लोग मानते हैं कि अलग process वाला database server चाहिए, लेकिन वास्तव में C interface या memory के जरिए communicate करने वाली लोकल SQLite file, TCP network hop के साथ remote Postgres server तक जाने की तुलना में कई गुना तेज़ होती है
  • concurrency issue को लेकर गलतफहमी: यह मानना कि SQLite हर write पर पूरे database को lock कर देता है, सही नहीं है; Write-Ahead Logging(WAL) सक्षम करने से यह हल हो जाता है
    • PRAGMA journal_mode=WAL; और PRAGMA synchronous=NORMAL; सेट करने पर reads और writes एक-दूसरे को block नहीं करते
    • NVMe drive पर एक single .db file से हज़ारों concurrent users संभाले जा सकते हैं
  • user authentication को आसान बनाने के लिए खुद की library smhanov/auth बनाई गई: यह उपयोग में लिए जा रहे database के साथ सीधे integrate होती है और signup, sessions, password reset, Google/Facebook/X/SAML login को support करती है

निष्कर्ष: जटिल infra के बिना startup बनाना

  • tech industry अक्सर दावा करती है कि असली business बनाने के लिए complex orchestration, AWS पर भारी मासिक खर्च, और millions of dollars की venture capital चाहिए, लेकिन ऐसा नहीं है
  • single VPS, statically compiled binary, लोकल GPU hardware से batch AI jobs, और SQLite की raw speed को मिलाकर महीने में कुछ कप coffee की कीमत पर scalable startup को bootstrap किया जा सकता है
  • इससे project को लगभग अनंत runway मिलता है और burn rate की चिंता के बजाय user problems सुलझाने पर ध्यान देने का समय मिलता है

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.