नए मिले सर्विसेज़ को टेस्ट करने के लिए, अलग-अलग ताकत वाले 4 एजेंट्स से vibe coding करके देखा। (पहले AI prototyping services (v0, Lovable, Replit, Bolt, Tempo, Mocha) को deep research + खुद इस्तेमाल करके तुलना की थी, इस बार वही prompt देकर implementation की तुलना की।)
- Lovable: AI prototyping services के अग्रणी खिलाड़ियों में से एक। बहुत जल्दी polished UI बना देता है। तुरंत public deployment संभव
- Gemini App Build: Google AI Studio में इस्तेमाल होता है। मुफ्त में Gemini API call करने वाला app बनाया जा सकता है। chat turns की कोई सीमा नहीं
- Rork: built-in mobile app simulator देने वाली पहली vibe coding service। फोन पर app की तरह test किया जा सकता है
- Flowith Neo: 24 घंटे चलने वाला super-agent। coding सहित कई तरह के काम multi-agent के जरिए कर सकता है
सभी में एक जैसा, अपने परिचितों के साथ मिलकर खुद विकसित किए गए मदद माँगने की कौशल-प्रशिक्षण workshop के handout को दिया और कहा, "अकेले अभ्यास करने के लिए एक simulation app बना दो।"
हर service का नीचे दिए गए 7 मानदंडों (कुल 70 अंकों) पर, पूरी तरह व्यक्तिपरक तरीके से मूल्यांकन किया गया:
- implementation process
- दक्षता: काम करने वाला app बनाने तक मेरी दखल कितनी कम रही
- सुविधा: test और debug करना कितना आसान था
- गति: implementation कितनी तेज़ थी
- लागत: implementation में कितना कम खर्च आया
- implementation result
- कार्यक्षमता: features उम्मीद के मुताबिक और पर्याप्त थे या नहीं
- उपयोगिता: बने हुए app का UI/UX intuitive और सुंदर था या नहीं
- प्रभावशीलता: क्या यह वास्तव में मदद माँगने की कौशल-प्रशिक्षण में उपयोगी है
मूल्यांकन परिणाम सारांश
(टेबल में संक्षेपित इमेज, और हर service की detailed स्क्रीनें ब्लॉग में हैं)
कुल मिलाकर:
- implementation process: Lovable > Gemini >> Rork >>>> Flowith
- implementation result: Lovable ~= Flowith > Gemini = Rork
कितने turns में पूरा हुआ:
- Lovable और Gemini दोनों first turn में पूरे हो गए (Gemini ने खुद एक बार bug fix करके पूरा किया)
- Rork ने (error message paste करके) 2 बार bug fix के बाद 3 turns में पूरा किया
- Flowith ने कई बार manual दखल और खुद सुधारने की कोशिश के बावजूद पूरा नहीं किया। हालांकि बीच-बीच में preview मिलता रहा, इसलिए intermediate result देखे जा सके
इम्प्रेशन्स
- थोड़ा निजी झुकाव हो सकता है, लेकिन कुल मिलाकर Lovable बहुत आगे रहा। फिर भी सबकी अपनी-अपनी खासियतें साफ थीं
- Gemini: LLM call को सीधे test कर पाने का अनुभव खास है
- Rork: mobile app को सीधे फोन पर test करने से app जैसा असली feel आता है
- Flowith: अतिरिक्त research अच्छी तरह करता है। बस पूरा कर देता तो...
- जिससे उम्मीद थी, वही Flowith बीच के नतीजों में प्रभावशाली था, लेकिन अभी इसे vibe coding का main tool मानना मुश्किल लगा। सबसे बड़ी बात, यह chat message आधारित नहीं बल्कि credit आधारित है, इसलिए लागत बहुत बढ़ जाती है
- वैसे implementation process का मूल्यांकन सिर्फ इस बार का नहीं, बल्कि कुल अनुभव के आधार पर है। Rork पहली बार इस्तेमाल किया, Lovable कई बार, और Gemini व Flowith से 3-3 चीज़ें बनाई थीं
विस्तृत मूल्यांकन
🥇 1वाँ स्थान Lovable - 63 अंक (first turn में पूरा)
implementation process
- दक्षता: 9
- सुविधा: 9
- गति: 10
- लागत: 7
बस हर चीज़ अच्छी करता है। first turn implementation सबसे तेज़ और सबसे साफ थी। error message आधारित auto bug fix सुविधाजनक है। free visual edit और bug fix अच्छे हैं। code modification भी paid में वहीं पर, और free में GitHub integration से संभव है। तुरंत public deployment भी बहुत अच्छा है।
implementation result
- कार्यक्षमता: 9
- उपयोगिता: 10
- प्रभावशीलता: 9
UI हमेशा की तरह सुंदर है और उसमें शिकायत की कोई बात नहीं। features बहुत ज़्यादा नहीं थे, लेकिन handout की creative interpretation करके उसे intuitive बनाया, और ज़रूरी सभी features मौजूद थे.
मदद माँगने के 3 steps को हमेशा follow करना पड़ना एक कमी है। simulation भी simple rule-based था, लेकिन उपयुक्त था। लगा कि इसमें LLM सहित दूसरी services की अच्छी बातें जोड़ दी जाएँ तो बढ़िया हो जाएगा।
🥈 2रा स्थान Gemini App Build - 56 अंक (first turn में, खुद bug fix के बाद पूरा)
implementation process
- दक्षता: 7
- सुविधा: 8
- गति: 8
- लागत: 10
free chat, और मुफ्त में Gemini call कर पाने की बड़ी खासियत। first turn में काफ़ी अच्छा बनाता है, और बनाने के तुरंत बाद जो bug आता है, उसे खुद ठीक कर लेता है।
multi-turn में यह उतना अच्छा नहीं है। error message आधारित auto bug fix संभव है, लेकिन वही bug आखिर तक ठीक नहीं कर पाया, इसलिए आखिरकार manual दखल देना पड़ा। visual edit नहीं है, लेकिन code modification सबसे आसान है। deployment के लिए Cloud Run चाहिए, यह एक कमी है।
implementation result
- कार्यक्षमता: 8
- उपयोगिता: 6
- प्रभावशीलता: 9
UI साफ तौर पर थोड़ा कठोर लगता है। Google tools याद आ जाते हैं, और handout की सामग्री को creative तरीके से interpret करने के बजाय लगभग वैसा ही दिखाता है। 3 steps हमेशा पूरे करने पड़ते हैं, जो थोड़ा असुविधाजनक है।
लेकिन simulation में chat करने पर AI का जवाब देना बहुत ही unique और प्रभावी अनुभव है, इसलिए इसे अतिरिक्त अंक मिले। यह सिर्फ यही दे पाता है।
🥉 3रा स्थान Rork - 46 अंक (3 turns में पूरा)
implementation process
- दक्षता: 7
- सुविधा: 5
- गति: 7
- लागत: 4
mobile app बन जाना इसकी सबसे बड़ी खासियत है। Android और iPhone दोनों पर Expo Go app के जरिए फोन में install करके अच्छी तरह चला। Claude Sonnet 4 सहित implementation model चुनने का विकल्प भी है। auto bug fix है और bug वास्तव में अच्छी तरह ठीक करता है.
code modification नहीं कर सकते, visual edit नहीं है, और सबसे बड़ी समस्या यह है कि bug fix paid है। इंसानियत के नाते, first turn में खुद बनाए bug वाले app को ठीक करना तो free होना चाहिए, है ना?
implementation result
- कार्यक्षमता: 8
- उपयोगिता: 7
- प्रभावशीलता: 8
यह अकेला English में बनाता है। UI थोड़ा कठोर था और सुंदर नहीं लगा। handout की सामग्री का बड़ा हिस्सा लगभग वैसे ही आ गया। फिर भी ज़रूरी चीज़ें सब थीं, और 3 features को अलग-अलग चलाया जा सकता था, इसलिए सुविधा रही।
simulation multiple-choice में कराकर मूल्यांकन देता है, इसलिए लगा कि beginners के प्रशिक्षण के लिए अच्छा है। लेकिन text बहुत लंबा था।
4था स्थान Flowith Neo - 35 अंक (n turns के बाद भी अधूरा)
implementation process
- दक्षता: 1
- सुविधा: 3
- गति: 3
- लागत: 1
web search के जरिए अतिरिक्त planning अच्छी है। लेकिन बहुत काम करने के बावजूद 3 apps बनाते समय एक बार भी पूरा नहीं कर पाया। खुद run करके फिर planning करता, bug fix की कोशिश करता और फिर भी ठीक नहीं कर पाता। message per charge नहीं होने के बावजूद, खुद trial-failure दोहराते हुए बहुत credit खर्च कर देता है, इसलिए असंतोष हुआ।
हर intermediate process में version को public URL पर deploy कर देता है। लेकिन कई बार पुराना version ही बेहतर होता है। बीच में implementation fail हो जाए तो manual rerun करना पड़ता है। code सिर्फ download करने पर दिखता है और स्वाभाविक रूप से modification भी सिर्फ prompt से ही संभव है। visual edit संभव नहीं।
implementation result
- कार्यक्षमता: 9
- उपयोगिता: 10
- प्रभावशीलता: 7
पहली planning और बीच के previews बहुत प्रभावशाली थे। आखिर तक पूरा नहीं हुआ, और version के हिसाब से बदलता भी रहा, लेकिन दूसरे apps से अपनाने लायक कई तत्व थे। जैसे अधिक सख़्त pre-evaluation करना, या अलग-अलग scenarios और difficulty levels के हिसाब से training कराना। UI भी कुछ अजीब हिस्सों को छोड़कर सुंदर था, और सबसे ज़्यादा बारीक लगा.
2 टिप्पणियां
मैं bolt.new का उपयोग कर रहा हूँ, इसलिए मैं देखना चाहता हूँ कि इसकी तुलना में यह कैसा है।
मैं भी जून में Bolt hackathon की वजह से (कुल इनामी राशि 10 लाख डॉलर) https://www.stdy.blog/registered-at-vibe-coding-hackathon/ Bolt काफ़ी इस्तेमाल करता/करती लगूंगा/लगूंगी। उसके बाद तुलना करके देखना होगा, हाहा