- Fara-7B 7 अरब parameters वाला एक अल्ट्रा-कॉम्पैक्ट एजेंट-आधारित language model (SLM) है, जो वेब ब्राउज़र को वास्तविक रूप से संचालित करते हुए कार्य पूरा करने वाली Computer Use Agent संरचना अपनाता है
- यह माउस और कीबोर्ड इनपुट का सीधे अनुमान लगाकर वेबपेज को विज़ुअली पहचानता और संचालित करता है, और अलग accessibility tree या parsing model के बिना इंसानों की तरह इंटरैक्ट करता है
- On-device execution संभव होने से latency कम होती है और privacy protection बेहतर होती है, साथ ही यह औसतन 16 steps में काम पूरा करके समान श्रेणी के मॉडलों की तुलना में अधिक कुशल है
- WebTailBench सहित कई benchmarks में इसने समान श्रेणी और बड़े मॉडलों से बेहतर प्रदर्शन दर्ज किया, खासकर web automation और multi-step tasks में उच्च success rate हासिल की
- Microsoft द्वारा जारी WebTailBench dataset के साथ यह web-based agent evaluation और reproducible experimental environment प्रदान करता है, जिससे वास्तविक web interaction research के standardization में योगदान मिलता है
Fara-7B अवलोकन
- Microsoft का पहला कंप्यूटर उपयोग के लिए समर्पित एजेंट-आधारित small language model (SLM), जिसने 7 अरब parameters के स्तर पर state-of-the-art performance हासिल की
- Qwen2.5-VL-7B पर आधारित, और Magentic-One multi-agent framework का उपयोग कर तैयार किए गए synthetic data (145,000 paths) पर प्रशिक्षित
- 7B parameters के साथ बना होने के कारण local execution संभव है, जिससे latency घटती है और data privacy बेहतर होती है
मुख्य विशेषताएँ
- विज़ुअल interaction-आधारित तरीके से वेबपेज को पहचानता है और scroll, click, input जैसे वास्तविक user actions की नकल करता है
- इंसानों जैसी input modality का उपयोग करता है, इसलिए अलग parsing model की आवश्यकता नहीं
- औसतन 16 steps में task पूरा करता है, जो समान मॉडलों (औसतन 41 steps) की तुलना में अधिक कुशल है
- On-device deployment से cloud dependency कम होती है और personal data protection मजबूत होती है
समर्थित सुविधाएँ
- वेब सर्च और परिणामों का सारांश
- form input, account management
- flight, movie, restaurant booking
- online shopping और price comparison
- jobs और real estate information की खोज
प्रदर्शन तुलना
- WebVoyager, Online-M2W, DeepShop, WebTailBench सहित 4 benchmarks पर मूल्यांकन
- Fara-7B ने WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% success rate दर्ज की
- समान श्रेणी के मॉडल (UI-TARS-1.5-7B) और बड़े मॉडल (GLM-4.1V-9B) से बेहतर प्रदर्शन
WebTailBench benchmark
- 11 प्रकार के वास्तविक web tasks सहित 609 tasks से बना
- single-site tasks (shopping, flight, hotel आदि) और multi-step tasks (comparison shopping, compositional tasks आदि) शामिल
- Fara-7B ने सभी श्रेणियों में computer use models में सर्वोच्च प्रदर्शन दर्ज किया
- उदाहरण: hotel 53.8%, flight 37.9%, shopping 52.4%, comparison shopping 32.7%
मूल्यांकन इन्फ्रास्ट्रक्चर
- Playwright का उपयोग कर वास्तविक browser environment को पुनर्निर्मित किया गया
- Abstract Web Agent Interface के जरिए विभिन्न मॉडलों का integration संभव
- Fara-Agent Class के माध्यम से model execution और testing का समर्थन
- यह एक experimental public release है, इसलिए sandbox environment में execution और sensitive data के उपयोग पर प्रतिबंध की सिफारिश की गई है
इंस्टॉलेशन और रन
पुनरुत्पादनशीलता और मूल्यांकन वातावरण
- WebVoyager और OnlineMind2Web evaluation को पुन: प्रस्तुत करने के लिए
webeval/ framework उपलब्ध
- BrowserBase integration के जरिए स्थिर browser session management
- time-sensitive task updates, environment error handling, 100-step limit आदि के माध्यम से evaluation consistency सुनिश्चित
- WebVoyager dataset से 48 असंभव tasks हटाए गए, और भविष्य की तारीख वाले 50 tasks अपडेट किए गए
मूल्यांकन रन और विश्लेषण
webeval/scripts directory में evaluation scripts चलाए जा सकते हैं
- VLLM self-hosting या Azure Foundry endpoint में से किसी एक का चयन संभव
- परिणाम
gpt_eval/, traj/, screenshot_X.png आदि में सहेजे जाते हैं
- Jupyter Notebook के जरिए average score, failure reasons, और interrupted paths का विश्लेषण किया जा सकता है
आगे की योजना
- LLM-as-a-judge evaluation के लिए validation pipeline और WebTailBench के official human annotation data को जारी करने की योजना
- BrowserBase के साथ सहयोग के जरिए evaluation quality में सुधार
उद्धरण जानकारी
- शोध में उपयोग के समय Microsoft Research के Fara: Fast and Accurate Web Agent (2025) paper को cite करने की सिफारिश
1 टिप्पणियां
Hacker News राय
मुझे लगता है कि यही इस चर्चा का असली शुरुआती बिंदु है। सोच रहा हूँ कि क्या दूसरी बड़ी कंपनियों ने भी इस तरह बाहरी models को fine-tune किया है
अब तो लगता है कि चीनी कंपनियाँ आगे चल रही हैं
कहीं OpenAI के साथ contract की वजह से वह अपना LLM नहीं बना पा रहा, ऐसा तो नहीं? अमेरिका में बड़े open source models लाने वालों में फिलहाल Meta ही दिखता है, जबकि चीनी कंपनियाँ लगातार पूरी तरह खुले models ला रही हैं
यह model computer control के लिए है, इसलिए synthetic data यहाँ उपयुक्त है। असली datasets लगभग हैं ही नहीं।
चीनी कंपनियाँ open source इसलिए चुनती हैं क्योंकि इससे विश्वास बनता है और marketing differentiation भी मिलती है
संबंधित paper: https://arxiv.org/pdf/2504.14772v1
मैंने Qwen3-VL-30B को Playwright के साथ इस्तेमाल किया है, और browser automation में यह काफ़ी ठीक था। लेकिन दोहराए जाने वाले काम आखिरकार code से ही capture करने पड़ते हैं
यह model उससे छोटा है, लेकिन विशेष उद्देश्य के लिए बनाया गया है, यह बात दिलचस्प है
सोचता हूँ कि क्या लोग सच में shopping AI को outsource कर रहे हैं
लगता है Microsoft बस AI experiments अंधाधुंध फेंक रहा है
model को page screenshots और goal दिया जाता है, और वह उस goal तक पहुँचने के लिए automation commands बनाता है
Opus3 के साथ कोशिश की थी, और “आपातकालीन escape प्रक्रिया शुरू की जा रही है” जैसे संदेश बोलते हुए spaceship उड़ा देना काफ़ी मज़ेदार था
संबंधित paper: https://arxiv.org/abs/2511.10395
Sung Kim की feedback post भी देखी जा सकती है
समझ नहीं आता कि हम scripts नहीं लिख पा रहे, या software stack बहुत ज़्यादा जटिल हो गया है
देखकर लगा जैसे मकसद बस token usage बढ़ाना हो
कंपनियाँ interoperability के लिए API नहीं देतीं, इसलिए आखिर में LLM का इंसानों की तरह UI को brute force से चलाना ही आसान हो जाता है