3 पॉइंट द्वारा GN⁺ 2025-11-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Fara-7B 7 अरब parameters वाला एक अल्ट्रा-कॉम्पैक्ट एजेंट-आधारित language model (SLM) है, जो वेब ब्राउज़र को वास्तविक रूप से संचालित करते हुए कार्य पूरा करने वाली Computer Use Agent संरचना अपनाता है
  • यह माउस और कीबोर्ड इनपुट का सीधे अनुमान लगाकर वेबपेज को विज़ुअली पहचानता और संचालित करता है, और अलग accessibility tree या parsing model के बिना इंसानों की तरह इंटरैक्ट करता है
  • On-device execution संभव होने से latency कम होती है और privacy protection बेहतर होती है, साथ ही यह औसतन 16 steps में काम पूरा करके समान श्रेणी के मॉडलों की तुलना में अधिक कुशल है
  • WebTailBench सहित कई benchmarks में इसने समान श्रेणी और बड़े मॉडलों से बेहतर प्रदर्शन दर्ज किया, खासकर web automation और multi-step tasks में उच्च success rate हासिल की
  • Microsoft द्वारा जारी WebTailBench dataset के साथ यह web-based agent evaluation और reproducible experimental environment प्रदान करता है, जिससे वास्तविक web interaction research के standardization में योगदान मिलता है

Fara-7B अवलोकन

  • Microsoft का पहला कंप्यूटर उपयोग के लिए समर्पित एजेंट-आधारित small language model (SLM), जिसने 7 अरब parameters के स्तर पर state-of-the-art performance हासिल की
  • Qwen2.5-VL-7B पर आधारित, और Magentic-One multi-agent framework का उपयोग कर तैयार किए गए synthetic data (145,000 paths) पर प्रशिक्षित
  • 7B parameters के साथ बना होने के कारण local execution संभव है, जिससे latency घटती है और data privacy बेहतर होती है

मुख्य विशेषताएँ

  • विज़ुअल interaction-आधारित तरीके से वेबपेज को पहचानता है और scroll, click, input जैसे वास्तविक user actions की नकल करता है
  • इंसानों जैसी input modality का उपयोग करता है, इसलिए अलग parsing model की आवश्यकता नहीं
  • औसतन 16 steps में task पूरा करता है, जो समान मॉडलों (औसतन 41 steps) की तुलना में अधिक कुशल है
  • On-device deployment से cloud dependency कम होती है और personal data protection मजबूत होती है

समर्थित सुविधाएँ

  • वेब सर्च और परिणामों का सारांश
  • form input, account management
  • flight, movie, restaurant booking
  • online shopping और price comparison
  • jobs और real estate information की खोज

प्रदर्शन तुलना

  • WebVoyager, Online-M2W, DeepShop, WebTailBench सहित 4 benchmarks पर मूल्यांकन
  • Fara-7B ने WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4% success rate दर्ज की
  • समान श्रेणी के मॉडल (UI-TARS-1.5-7B) और बड़े मॉडल (GLM-4.1V-9B) से बेहतर प्रदर्शन

WebTailBench benchmark

  • 11 प्रकार के वास्तविक web tasks सहित 609 tasks से बना
  • single-site tasks (shopping, flight, hotel आदि) और multi-step tasks (comparison shopping, compositional tasks आदि) शामिल
  • Fara-7B ने सभी श्रेणियों में computer use models में सर्वोच्च प्रदर्शन दर्ज किया
    • उदाहरण: hotel 53.8%, flight 37.9%, shopping 52.4%, comparison shopping 32.7%

मूल्यांकन इन्फ्रास्ट्रक्चर

  • Playwright का उपयोग कर वास्तविक browser environment को पुनर्निर्मित किया गया
  • Abstract Web Agent Interface के जरिए विभिन्न मॉडलों का integration संभव
  • Fara-Agent Class के माध्यम से model execution और testing का समर्थन
  • यह एक experimental public release है, इसलिए sandbox environment में execution और sensitive data के उपयोग पर प्रतिबंध की सिफारिश की गई है

इंस्टॉलेशन और रन

  • pip install -e . या uv sync --all-extras से इंस्टॉल
  • Playwright browser installation आवश्यक
  • Azure Foundry के जरिए cloud hosting या VLLM के साथ GPU self-hosting का समर्थन
  • command उदाहरण:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

पुनरुत्पादनशीलता और मूल्यांकन वातावरण

  • WebVoyager और OnlineMind2Web evaluation को पुन: प्रस्तुत करने के लिए webeval/ framework उपलब्ध
  • BrowserBase integration के जरिए स्थिर browser session management
  • time-sensitive task updates, environment error handling, 100-step limit आदि के माध्यम से evaluation consistency सुनिश्चित
  • WebVoyager dataset से 48 असंभव tasks हटाए गए, और भविष्य की तारीख वाले 50 tasks अपडेट किए गए

मूल्यांकन रन और विश्लेषण

  • webeval/scripts directory में evaluation scripts चलाए जा सकते हैं
  • VLLM self-hosting या Azure Foundry endpoint में से किसी एक का चयन संभव
  • परिणाम gpt_eval/, traj/, screenshot_X.png आदि में सहेजे जाते हैं
  • Jupyter Notebook के जरिए average score, failure reasons, और interrupted paths का विश्लेषण किया जा सकता है

आगे की योजना

  • LLM-as-a-judge evaluation के लिए validation pipeline और WebTailBench के official human annotation data को जारी करने की योजना
  • BrowserBase के साथ सहयोग के जरिए evaluation quality में सुधार

उद्धरण जानकारी

  • शोध में उपयोग के समय Microsoft Research के Fara: Fast and Accurate Web Agent (2025) paper को cite करने की सिफारिश

1 टिप्पणियां

 
GN⁺ 2025-11-28
Hacker News राय
  • मुख्य बात यह है कि Microsoft ने Qwen2.5-VL-7B को fine-tune किया है
    मुझे लगता है कि यही इस चर्चा का असली शुरुआती बिंदु है। सोच रहा हूँ कि क्या दूसरी बड़ी कंपनियों ने भी इस तरह बाहरी models को fine-tune किया है
  • यह बस Qwen2.5-VL पर Microsoft का sticker चिपकाने जैसा लगता है
    अब तो लगता है कि चीनी कंपनियाँ आगे चल रही हैं
    • सही है। उदाहरण के लिए Fara-7B प्रथम विश्व युद्ध की Somme लड़ाई पर अच्छा जवाब देता है, लेकिन Tiananmen घटना पर यह कहकर बच निकलता है कि “यह संवेदनशील राजनीतिक विषय है, इसलिए मैं जवाब नहीं दे सकता”
  • असली बात यह है कि नया web task benchmark WebTailBench जारी किया गया है
  • हैरानी होती है कि Microsoft बार-बार सिर्फ synthetic data पर train किए हुए models ही क्यों ला रहा है
    कहीं OpenAI के साथ contract की वजह से वह अपना LLM नहीं बना पा रहा, ऐसा तो नहीं? अमेरिका में बड़े open source models लाने वालों में फिलहाल Meta ही दिखता है, जबकि चीनी कंपनियाँ लगातार पूरी तरह खुले models ला रही हैं
    • मुझे नहीं लगता कि contract की कोई पाबंदी होगी। शायद वे एक और foundation model बनाने में resources बर्बाद नहीं करना चाहते
      यह model computer control के लिए है, इसलिए synthetic data यहाँ उपयुक्त है। असली datasets लगभग हैं ही नहीं।
      चीनी कंपनियाँ open source इसलिए चुनती हैं क्योंकि इससे विश्वास बनता है और marketing differentiation भी मिलती है
    • हो सकता है legal team ने ऐसा करने को कहा हो। बड़ी कंपनियों की बनावट ही मूलतः innovation-विरोधी होती है
    • Gemma, Phi, OLMO, Mistral, GPT-OSS जैसे models भी काफी competitive हैं और सामान्य hardware पर भी अच्छे से चलते हैं
    • synthetic data पर training कहीं ज़्यादा efficient है। असली data में सिर्फ अगला token पता होता है, लेकिन synthetic data में पूरी probability distribution पता हो सकती है, इसलिए training effect कई गुना बढ़ जाता है
      संबंधित paper: https://arxiv.org/pdf/2504.14772v1
    • सिर्फ synthetic data इस्तेमाल करना ज़्यादा सुरक्षित भी है। इससे adult content या roleplay जैसी समस्याओं से बचा जा सकता है
  • लगता है कि model सिर्फ browser इस्तेमाल तक सीमित है। उदाहरण के लिए KiCAD जैसे सामान्य programs को यह control नहीं कर सकता
    मैंने Qwen3-VL-30B को Playwright के साथ इस्तेमाल किया है, और browser automation में यह काफ़ी ठीक था। लेकिन दोहराए जाने वाले काम आखिरकार code से ही capture करने पड़ते हैं
    यह model उससे छोटा है, लेकिन विशेष उद्देश्य के लिए बनाया गया है, यह बात दिलचस्प है
    • अगर आप ऐसे CUA actions को deterministic scripts में बदलना चाहते हैं, तो Stagehand caching guide देखना उपयोगी हो सकता है
    • browser के अंदर WASM में emulate करें तो यह संभव है। यह model की सीमा से ज़्यादा security sandbox constraints का मामला है
    • किसी ने कहा कि अगर संबंधित tools या code हों तो साझा किए जाएँ
    • वास्तव में test करने पर यह सिर्फ Playwright environment में काम करता है
  • तालिका देखकर लगता है कि ज़्यादातर use cases समझ में ही नहीं आते। सिर्फ shopping comparison कुछ हद तक समझ आता है
    सोचता हूँ कि क्या लोग सच में shopping AI को outsource कर रहे हैं
    • यह सिर्फ consumers के लिए ही नहीं है। उदाहरण के लिए ऐसी insurance websites जिनके पास API नहीं है, उन्हें automate करने में यह उपयोगी है
    • category के हिसाब से products इकट्ठा करके उनका summary देना काफ़ी काम का feature है
    • AI मेरे बदले payment करे या booking करे, यह थोड़ा असहज लगता है। लेकिन research और exploration तक की ज़िम्मेदारी मैं उसे दे सकता हूँ
    • मैं सच में wine shopping AI से करवाता हूँ
  • ऐसी automation तो कई साल पहले से संभव थी। GPU की भी ज़रूरत नहीं, और interface बदल जाए तो script ही ठीक करनी होती है
    लगता है Microsoft बस AI experiments अंधाधुंध फेंक रहा है
    • असली बात यह है कि script खुद लिखे बिना भी 1 अरब से ज़्यादा websites पर automation किया जा सकता है
      model को page screenshots और goal दिया जाता है, और वह उस goal तक पहुँचने के लिए automation commands बनाता है
  • सोचता हूँ कि क्या ऐसे models का इस्तेमाल video game input control में भी हो सकता है। अगर AI Kerbal Space Program खेले तो मज़ेदार होगा
    • इस तरह के experiments पहले भी हुए हैं। kRPC इस्तेमाल करें तो model आसानी से game के साथ interface कर सकता है
      Opus3 के साथ कोशिश की थी, और “आपातकालीन escape प्रक्रिया शुरू की जा रही है” जैसे संदेश बोलते हुए spaceship उड़ा देना काफ़ी मज़ेदार था
    • DeepMind का SIMA-2 भी देखने लायक है (यह local model नहीं है)
    • Alibaba का AgentEvolver game-specific नहीं है, लेकिन OODA loop-आधारित agent system के रूप में दिलचस्प है
      संबंधित paper: https://arxiv.org/abs/2511.10395
      Sung Kim की feedback post भी देखी जा सकती है
    • सोच रहा हूँ कि अगर इसे online poker खिलाया जाए तो क्या होगा
  • लगता है Microsoft ने Qwen-7B को fine-tune किया है
    • ठीक कहें तो यह Qwen2.5-VL-7B है। यह फर्क काफ़ी महत्वपूर्ण है
    • अब सच में लगता है कि हालात बदल रहे हैं
  • web page click automation के लिए 7 billion parameter model चाहिए, यह बात ही मज़ेदार है
    समझ नहीं आता कि हम scripts नहीं लिख पा रहे, या software stack बहुत ज़्यादा जटिल हो गया है
    • हाल में ‘My New Agent Coding Workflow’ नाम का एक वीडियो देखा, जिसमें सिर्फ file download करनी थी लेकिन वह काम IDE को prompt देकर कराया जा रहा था
      देखकर लगा जैसे मकसद बस token usage बढ़ाना हो
    • यह तकनीकी समस्या नहीं, बल्कि सामाजिक सहयोग की समस्या है
      कंपनियाँ interoperability के लिए API नहीं देतीं, इसलिए आखिर में LLM का इंसानों की तरह UI को brute force से चलाना ही आसान हो जाता है
    • आज के software और finance industry का आधा हिस्सा बेहद ज़्यादा जटिलता से बने कृत्रिम entry barriers पर टिका हुआ है