- नैचुरल लैंग्वेज कमांड्स को browser interactions (Selenium code) में बदलकर ब्राउज़र को ऑटोमेट करता है
- इसका लक्ष्य उपयोगकर्ता की ओर से दोहराए जाने वाले, समय लेने वाले और बहुत कम संज्ञानात्मक प्रयास वाले सरल कार्यों को ऑटोमेट करना है
- यह एक ऐसा इंजन प्रदान करता है जो नैचुरल लैंग्वेज queries को Selenium code में बदलता है, ताकि web workflows को आसानी से ऑटोमेट किया जा सके और ब्राउज़र में चलाया जा सके
मुख्य विशेषताएँ
- नैचुरल लैंग्वेज प्रोसेसिंग: नैचुरल लैंग्वेज में दिए गए निर्देशों को समझकर ब्राउज़र इंटरैक्शन करता है
- Selenium इंटीग्रेशन: Selenium के साथ सहज रूप से इंटीग्रेट होकर web browser automation करता है
- ओपन सोर्स: transformers और llama-index जैसे ओपन सोर्स प्रोजेक्ट्स पर बनाया गया है, और ऐसे ओपन सोर्स models का उपयोग करता है जो पारदर्शिता सुनिश्चित करते हैं ताकि वे उपयोगकर्ताओं के हितों के अनुरूप रहें
- प्राइवेसी और कंट्रोल के लिए लोकल मॉडल सपोर्ट:
Gemma-7b जैसे लोकल models को सपोर्ट करता है, ताकि उपयोगकर्ता अपने AI assistant पर पूरा नियंत्रण रख सकें और प्राइवेसी सुनिश्चित कर सकें
- उन्नत AI तकनीक: लोकल embeddings (
bge-small-en-v1.5) का उपयोग करके RAG चलाता है और सबसे प्रासंगिक HTML हिस्सों को निकालता है, फिर Few-shot learning और Chain of Thought का उपयोग करके LLM(Nous-Hermes-2-Mixtral-8x7B-DPO) के लिए बिना fine-tuning किए task पूरा करने हेतु सबसे प्रासंगिक Selenium code तैयार करता है
शुरुआत करना
- आप Colab notebook में LaVague को आज़मा सकते हैं.
रोडमैप
- यह अभी शुरुआती प्रोजेक्ट है, लेकिन आगे चलकर यह ऐसे पारदर्शी और aligned AI models को आम बना सकता है जो उपयोगकर्ताओं के लिए इंटरनेट पर कार्रवाई कर सकें
- Text2Action में विशेषज्ञता हासिल करने के लिए लोकल models को fine-tune करना, code generation के लिए केवल प्रासंगिक code हिस्सों का उपयोग हो ऐसा retrieval बेहतर करना, और अन्य browser engines (जैसे: playwright) या अन्य automation frameworks को सपोर्ट करना इसके प्रमुख खोज क्षेत्र माने गए हैं
GN⁺ की राय
- LaVague में उपयोगकर्ताओं के दोहराए जाने वाले कामों को ऑटोमेट करके समय बचाने और प्रोडक्टिविटी बढ़ाने की क्षमता है. यह खास तौर पर repetitive data entry या form filling जैसे कामों में उपयोगी हो सकता है
- इसे ओपन सोर्स आधार पर विकसित किया गया है, जिससे उपयोगकर्ताओं और डेवलपर्स दोनों को पारदर्शिता और बदलाव करने की क्षमता मिलती है. इससे community-driven innovation को बढ़ावा मिल सकता है और उपयोगकर्ताओं का भरोसा बन सकता है
- LaVague जिस automation तकनीक से जुड़ा है, वह Selenium जैसे टूल्स के साथ इंटीग्रेट होती है जिनसे कई कंपनियाँ और डेवलपर्स पहले से परिचित हैं, इसलिए इसे मौजूदा workflows में आसानी से शामिल किया जा सकता है
- AI-आधारित automation में उच्च सटीकता और दक्षता की आवश्यकता होती है. LaVague द्वारा दी गई Few-shot learning और Chain of Thought जैसी तकनीकें जटिल कार्यों के दौरान होने वाली गलतियों को कम करने में मदद कर सकती हैं
- ऐसी तकनीकों को अपनाते समय उपयोगकर्ता प्राइवेसी और data security पर विचार करना ज़रूरी है. लोकल model support इस चिंता को कम करने का एक तरीका हो सकता है, लेकिन उपयोगकर्ताओं को फिर भी सावधानी से निगरानी रखनी चाहिए कि उनका डेटा कैसे प्रोसेस हो रहा है
2 टिप्पणियां
नोटबुक environment में इसे टेस्ट करके देख पाना काफी अच्छा लग रहा है। milestone में playwright integration होना राहत की बात है,,
Hacker News राय
नए टूल को आज़माने पर राय
Google Photos खाली करने का अनुभव
TaxyAI जैसे browser automation टूल पर राय
Selenium टेस्ट पर अनुभव
वेबसाइट पर automation निर्देशों को नज़रअंदाज़ करने को लेकर चिंता
automation के संभावित प्रभाव पर राय
model compatibility में रुचि
online voting पर प्रभाव
success rate दिखाने वाले benchmark का महत्व
project में रुचि