2 पॉइंट द्वारा GN⁺ 2024-05-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Falcon 2 सीरीज़ का अगली पीढ़ी का मॉडल लॉन्च

  • Technology Innovation Institute (TII) ने अगली पीढ़ी की large language model (LLM) Falcon 2 सीरीज़ लॉन्च की है
    • Falcon 2 11B: 5.5 ट्रिलियन tokens पर प्रशिक्षित 11 बिलियन parameters वाला मॉडल, जिसमें efficiency और accessibility बेहतर की गई है
    • Falcon 2 11B VLM: vision-to-language क्षमता वाला पहला multimodal मॉडल, जो visual input को text output में बदलता है
  • दोनों मॉडल multilingual support देते हैं, और खास तौर पर Falcon 2 11B VLM फिलहाल शीर्ष स्तर के मॉडलों में इकलौता है जो image-to-text conversion क्षमता प्रदान करता है

Falcon 2 11B का प्रदर्शन

  • Hugging Face के मूल्यांकन के अनुसार, Falcon 2 11B ने Meta के Llama 3 8B से बेहतर प्रदर्शन दिखाया, और Google के Gemma 7B के समान प्रदर्शन दिया (Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
  • Falcon 2 11B और 11B VLM दोनों को open source के रूप में developers के लिए बिना प्रतिबंध उपलब्ध कराया जाएगा
  • आगे चलकर Falcon 2 सीरीज़ को अलग-अलग आकार के मॉडलों तक विस्तारित किया जाएगा, और Mixture of Experts(MoE) तकनीक अपनाकर प्रदर्शन को और उन्नत करने की योजना है

Falcon 2 11B VLM की विशेषताएँ

  • अंग्रेज़ी, फ़्रेंच, स्पेनिश, जर्मन, पुर्तगाली आदि सहित multilingual processing संभव
  • environment की images और visual information को पहचानने और समझने वाली vision-to-language क्षमता से लैस
    • healthcare, finance, e-commerce, education, legal जैसे विभिन्न उद्योगों में उपयोग संभव
    • document management, digital archiving, context indexing से लेकर visually impaired users की सहायता तक व्यापक उपयोग क्षेत्र
  • single GPU पर कुशलता से चल सकता है, इसलिए scalability उत्कृष्ट है और laptop जैसी हल्की infrastructure में integrate करना आसान है

GN⁺ की राय

  • Falcon 2 सीरीज़, मौजूदा Falcon मॉडलों के प्रदर्शन और efficiency को और ऊंचे स्तर पर ले जाने वाला अगली पीढ़ी का मॉडल है। खास तौर पर Falcon 2 11B VLM का vision-to-language क्षमता से लैस पहला बड़े पैमाने का multilingual multimodal मॉडल होना बहुत महत्वपूर्ण है। इससे visual data और language data को एकीकृत तरीके से प्रोसेस करना संभव होगा, और अधिक मानवीय व स्वाभाविक interaction की उम्मीद की जा सकती है.

  • हालांकि, multimodal AI अभी भी शुरुआती चरण में है और stability तथा robustness के लिहाज़ से सुधार की गुंजाइश है। इसलिए वास्तविक उपयोग के लिए data bias की समस्या, privacy और security issues, तथा गलत input के प्रति vulnerability जैसी बातों की बारीकी से जाँच और सुधार की प्रक्रिया आवश्यक लगेगी.

  • Falcon 2 सीरीज़ का open source के रूप में जारी होना भी ध्यान देने योग्य है। इससे developer community की सक्रिय भागीदारी बढ़ सकती है और मॉडल के सुधार व विस्तार में तेजी आ सकती है। हालांकि, open source models के मामले में malicious use की चिंता भी रहती है, इसलिए license policy में acceptable use policy जैसी बातों को शामिल कर responsible AI usage को बढ़ावा देना उचित होगा.

  • Mixture of Experts(MoE) तकनीक अपनाने की योजना भी दिलचस्प है। MoE, कई specialized छोटे networks को मिलाकर domain विशेषज्ञता के बीच सहयोग के जरिए अधिक परिष्कृत और customized परिणाम निकालने का तरीका है, और उम्मीद है कि यह आगे चलकर Falcon 2 सीरीज़ के प्रदर्शन सुधार में बड़ा योगदान देगा। इस तरह की research direction को सिर्फ मॉडल का आकार बढ़ाने से आगे बढ़कर, अधिक efficient और intelligent AI systems बनाने के प्रयास के रूप में देखा जा सकता है.

1 टिप्पणियां

 
GN⁺ 2024-05-14
Hacker News राय
  • यह बताया गया कि Falcon 2 11B मॉडल के benchmark नतीजे Mistral 7B और Llama 3 8B के समान स्तर के हैं। मॉडल आकार में बढ़ोतरी को देखते हुए यह कोई बहुत बड़ी उपलब्धि नहीं लगती।

  • लाइसेंस में समस्या है। Apache 2 लाइसेंस को संशोधित करके उसमें अतिरिक्त शर्तें जोड़ी गई हैं, जिनमें acceptable use policy का पालन करने की मांग शामिल है। समस्या यह है कि भविष्य में उस policy में क्या बदलाव होंगे, यह पता नहीं। मौजूदा सामग्री से असंबंधित होकर भी उसे बाद में किसी भी तरह बदला जा सकता है और उसका पालन करना होगा। ऐसे लाइसेंस को "open source" कहना OSI की परिभाषा के अनुरूप नहीं है, यह आपत्ति उठाई गई।

  • "Falcon 2 11B, Meta के Llama 3 8B से बेहतर है और Google के Gemma 7B के बराबर प्रदर्शन दिखाता है" इस दावे पर यह प्रतिवाद सामने आया कि Llama 3 8B लगभग हर पहलू में Gemma 7B से बेहतर है, ऐसा मजबूत प्रभाव मिला था।

  • "Vision-to-Language क्षमता वाला एकमात्र AI मॉडल" जैसी अभिव्यक्ति पर सवाल उठाया गया कि क्या यह GPT-4 Vision या LLaVA से वास्तव में बहुत अलग है।

  • Falcon मॉडल उतना खुला नहीं है, यह बात फिर से उठाई गई। मूल Falcon भी benchmark नतीजों जितना प्रभावशाली प्रदर्शन नहीं करता था। इसे एक बड़ी छलांग बताकर पेश किया गया था, लेकिन प्रतिस्पर्धी मॉडलों से बेहतर महसूस नहीं हुआ, ऐसा कहा गया।

  • 11B मॉडल को उसी श्रेणी के 7B, 8B मॉडलों से बेहतर बताने वाला PR कुछ बढ़ा-चढ़ाकर किया गया लगता है। local inference के लिए इसे आजमाने की इच्छा है, लेकिन फिलहाल सहज निष्कर्ष यही है कि fine-tuned Llama 3 8B अभी सबसे अच्छा है।

  • अगर अधिकतर training public datasets पर हुई है और AWS hardware के साथ पहले से ज्ञात algorithms और techniques का इस्तेमाल किया गया है, तो सवाल उठता है कि यह उन दूसरे मॉडलों से अलग क्या है जिन्हें पैसा हो तो कोई भी train कर सकता है। प्रासंगिक बने रहने की कोशिश और सिर्फ "flex" करने जैसा, ऐसा संशयात्मक/आलोचनात्मक नजरिया भी सामने आया।

  • कहा जा रहा है कि Falcon 2 11B, Llama 3 8B से बेहतर है, लेकिन इसके parameters ज्यादा हैं, इसलिए यह निष्पक्ष तुलना नहीं है। सबसे अच्छा open source मॉडल Llama 3 70B लगता है, तो फिर शीर्ष मॉडल से बेहतर हुए बिना Llama 3 को पीछे छोड़ने का दावा क्यों किया जा रहा है, इस पर सवाल उठाया गया।