TII ने Llama 3 8B से आगे निकली Falcon 2 AI मॉडल सीरीज़ पेश की

(tii.ae)

2 पॉइंट द्वारा GN⁺ 2024-05-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Abu Dhabi के TII ने Falcon 2 सीरीज़ पेश की है, जिसमें open source LLM प्रतिस्पर्धा में multilingual और multimodal मॉडल को प्रमुखता दी गई है
Falcon 2 11B 5.5 ट्रिलियन tokens पर प्रशिक्षित 11 बिलियन parameters वाला मॉडल है, जिसने Hugging Face leaderboard पर Meta Llama 3 8B को पीछे छोड़ा
Falcon 2 11B VLM TII का पहला multimodal मॉडल है, जो visual input को text में बदलता है, और image interpretation को कई industries में लागू किया जा सकता है
दोनों मॉडल open source के रूप में उपलब्ध हैं और TII Falcon License 2.0 का पालन करते हैं; इन्हें developers के लिए हल्के infrastructure पर deploy और integrate करना आसान बनाने के लिए design किया गया है
TII Falcon 2 को कई sizes में expand करने और performance व response quality बढ़ाने के लिए Mixture of Experts पर विचार कर रहा है

Falcon 2 की घोषणा और मॉडल संरचना

Technology Innovation Institute, Abu Dhabi के Advanced Technology Research Council के तहत एक applied research संगठन है, जिसने 13 मई 2024 को large language model Falcon 2 लॉन्च किया
यह सीरीज़ दो models से बनी है
- Falcon 2 11B: 5.5 ट्रिलियन tokens पर प्रशिक्षित 11 बिलियन parameters वाला LLM
- Falcon 2 11B VLM: visual input को text output में बदलने वाला vision-to-language model
दोनों मॉडल multilingual support करते हैं, और Falcon 2 11B VLM TII का पहला multimodal मॉडल है
TII Falcon 2 11B VLM को वर्तमान top-tier market में image-to-text conversion capability वाला इकलौता मॉडल बताता है

Performance comparison और उपयोग का दायरा

Falcon 2 11B की तुलना Hugging Face के open LLM evaluation leaderboard पर pretrained models के साथ की गई
- इसने Meta Llama 3 8B से बेहतर performance दर्ज की
- Google Gemma 7B के लगभग बराबर score के साथ शीर्ष श्रेणी में रहा
- Scores Falcon 2 11B 64.28 और Gemma 7B 64.29 के स्तर पर हैं
Falcon 2 11B model English, French, Spanish, German, Portuguese और कई भाषाओं के tasks संभालता है
Falcon 2 11B VLM images और आसपास के environment के visual materials की पहचान और interpretation कर सकता है
- Applications के रूप में healthcare, finance, e-commerce, education और legal क्षेत्रों का उल्लेख किया गया है
- Document management, digital archiving, context indexing और visually impaired लोगों की सहायता जैसे use cases भी शामिल हैं

Release model और अगली योजनाएं

Falcon 2 11B और Falcon 2 11B VLM दोनों open source के रूप में उपलब्ध हैं, ताकि developers इन्हें access कर सकें
बताया गया है कि दोनों मॉडल एक GPU पर भी efficient तरीके से चल सकते हैं, इसलिए laptops और अन्य devices जैसे हल्के infrastructure पर इन्हें deploy और integrate करना आसान है
Falcon 2 11B, Apache 2.0 आधारित permissive software license TII Falcon License 2.0 के तहत उपलब्ध है
- इसमें responsible AI use को प्रोत्साहित करने वाली acceptable use policy शामिल है
TII भविष्य में next-generation Falcon 2 models के sizes में विविधता लाने और Mixture of Experts अपनाने पर विचार कर रहा है
- Mixture of Experts ऐसा तरीका है जिसमें अलग-अलग expertise वाले छोटे networks को जोड़कर अधिक refined और customized responses बनाए जाते हैं
- TII का मानना है कि यह approach accuracy बढ़ा सकती है और decision-making को तेज कर सकती है
नए models की जानकारी FalconLLM.TII.ae पर देखी जा सकती है

1 टिप्पणियां

GN⁺ 2024-05-14

Hacker News टिप्पणियाँ

बेंचमार्क नतीजे मोटे तौर पर Mistral 7B और Llama 3 8B जैसे ही लगते हैं, लेकिन मॉडल का आकार बड़ा होने को देखते हुए यह इतना प्रभावशाली नहीं लगता
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- सही है। Falcon-180b को भी शुरुआत में बहुत बढ़ा-चढ़ाकर बताया गया था, लेकिन कम्युनिटी ने जल्द ही समझ लिया कि वह लगभग बेकार है, और आम इस्तेमाल में छोटे बड़े language models उसे आसानी से हरा देते थे
  इस बार दावा किया जा रहा है कि falcon-11b, Llama 3 8b से बेहतर है, लेकिन इसमें पहले से ही कई समस्याएँ दिख रही हैं। falcon-11b, Llama 3 8b से लगभग 40% बड़ा है, इसलिए इन्हें एक ही size class में तुलना करना मुश्किल है, और यह दावा automated benchmarks पर टिका है, जबकि सिर्फ automated benchmarks के आधार पर ऐसा निष्कर्ष निकालना काफी समय से अपर्याप्त माना जाता रहा है
  कुछ automated benchmark स्कोर Llama 3 8b से काफी नीचे हैं, और केवल एक benchmark में यह बस थोड़ा आगे निकलता है। किसी एक benchmark में ऑल-टाइम बेस्ट जैसा दिखना संभव है, लेकिन इसका यह मतलब बिल्कुल नहीं कि मॉडल अच्छा है
  human evaluation बिल्कुल नहीं है, फिर भी जानबूझकर जल्दबाज़ी वाला दावा करने वाला clickbait शीर्षक इस्तेमाल किया गया है, और Llama 3 से बेहतर कहकर Llama 3 70b को पूरी तरह नज़रअंदाज़ किया गया है
  सच कहूँ तो, tiiuae से कुछ उपयोगी निकले बिना भी इस तरह के भ्रामक clickbait से बार-बार इतना ध्यान पाना झुंझलाहट पैदा करता है
- लगता है इनके लगभग सभी मॉडल ऐसे ही हैं। आकार सचमुच बहुत बड़ा होता है, लेकिन लगाई गई मेहनत के मुकाबले वास्तविक performance improvement नहीं मिलता
  refined web dataset पर बहुत कड़ी सेंसरशिप की गई है, इसलिए उसका असर भी हो सकता है। नैतिक रूप से यह बहुत conservative है, इसलिए porn और कई विषयों को पूरी तरह बाहर कर देता है
  इसलिए अगर बहुत ज़्यादा content फ़िल्टर करना और वही-जैसी चीज़ें ज़्यादा डालना कुछ समस्याओं की वजह हो, तो हैरानी नहीं होगी
- हो सकता है तुलना के metrics सही न हों
  मॉडल बड़ा है, यह सच है, लेकिन training के लिए Llama 3 की तुलना में कम tokens की ज़रूरत पड़ी थी। समस्या यह है कि public dataset न हो तो ठीक से तुलना करना और reproduce करना मुश्किल हो जाता है
  यह समझना कठिन है कि वजह model architecture है, dataset quality है, model size है, इनका combination है, या कुछ और
लाइसेंस अच्छा नहीं है: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
यह अतिरिक्त शर्तों वाला modified Apache 2 license है, और इसमें acceptable use policy का पालन करने की शर्त शामिल है: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
लेकिन उस modified Apache 2 license में यह भी लिखा है कि “acceptable use policy समय-समय पर अपडेट की जा सकती है, और hosted web address को मॉनिटर करना होगा ताकि यह सुनिश्चित किया जा सके कि work या derivative works का उपयोग अपडेट की गई policy के अनुरूप है”
मौजूदा acceptable use policy चाहे जैसी भी हो, वे आगे चलकर उसे अपनी इच्छा से बदलने का अधिकार अपने पास रखते हैं, और users को नई policy माननी होगी
यह अच्छी तरह दिखाता है कि मुझे उस प्रवृत्ति से नफ़रत क्यों है जिसमें ऐसे licenses को, जबकि वे OSI definition के अनुरूप नहीं हैं, open source कहा जाता है
- मूल रूप से इसका मतलब है कि किसी भी गैर-तुच्छ उपयोग के लिए इसे कभी इस्तेमाल नहीं किया जा सकता। वे बिना सूचना दिए किसी भी समय किसी use case पर रोक लगा सकते हैं
- “वे आगे चलकर उसे अपनी इच्छा से बदलने का अधिकार अपने पास रखते हैं, और users को नई policy माननी होगी” — यह बात अदालत में वास्तव में टिकेगी या नहीं, यह जानने की सचमुच जिज्ञासा है। इससे जुड़े कोई case law या precedents हों तो जानना चाहूँगा
- इस तरह की license trickery पहली बार नहीं है। Falcon 1 के समय भी ऐसा हुआ था। कोशिश की सराहना है, लेकिन ऐसा लगता है कि वे अभी भी monetization करना है या नहीं, और कैसे करना है, यह खोज रहे हैं
- 40b मॉडल शुद्ध Apache लाइसेंस वाला लगता है
इसमें यह पंक्ति है: “नया Falcon 2 11B, Meta के Llama 3 8B से बेहतर है और अग्रणी Google Gemma 7B मॉडल के बराबर performance देता है”, लेकिन मुझे काफ़ी पक्का लगता था कि Llama 3 8B लगभग हर metric पर Gemma 7B से आगे है
- यहाँ यह देखना चाहिए कि तुलना chat-tuned models की नहीं बल्कि base models की है। क्योंकि फिलहाल Falcon-11B का कोई chat-tuned model नहीं है। Meta का chat tuning, Gemma के chat tuning से बेहतर लगता है
  फिर भी Gemma 1.1 chat model, जितना मैंने इस्तेमाल किया है, काफ़ी ठीक लगा, और मुझे लगता है कि Llama3 8B chat model साफ़ तौर पर बेहतर है
  CodeGemma 1.1 7B संबंधित coding models की तुलना में खास तौर पर कम आंका गया है। base CodeGemma 7B model code completion में उन मॉडलों में से एक था जो मैंने टेस्ट किए हुए सबसे अच्छे थे, और chat model भी code writing में मेरे द्वारा टेस्ट किए गए बेहतर मॉडलों में था
  दूसरे मॉडल benchmarks को बेहतर तरीके से target करते दिखते हैं, लेकिन वास्तविक उपयोग में वे CodeGemma जितना टिक नहीं पाए। CodeLlama3 कैसा आएगा, यह देखने की उत्सुकता है, लेकिन वह अभी मौजूद नहीं है
- यह भले ही anecdotal हो, लेकिन मेरे अनुभव में Gemma पूरी तरह बेकार है और Llama 3 8b अपने आकार के हिसाब से असाधारण रूप से अच्छा है। Gemma के Llama 3 से आगे होने का विचार अजीब लगता है। अगर कुछ benchmarks में Gemma आगे है, तो शायद कहीं contamination जैसी समस्या हो सकती है
- मुझे भी यह बात अजीब लगी
  आजकल मैं benchmarks पर ज़्यादा नज़र नहीं रखता, क्योंकि मैं पूरी तरह basketball पर ध्यान दे रहा हूँ
  वैसे सच कहूँ तो मैं Lebron से थोड़ा बेहतर हूँ। Lebron मेरी तीन साल की बेटी से भी बहुत खराब है, और मैं कभी-कभी अपनी बेटी को हरा देता हूँ। basketball में
आह, मुझे लगा यह Spectrum Holobyte के Falcon AT के बारे में पोस्ट है। MyAbandonware.com के अनुसार:
“असल में यह Falcon 2 ही है, लेकिन किसी तरह अलग तरीके से मार्केट किया गया Falcon AT, Spectrum Holobyte की क्रांतिकारी हार्डकोर फ्लाइट सिमुलेशन Falcon सीरीज़ की दूसरी रिलीज़ है। आम धारणा के उलट कि Falcon 3.0 ने आधुनिक फ्लाइट सिमुलेशन की शुरुआत की, Falcon AT पहले ही मूल Falcon से काफी आगे बढ़ चुका था, जिसमें साफ़ EGA graphics, कई यथार्थवादी options, और काफ़ी विस्तृत campaign था। यह गेम एक आधुनिक हवाई-युद्ध simulation है, जिसमें शानदार tutorials, विविध missions, और सटीक flight dynamics हैं, जिन्हें Falcon fans जानते और पसंद करते हैं। इसकी कई innovations में hotseat और modem के ज़रिए आश्चर्यजनक रूप से खेलने योग्य multiplayer options भी शामिल हैं। आज यह ज़्यादातर भुला दिया गया है, लेकिन Falcon AT, Falcon और Falcon 3.0 के बीच के उस मुश्किल से समझ आने वाले अंतर को समझाता है”
- लगता है नए products के नाम classic computer games से लेने का एक ट्रेंड है। हो सकता है यह जानबूझकर न हो। अभी यहीं Loom नाम के एक system पर भी पोस्ट थी, लेकिन वह classic adventure game नहीं था। लगता है कोई कभी कोई large language model या networking software लॉन्च करेगा और उसका नाम Zork रख देगा
- अभी main page पर “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662> भी है, इसलिए इसी तरह सोचने के लिए associative priming भी थोड़ा ज़िम्मेदार है
मुझे समझ नहीं आता कि “vision-language capabilities वाला इकलौता AI model” का मतलब क्या है। क्या यह लगभग वही नहीं है जो GPT-4 Vision और LLaVA करते हैं?
- पहले तो मुझे लगा यह मतलब को मोड़कर किया गया कोई मज़ाक है
  शायद उनका मतलब यह हो कि LLaVA एक language-vision model है, लेकिन उस तरह समझने पर भी बात बनती नहीं थी
  हो सकता है वे बस झूठ बोल रहे हों
- Claude models भी सब इस category में आते हैं
open models का स्वागत है, लेकिन जैसा यहाँ भी बताया गया, Falcon models उतने open नहीं हैं। मूल Falcon भी benchmark numbers जितना अच्छा चलता नहीं था। इसे बड़ी प्रगति की तरह पेश किया गया था, लेकिन launch के समय यह competing open models से आगे लगता नहीं था
11B model के “same class” वाले 7B और 8B models से बेहतर होने का marketing claim थोड़ा ज़बरदस्ती जैसा लगता है। मैं देखूँगा, लेकिन local inference के लिए इसे ज़रूर एक बार आज़माने का सोच रहा हूँ। फिर भी मेरा अंदाज़ा है कि एक fine-tuned llama 3 8B इस हफ़्ते की स्थिति में शायद अपनी class में सबसे अच्छा होगा
- मैंने भी देखा था कि मूल Falcon का performance benchmark numbers जितना नहीं निकलता था। लगता है parameter-to-token के हिसाब से इसकी training कम थी। शायद वे बस 40B parameter model रखना चाहते थे, और यह Chinchilla-optimal से पहले वाले तरीके के ज़्यादा क़रीब था
यह याद दिलाना कि AI सिर्फ़ उन लोकतांत्रिक देशों में नहीं इस्तेमाल होगा जो कम से कम कुछ हद तक ethical oversight की कोशिश करते हैं, बल्कि सबसे बुरे dictators के लिए भी होगा, सच में डरावना है
- MBZ, MBS नहीं है, और Saudi Arabia और UAE अलग-अलग देश हैं। MBZ दुनिया के सबसे लोकप्रिय नेताओं में से एक है, और उसके नागरिक सबसे अमीर लोगों में गिने जाते हैं
  उसका देश उन कुछ विकसित देशों में है जिनकी economy अब भी लगातार बढ़ रही है, और दुनिया की सबसे खुली immigration policies में से एक होने के बावजूद, पूर्वी एशिया के बाहर सबसे सुरक्षित देशों में भी शामिल है
  सबसे बुरे dictator से ज़्यादा, वह सबसे अच्छे dictator के उम्मीदवार के कहीं ज़्यादा क़रीब है
मैं एक बात समझना चाहता हूँ। क्या यह model ज़्यादातर public datasets पर train नहीं किया गया, AWS hardware इस्तेमाल नहीं किया गया, और well-known algorithms और techniques का उपयोग नहीं किया गया? अगर पैसा हो तो कोई भी train कर सके, ऐसे दूसरे models से यह अलग कैसे है?
मेरी skeptical, लगभग anti नज़र से देखें तो यह बस show-off और relevant दिखने की कोशिश लगता है। क्या ऐसी कोशिशों में मैं कुछ और मिस कर रहा हूँ?
- बहुत से models इस category में आते हैं। sovereignty का कुछ न कुछ value होता है, चाहे वह किसी nation-state के लिए हो या company के लिए। competition का ख़तरा भी सबके लिए अच्छी बात है
  भले ही final result ज़्यादातर ख़ास दिलचस्प न हो, फिर भी अच्छा है कि कुछ लोग यह काम कर रहे हैं
एक पल के लिए मुझे लगा यह classic flight simulation से जुड़ा हुआ है:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX के पास Falcon 1 और Falcon 9 rockets भी हैं, और एक प्रस्तावित लेकिन कभी विकसित न हुआ Falcon 5 भी था
UAE, ज़रा subtle तो बनो — article का bias हद से ज़्यादा है। “llama 3 को हराया” एक संदिग्ध रूप से बेकार summary है, और “vision-language capabilities वाला इकलौता AI model” वाला हिस्सा तो बस हैरान करने वाला है

TII ने Llama 3 8B से आगे निकली Falcon 2 AI मॉडल सीरीज़ पेश की

Falcon 2 की घोषणा और मॉडल संरचना

Performance comparison और उपयोग का दायरा

Release model और अगली योजनाएं

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ