17 पॉइंट द्वारा GN⁺ 2024-12-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ModernBERT नवीनतम तकनीकों को लागू करने वाला एक नया encoder-only मॉडल है, जो BERT और उसके बाद के मॉडलों की तुलना में गति और सटीकता में बेहतर है
  • यह 8192 टोकन तक के लंबे context length को सपोर्ट करता है, और code data को शामिल करके train किया गया है
  • इसका उपयोग विभिन्न application क्षेत्रों में किया जा सकता है, खासकर बड़े पैमाने पर code search और नई IDE सुविधाओं के लिए यह उपयुक्त है

परिचय

  • BERT 2018 में जारी किया गया था और आज भी व्यापक रूप से उपयोग में है, खासकर search, classification और entity extraction के लिए यह उपयुक्त है।
  • ModernBERT, BERT का एक replacement मॉडल है, जो गति और सटीकता में Pareto improvement हासिल करता है।
  • लंबा context length और code data का समावेश नए application क्षेत्रों को खोलता है।

decoder-only मॉडल

  • GPT, Llama, Claude जैसे decoder-only मॉडल generative मॉडल हैं, जो इंसानों जैसी content generation कर सकते हैं।
  • लेकिन ये मॉडल बड़े, धीमे और महंगे होते हैं।
  • encoder-only मॉडल अधिक practical और efficient हैं, और कई कार्यों के लिए उपयुक्त हैं।

encoder-only मॉडल

  • encoder-only मॉडल input को numerical vector के रूप में बदलकर उसका representation बनाते हैं।
  • decoder-only मॉडल future tokens नहीं देख सकते, लेकिन encoder-only मॉडल tokens को bidirectional तरीके से देख सकते हैं, इसलिए वे अधिक efficient होते हैं।
  • encoder-only मॉडल कई application क्षेत्रों में उपयोग होते हैं, खासकर RAG pipeline और recommendation systems में इनका महत्व है।

प्रदर्शन अवलोकन

  • ModernBERT विभिन्न कार्यों में उच्च सटीकता दिखाता है, और DeBERTaV3 की तुलना में तेज़ है तथा कम memory इस्तेमाल करता है।
  • लंबे context inference में यह अन्य उच्च-गुणवत्ता वाले मॉडलों की तुलना में अधिकतम 3 गुना तेज़ है।
  • code search में यह असाधारण प्रदर्शन दिखाता है, जिससे नए applications विकसित करने की संभावनाएँ खुलती हैं।

दक्षता

  • ModernBERT व्यावहारिकता पर ज़ोर देता है, और विभिन्न input lengths पर तेज़ प्रदर्शन देता है।
  • लंबे context input में यह अन्य मॉडलों की तुलना में 2-3 गुना तेज़ है।
  • यह बड़े batch size का उपयोग कर सकता है, इसलिए छोटे GPU पर भी प्रभावी ढंग से इस्तेमाल किया जा सकता है।

ModernBERT की आधुनिकता

  • ModernBERT encoder मॉडलों में नवीनतम engineering लागू करके सुधार करता है।
  • यह Transformer++ architecture अपनाकर प्रदर्शन बेहतर बनाता है।
  • यह efficiency और आधुनिक data scale तथा sources पर ज़ोर देता है।

नया Transformer

  • ModernBERT, Transformer++ architecture अपनाकर प्रदर्शन में सुधार करता है।
  • यह positional encoding को बेहतर बनाने के लिए RoPE का उपयोग करता है, और MLP layer की जगह GeGLU layer का उपयोग करता है।
  • यह अनावश्यक bias terms हटाकर parameters के उपयोग को optimize करता है।

रेस ट्रैक के लिए Honda Civic अपग्रेड

  • ModernBERT गति को प्राथमिकता देता है, इसलिए इसे विभिन्न application क्षेत्रों में कुशलतापूर्वक इस्तेमाल किया जा सकता है।
  • यह Flash Attention 2 की speed improvements का उपयोग करके efficiency बढ़ाता है।
  • Alternating Attention, Unpadding, Sequence Packing के माध्यम से यह computation की बर्बादी कम करता है।

हार्डवेयर पर ध्यान

  • ModernBERT को hardware design को ध्यान में रखकर बनाया गया है, ताकि यह विभिन्न GPU पर सर्वोत्तम प्रदर्शन दे सके।
  • मॉडल को deep-and-narrow structure और hardware efficiency को ध्यान में रखकर डिज़ाइन किया गया है।

प्रशिक्षण

  • ModernBERT को विभिन्न स्रोतों के data पर train किया गया है, और इसमें 2 ट्रिलियन tokens का उपयोग हुआ है।
  • तीन चरणों वाली training प्रक्रिया के माध्यम से यह विभिन्न कार्यों में उत्कृष्ट प्रदर्शन दिखाता है।
  • शुरुआती training चरण में batch size warmup का उपयोग करके गति बढ़ाई गई है।

निष्कर्ष

  • ModernBERT नवीनतम तकनीकों को लागू करके encoder-only मॉडलों के प्रदर्शन को बेहतर बनाता है।
  • यह विभिन्न कार्यों में मज़बूत प्रदर्शन देता है, और इसका size/performance ratio आकर्षक है।
  • समुदाय के रचनात्मक उपयोग की उम्मीद की जा रही है, और demo के लिए एक contest भी चल रहा है।

1 टिप्पणियां

 
GN⁺ 2024-12-20
Hacker News की राय
  • Answer.AI के Jeremy को उम्मीद है कि नए मॉडल की रिलीज़ कई startup और projects की नींव बन सकती है
    • ब्लॉग पोस्ट में कही गई बातें सिर्फ़ हिमशैल का सिरा हैं, और मॉडल को अलग-अलग तरीकों से fine-tune करने के बहुत से अवसर हैं
  • encoder-only models हर महीने 1 अरब से अधिक downloads दर्ज करते हैं, जो decoder-only models से तीन गुना ज़्यादा हैं
    • इसका एक कारण यह भी है कि decoder users Hugging Face का उपयोग नहीं करते बल्कि API calls का उपयोग करते हैं, और encoder ज़्यादातर गंभीर ML applications के छिपे हुए नायक हैं
    • ranking, recommendation, RAG आदि करने के लिए encoder की ज़रूरत होती है, और आम तौर पर BERT, RoBERTa, ALBERT परिवार के models इस्तेमाल होते हैं
  • कुछ साल पहले जब BERT model को summarization जैसी चीज़ों में इस्तेमाल किया था, तो वह किसी चमत्कार जैसा लगा था
    • Ollama के इसे अपनी library में जोड़ने तक इंतज़ार करने की योजना है, और हाल में LLM की speed में हुआ सुधार प्रभावशाली है
    • Apple डेवलपर SDK में BERT models का समर्थन करता रहा है, और यह जानने की जिज्ञासा है कि वह नई तकनीक के साथ कितनी जल्दी update करेगा
  • पेपर पढ़कर local attention layers जोड़े जाने से प्रभावित हुआ
    • Lucidrains repository में कई सालों तक प्रयोग किया, और हैरानी है कि यह उससे आगे नहीं बढ़ा
    • inference speed शानदार है, और NSP हटाने, masking बढ़ाने, RoPE और long context जैसे कई सुधार किए गए हैं
    • "ModernTinyBERT" बनाना चाहता हूँ, लेकिन layers बहुत जटिल रूप से उलझी हुई हैं, इसलिए मुश्किल है
  • यह जानने की जिज्ञासा है कि BERT models इस समय कहाँ इस्तेमाल हो रहे हैं
    • समझ यह थी कि कुछ खास tasks में ये LLM से बेहतर विकल्प हैं, और bidirectional तरीके से context को बेहतर समझ सकते हैं
    • लेकिन LLM भी शक्तिशाली हैं, इसलिए अंतर बहुत मामूली हो सकता है
  • यह जानने की जिज्ञासा है कि क्या मॉडल को SentenceTransformers के साथ fine-tune किया जा सकता है
    • ColBERT benchmark में शामिल है, और यह भी जिज्ञासा है कि क्या answerai-colbert-small-v2 जल्द जारी होने वाला है
  • यह जानने की जिज्ञासा है कि क्या किसी ने ModernBERT के लिए RAG evaluation देखा है
  • Answer.ai टीम आज शानदार काम कर रही है, और Jeremy व टीम की सराहना की गई कि उन्होंने बहुत अच्छा किया
  • यह जानने की जिज्ञासा है कि क्या मॉडल सिर्फ़ अंग्रेज़ी को support करता है, और क्या multilingual model या दूसरी भाषाओं के monolingual models प्रकाशित करने की योजना है
  • यह अफ़सोस जताया गया कि मॉडल का नाम ERNIE नहीं रखा गया; यह एक चूका हुआ अवसर था