- Byte Latent Transformer (BLT) बाइट-लेवल बड़े भाषा मॉडल (LLM) के लिए एक नई आर्किटेक्चर है, जो tokenization-आधारित मॉडल के समान प्रदर्शन हासिल करते हुए inference efficiency और robustness को काफी बेहतर बनाती है
- बाइट्स को dynamic size के patch में encode किया जाता है, और patch मुख्य computation unit के रूप में काम करते हैं
- dynamic patch segmentation: अगले बाइट की entropy के आधार पर अधिक जटिल डेटा को ज्यादा compute resources आवंटित किए जाते हैं
- बाइट-आधारित मॉडल पर पहली FLOP-controlled scaling study:
- 8B (8 अरब) parameters, 4 ट्रिलियन (4T) training bytes तक scaling
- fixed vocabulary की जरूरत बिना raw bytes पर मॉडल training की संभावना की पुष्टि
प्रमुख परिणाम
- कुशल training और inference:
- जब डेटा predictable हो, तब लंबे patch चुने जाते हैं जिससे computation कम होता है
- मॉडल complexity के अनुसार patch को dynamically adjust करके resources को optimize करता है
- scaling में सुधार:
- fixed inference cost पर tokenization-आधारित मॉडल की तुलना में बेहतर प्रदर्शन
- patch size और model size को एक साथ बढ़ाकर scaling efficiency हासिल की गई
- qualitative performance में सुधार:
- reasoning और generalization क्षमता में सुधार: causal reasoning और sparse data (long-tail) handling में गुणात्मक सुधार
- fixed vocabulary-आधारित approach की सीमाओं को पार करता है
महत्व
- BLT tokenization के बिना raw bytes को process करते हुए भी, बड़े पैमाने के डेटा और मॉडल training की efficiency साबित करता है
- यह inference cost के मुकाबले बेहतर प्रदर्शन देता है और अगली पीढ़ी के byte-level LLM की संभावना दिखाता है
- खासकर जटिल डेटा को संभालते समय dynamic patch तरीका adaptive modeling के नए standard के रूप में स्थापित हो सकता है
1 टिप्पणियां
Hacker News राय
जब BERT रिलीज़ हुआ था उस गर्मियों में, मैं एक startup में काम कर रहा था जो classification tasks के लिए character-based CNN model इस्तेमाल करता था। टीम के लोग word vectors में रुचि रखते थे, लेकिन उनका मानना था कि out-of-vocabulary शब्द बहुत ज़्यादा होने के कारण यह असफल हो सकता है
hierarchy दिलचस्प है, लेकिन सिर्फ़ दो स्तर होना थोड़ा खटकता है। ज़्यादा स्तर जोड़ना research की दिशा हो सकती है
patch बनाने के लिए एक छोटा model input string के अगले character की संभावना का अनुमान लगाता है
sampling, LLMs का एक कठिन पहलू है, लेकिन यह दिलचस्प उपयोग संभव बनाता है, जैसे हमेशा valid JSON output कराने के लिए force करना या temperature बदलकर अलग-अलग distributions पाना
यह सवाल है कि क्या AI को binary files पर pretrain किया जा सकता है
यह सवाल भी है कि क्या tokenization को implicit बनाकर model को सिर्फ़ bytes (या characters) ही दिए जा सकते हैं
Karpathy का संबंधित उद्धरण: tokenization, LLMs की बहुत-सी अजीबताओं के केंद्र में है
यह 3 components वाला model है
bytes को group करने के तरीके
मौजूदा LLMs की byte pair tokenization की तुलना में इसके फ़ायदे हैं
मुझे लगा था कि अब हमें ठहराव के दौर में प्रवेश करना चाहिए