1 पॉइंट द्वारा GN⁺ 2023-12-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

NLP पेपर पढ़ने का कलेक्शन

  • प्राकृतिक भाषा प्रसंस्करण (NLP) से संबंधित पेपर पढ़ने का यह कलेक्शन 22 आइटम्स से बना है.
  • यह कलेक्शन हाल ही में अपडेट किया गया है, और NLP क्षेत्र के नवीनतम शोध रुझानों को समझने में उपयोगी है.
  • NLP वह तकनीक है जो कंप्यूटर को मानव भाषा को समझने और प्रोसेस करने में सक्षम बनाती है, और इसके मशीन अनुवाद, भावना विश्लेषण, प्रश्न-उत्तर सिस्टम जैसी कई एप्लिकेशन हैं.

GN⁺ की राय

  • यह कलेक्शन NLP क्षेत्र के नवीनतम शोध को एक नज़र में देखने लायक संसाधन है, और NLP में रुचि रखने वाले शोधकर्ताओं या डेवलपर्स के लिए बहुत उपयोगी होगा.
  • NLP, AI तकनीकों में विशेष रूप से तेज़ी से विकसित होने वाला क्षेत्र है, और इस कलेक्शन के माध्यम से नवीनतम ट्रेंड्स और अभिनव आइडियाज़ देखे जा सकते हैं.
  • प्राकृतिक भाषा प्रसंस्करण तकनीक हमारे रोज़मर्रा के जीवन में गहराई से एकीकृत हो चुकी है, और इस कलेक्शन के ज़रिए इसके विकास की दिशा और भविष्य की संभावनाओं की झलक मिल सकती है.

1 टिप्पणियां

 
GN⁺ 2023-12-22
Hacker News राय
  • इस पेपर को समझने में मुझे समय लगा, क्योंकि यह 'Deja Vu' पेपर की तकनीकों पर आधारित है और sparsity का उपयोग करने वाली जटिल तकनीकों से जुड़ा है:

    • 'Deja Vu' पेपर यह देखता है कि कम weight sparsity वाले models में उच्च "contextual sparsity" होती है। यानी matrix multiplication input के आधार पर अलग-अलग स्थानों पर बहुत सारे 0 वाले vectors बनाती है।
    • पेपर बताता है कि इस sparsity का उपयोग करके matrix की कुछ rows को लोड करने से बचा जा सकता है।
    • लेकिन अच्छा performance gain पाने के लिए पहले से यह predict कर पाना ज़रूरी है कि किन rows को skip किया जाएगा। यह low-dimensional matrix से संभव है।
    • Apple का पेपर सुझाव देता है कि यह खोज सिर्फ RAM से लोड करने की performance नहीं बढ़ाती, बल्कि flash memory से लोड करना भी bandwidth से समझौता किए बिना संभव बनाती है:
      • ध्यान देने वाली बात यह है कि पेपर के अनुसार attention matrix हल्की है, और feedforward network (FFN) को sparsely लोड करना महत्वपूर्ण है।
      • पेपर बताता है कि ReLU layer के output का अनुमान लगाना, FFN के input का अनुमान लगाने की तुलना में, कहीं बेहतर sparsity दे सकता है। यानी, "अगर matmul के बाद यह predict किया जा सके कि ReLU से पहले इस vector slot में negative value होगी, तो उस matrix column को लोड किए बिना 0 output किया जा सकता है।"
      • पेपर सुझाव देता है कि ज़्यादातर FFN rows को बिल्कुल भी लोड करने की ज़रूरत नहीं होती, और हर FFN के लिए हाल ही में उपयोग की गई FFN rows का cache रखा जा सकता है, जिसे ज़रूरत पड़ने पर flash memory से update किया जा सकता है।
    • पेपर में chunk loading और projection layers के बीच correlation पर भी बात है, लेकिन मुख्य insight ऊपर बताई गई बात ही है।
  • मैंने पेपर के निष्कर्ष वाले हिस्से में यह खोजने की उम्मीद की थी कि यह capability users को कैसे दी जाएगी, लेकिन शायद वह चर्चा इसके दायरे से बाहर थी।

    • मैं यह जानना चाहता हूँ कि क्या ऐसी capability CoreML के API call और settings के रूप में users को मिलेगी, जैसे कोई use_flash flag सेट करना पड़े, या फिर यह user के लिए transparent runtime optimization होगी। मैं यह भी जानना चाहूँगा कि क्या Apple के CoreML, Metal आदि के developer roadmap पर कोई अच्छा talk या presentation है।
  • मुझे जिज्ञासा है कि model के कितने हिस्से को लोड न करने पर वास्तव में performance में फ़र्क दिखना शुरू होता है।

    • उदाहरण के लिए, अगर आप RAM पर मिलने वाली performance का 90% बनाए रखना चाहते हैं, तो क्या आधी memory ही काफ़ी होगी, या फिर 90% या 95% memory चाहिए होगी?
    • RAM घटाने से peak performance की तुलना में performance loss कितनी जल्दी बढ़ता है, इसे लेकर जिज्ञासा है। chart कम RAM इस्तेमाल करने पर baseline algorithm से तुलना करता है, लेकिन वह एक अलग (हालाँकि अच्छा!) सवाल है।
    • अगर पूरे 8GB model को phone memory में लोड किए बिना भी अच्छी performance मिल सकती है, तो यह निश्चित रूप से बहुत उपयोगी होगा।
  • यह ध्यान देने लायक है कि Apple devices में प्रतिस्पर्धियों के समान devices की तुलना में RAM बहुत कम होती है।

    • इसकी एक वजह यह भी है कि Apple की software team Objective-C जैसी ज़्यादा efficient language इस्तेमाल करती है, और iOS applications को कई तरह की screen resolutions को target नहीं करना पड़ता, इसलिए high-resolution textures को लोड करके बाद में downscale करने की ज़रूरत कम पड़ती है।
    • साथ ही, Apple के scale पर RAM खरीदने से RAM की कीमत बहुत कम नहीं हो जाती, इसलिए RAM बढ़ाने का असर margins पर, किसी और feature को जोड़ने की तुलना में, ज़्यादा पड़ता है।
    • लेकिन बड़े language models (LLM) का उपयोग करते समय यह सब समस्या बन जाता है, क्योंकि वे स्वाभाविक रूप से RAM-heavy होते हैं। और memory बचाने वाली कोई भी तकनीक, ज़्यादा RAM वाले competitor द्वारा और बड़े तथा बेहतर models लागू करने में इस्तेमाल की जा सकती है।
  • इस विषय पर मेरी समझ सीमित है, लेकिन मैं सोच रहा हूँ कि क्या इस तकनीक से mobile phone पर offline mode में LLM चलाया जा सकता है।

    • अगर ऐसा संभव हो, तो इससे AI-assisted content moderation जैसे कई दिलचस्प applications संभव हो सकते हैं, बिना confidential data को बाहर भेजे।
  • मैं इस बात की सराहना करता हूँ कि हाल के articles "AI" की जगह "LLM" कह रहे हैं।

    • इससे पता चलता है कि बात marketing hype की नहीं बल्कि किसी ठोस तकनीक की हो रही है।
  • यह थोड़ा हैरान करने वाला है कि इस पेपर में FlashAttention का ज़िक्र नहीं है।

    • चूँकि दोनों शोध flash memory का उपयोग करते हैं, इसलिए कम से कम इसका उल्लेख होना चाहिए था।
  • क्या Apple ने कोई Iranian company खरीद ली है?

  • उदाहरण के लिए, कहा जाता है कि OPT 6.7B model, FFN layers के भीतर 97% sparsity दिखाता है।

    • मैं जानना चाहता हूँ कि यहाँ बताई गई metric का ठीक-ठीक मतलब क्या है। क्या इसका मतलब है कि layer में 97% values 0 हैं, या यह कि उसके आकार को 3% तक compress किया जा सकता है?
  • मुझे उम्मीद है कि यह तकनीक llama.cpp और candle में integrate की जाएगी।

    • इस तरह की प्रगति सचमुच चौंकाने वाली है, और उम्मीद है कि किसी दिन यह इन libraries पर भी लागू होगी।