- LLM क्षेत्र में चर्चा की जाने वाली 10 प्रमुख चुनौतियाँ और आगे सीखने के लिए लिंक संग्रह
Hallucination को कम करना और मापना
- कंपनियों द्वारा LLM अपनाने में सबसे बड़ी बाधा Hallucination है
- Hallucination को कम करने और मापने के लिए metrics विकसित करना एक लोकप्रिय शोध विषय है, और कई startup इसी पर ध्यान दे रहे हैं
- Hallucination कम करने के लिए अस्थायी tips में prompt में context जोड़ना, Chain-Of-Thought, Self-Consistency, और मॉडल से संक्षिप्त उत्तर माँगना शामिल हैं
Context लंबाई और context composition का अनुकूलन
- अधिकांश प्रश्नों के लिए context की आवश्यकता होती है
- SituatedQA पेपर के अनुसार, information retrieval प्रश्नों का एक बड़ा हिस्सा context के अनुसार अलग उत्तर देता है (NQ-Open dataset का 16.5% इस श्रेणी में आता है)
- कंपनियों के use case में यह अनुपात कहीं अधिक हो सकता है (यदि यह customer support chatbot है, तो उस ग्राहक का इतिहास या उत्पाद की जानकारी context होगी)
- Context लंबाई RAG (Retrieval Augmented Generation) में विशेष रूप से महत्वपूर्ण है
- RAG दो चरणों में काम करता है
- Chunking (indexing): LLM में उपयोग होने वाले सभी दस्तावेज़ इकट्ठा करना। Embedding बनाना, उन्हें LLM में डालने के लिए chunks में विभाजित करना, और embeddings को vector DB में संग्रहीत करना
- Query: जब उपयोगकर्ता query भेजता है, तो LLM query को embedding में बदलता है। फिर vector database से embedding से सबसे मिलते-जुलते chunks लाए जाते हैं
- Context window जितनी लंबी होगी, उतने अधिक chunks डाले जा सकते हैं। यदि मॉडल के पास अधिक जानकारी होगी, तो क्या उत्तर बेहतर होंगे?
- हमेशा ऐसा नहीं होता। मॉडल द्वारा उपयोग किए गए context की मात्रा और वह context का कितनी दक्षता से उपयोग करता है, ये दो अलग प्रश्न हैं
- मॉडल की context लंबाई बढ़ाने के प्रयासों के साथ-साथ context को अधिक प्रभावी बनाने के प्रयास भी हो रहे हैं
- इसे prompt engineering या prompt construction कहा जाता है
- उदाहरण के लिए, हाल के एक पेपर में दिखाया गया कि मॉडल context के बीच की तुलना में शुरुआत या अंत की जानकारी को बेहतर समझता है
अन्य data modalities का एकीकरण
- Multimodality बहुत शक्तिशाली है, लेकिन अभी भी इसका पर्याप्त मूल्यांकन नहीं हुआ है
- इसके महत्वपूर्ण कारण
- चिकित्सा, robotics, e-commerce, retail, gaming, entertainment आदि में ऐसे use case हैं जहाँ विविध प्रकार के data संभालने पड़ते हैं
- चिकित्सा पूर्वानुमान के लिए text (doctor notes, questionnaires) और images (CT, X-Ray, MRI) दोनों की आवश्यकता होती है
- Product metadata में image, video, description और tabular data शामिल हो सकते हैं
- Multimodality मॉडल प्रदर्शन में बड़ा सुधार ला सकती है
- केवल text समझने वाले मॉडल की तुलना में text और image दोनों समझने वाला मॉडल बेहतर प्रदर्शन करता है
- Text-based मॉडल के लिए बहुत बड़े text data की आवश्यकता होती है, इसलिए यह चिंता भी है कि मॉडल training के लिए इंटरनेट पर उपलब्ध data जल्द समाप्त हो सकता है
- यदि text कम पड़ने लगे, तो अन्य data modalities का उपयोग करना होगा
- एक खास उम्मीद यह है कि multimodality के ज़रिए दृष्टिबाधित लोग इंटरनेट खोज सकेंगे और वास्तविक दुनिया को बेहतर तरीके से नेविगेट कर पाएँगे
LLM को अधिक तेज़ और सस्ता बनाना
- जब GPT-3.5 नवंबर 2022 में आया, तब कई लोग latency और production में उपयोग की लागत को लेकर चिंतित थे
- लेकिन latency/cost विश्लेषण उसके बाद काफी बदल चुका है
- छह महीने से भी कम समय में, community ने GPT-3.5 की memory footprint के सिर्फ 2% के साथ, प्रदर्शन के मामले में GPT-3.5 के बहुत करीब पहुँचने वाले मॉडल बनाने का तरीका खोज लिया
- मुख्य बात: यदि आप कुछ पर्याप्त अच्छा बना दें, तो लोग उसे तेज़ और सस्ता बनाने का तरीका ढूँढ़ ही लेते हैं
- 4 साल पहले मॉडल optimization/compression के लिए 4 प्रमुख तकनीकों का सार
- Quantization: मॉडल optimization की सबसे सामान्य विधि। Parameters को दर्शाने के लिए कम bits का उपयोग करके मॉडल का आकार घटाना। 32-bit floating point के बजाय 16-bit, यहाँ तक कि 4-bit का उपयोग
- Knowledge distillation: छोटे मॉडल (student) को बड़े मॉडल या models के ensemble (teacher) की नकल करने के लिए train करना
- Low-rank factorization: parameters की संख्या कम करने के लिए high-dimensional tensors को low-dimensional tensors से बदलना। उदाहरण के लिए, 3x3 tensor को 3x1 और 1x3 tensors के गुणनफल के रूप में विभाजित करना, ताकि 9 parameters के बजाय केवल 6 parameters रहें
- Pruning
- आज भी ये 4 तकनीकें प्रासंगिक और लोकप्रिय हैं। Alpaca ने knowledge distillation का उपयोग किया, और QLoRA ने low-rank factorization तथा quantization के संयोजन का उपयोग किया
नए model architecture डिज़ाइन करना
- 2012 के AlexNet के बाद LSTM, seq2seq जैसे कई architecture आए और चले गए
- इसके विपरीत, Transformer बेहद टिकाऊ साबित हुआ है। यह 2017 में आया था, और यह कब तक शीर्ष पर रहेगा, यह देखना दिलचस्प होगा
- Transformer को पीछे छोड़ने वाला नया architecture विकसित करना आसान नहीं है। पिछले 6 वर्षों में इसे बहुत अधिक optimize किया गया है
- नए architecture को उस scale पर प्रदर्शन करना होगा जो आज लोगों की रुचि के योग्य हो
- Transformer मूल रूप से TPU पर तेज़ चलने के लिए डिज़ाइन किया गया था, और बाद में GPU के लिए optimize किया गया
- 2021 में Chris Ré की लैब में S4 को लेकर काफी उत्साह था
हाल के समय में भी नए architecture में निवेश जारी है, और सबसे हाल में startup Together के साथ मिलकर Monarch Mixer architecture विकसित किया गया
GPU के विकल्प विकसित करना
- 2012 के AlexNet के बाद से GPU deep learning के लिए प्रमुख hardware रहा है
- AlexNet के लोकप्रिय होने का एक कारण यह भी था कि वह neural network training के लिए GPU का सफल उपयोग दिखाने वाला पहला पेपर था
GPU से पहले, AlexNet के पैमाने के मॉडल को train करने के लिए हज़ारों CPU की आवश्यकता होती थी
हज़ारों CPU की तुलना में 2 GPU PhD छात्रों और शोधकर्ताओं के लिए कहीं अधिक सुलभ थे, और इसी ने deep learning research boom को जन्म दिया
- पिछले 10 वर्षों में बड़ी कंपनियों, startup और कई अन्य संस्थाओं ने AI के लिए नया hardware बनाने की कोशिश की है
- सबसे प्रमुख उदाहरण हैं Google का TPU, Graphcore का IPU, और Cerebras
- SambaNova ने नए AI chip के विकास के लिए $1B से अधिक funding जुटाई थी, लेकिन बाद में generative AI platform की ओर pivot कर गया
- कुछ समय तक quantum computing को लेकर भी काफी उम्मीदें रहीं, और प्रमुख खिलाड़ी ये हैं
- IBM का QPU
- Google के quantum computer ने इस साल की शुरुआत में Nature में quantum error reduction पर एक महत्वपूर्ण milestone प्रकाशित किया। Quantum virtual machine को Google Colab के माध्यम से access किया जा सकता है
- MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory आदि
- एक और बेहद रोचक दिशा photonic chips है
- आज के chips data को स्थानांतरित करने के लिए electricity का उपयोग करते हैं, इसलिए वे बहुत ऊर्जा खर्च करते हैं और latency भी पैदा करते हैं
- Photonic chips data को स्थानांतरित करने के लिए photons का उपयोग करते हैं और तेज़ तथा अधिक कुशल computing के लिए प्रकाश की गति का लाभ उठाते हैं
- Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+) और Luminous Computing ($115M) सहित इस क्षेत्र के कई startups ने सैकड़ों मिलियन डॉलर की funding जुटाई है
Agents को सक्षम बनाना
- Agents ऐसे LLM हैं जो internet search, email भेजना, booking जैसी गतिविधियाँ कर सकते हैं
- इस लेख में बताए गए अन्य शोध दिशाओं की तुलना में यह सबसे शुरुआती क्षेत्रों में से एक है
- नवीनता और विशाल संभावनाओं के कारण agents को लेकर जबरदस्त उत्साह है
- Auto-GPT अब GitHub Star के आधार पर 25वाँ सबसे लोकप्रिय repo है
- GPT-Engineering भी एक और लोकप्रिय repository है
- इस उत्साह के बावजूद, अभी भी संदेह है कि क्या LLM इतने विश्वसनीय और सक्षम हैं कि उन्हें कार्रवाई करने का अधिकार सौंपा जा सके
- इस क्षेत्र का सबसे उल्लेखनीय startup Adept है
- इसकी स्थापना Transformer के 2 सह-लेखकों और OpenAI के पूर्व VP ने की, और अब तक यह लगभग $500M funding जुटा चुका है
Human Preference के माध्यम से learning में सुधार
- RLHF, यानी Reinforcement Learning from Human Preference, प्रभावशाली है लेकिन कुछ हद तक hacky भी है
यदि लोग LLM को train करने का इससे बेहतर तरीका खोज लें तो यह आश्चर्य की बात नहीं होगी। RLHF में अभी भी कई अनसुलझे प्रश्न हैं
- मानव preference को गणितीय रूप से कैसे व्यक्त किया जाए?
- अभी मानव preference का निर्धारण comparison के आधार पर होता है
- Human labelers यह तय करते हैं कि response A, response B से बेहतर है या नहीं, लेकिन response A, response B से कितना बेहतर है, इस पर विचार नहीं किया जाता
- मानव की पसंद क्या है?
- Anthropic ने model responses की गुणवत्ता को तीन axes पर मापा: helpfulness, honesty, और harmlessness
- DeepMind ऐसे responses बनाना चाहता है जो अधिकांश लोगों को पसंद आएँ
- क्या हम ऐसा AI चाहते हैं जो स्पष्ट रुख ले सके, या ऐसा साधारण AI जो संभावित विवादास्पद विषयों से बचता रहे?
- संस्कृति, धर्म, और राजनीतिक झुकाव जैसे अंतर देखते हुए, किसकी preference को "मानवीय" preference कहा जाए?
- ऐसे training data प्राप्त करने में बहुत कठिनाइयाँ हैं जो सभी संभावित उपयोगकर्ताओं का पर्याप्त प्रतिनिधित्व कर सके
उदाहरण के लिए, OpenAI के InstructGPT data में 65 वर्ष से अधिक आयु का कोई labeler नहीं था। Labelers मुख्यतः फिलीपींस और बांग्लादेश से थे
- Community-driven प्रयासों का इरादा अच्छा हो सकता है, लेकिन वे biased data की ओर ले जा सकते हैं
उदाहरण के लिए, OpenAssistant dataset में 222 उत्तरदाताओं में से 201 (90.5%) ने स्वयं को पुरुष बताया
Chat interface की दक्षता बढ़ाना
- ChatGPT के बाद यह चर्चा बार-बार हुई है कि क्या chat विभिन्न प्रकार के कामों के लिए उपयुक्त interface है
- यह कोई नई बहस नहीं है; एशिया में chat लगभग 10 वर्षों से superapp interface के रूप में उपयोग में रहा है
- व्यक्तिगत रूप से मुझे इन कारणों से chat interface पसंद है
- Chat ऐसा interface है जिसे लोग बहुत जल्दी सीख सकते हैं, यहाँ तक कि वे भी जिन्हें पहले कभी computer या internet का अनुभव न रहा हो
- Chat interface सुलभ है। यदि हाथ व्यस्त हों, तो text के बजाय voice का उपयोग किया जा सकता है
- Chat अविश्वसनीय रूप से शक्तिशाली interface है। आप कोई भी अनुरोध कर सकते हैं, और उत्तर अच्छा न हो तब भी यह किसी न किसी रूप में उत्तर देता है
- लेकिन अभी भी ऐसे क्षेत्र हैं जहाँ chat interface को बेहतर बनाया जा सकता है
- प्रति turn कई संदेश
- Multimodal input
- Workflow में generative AI का एकीकरण
- संदेशों का edit और delete
गैर-अंग्रेज़ी भाषाओं के लिए LLM बनाना
- अभी के English-first LLM प्रदर्शन, latency और speed के मामले में अन्य भाषाओं के लिए अच्छी तरह काम नहीं करते
- इस लेख के कुछ शुरुआती पाठकों का मानना था कि इस दिशा को शामिल नहीं करना चाहिए
- उनका कहना था कि यह शोध से अधिक logistics की समस्या है। यानी तरीका हमें पहले से पता है; बस पैसा और मेहनत लगानी है
लेकिन यह सही नहीं है। अधिकांश भाषाएँ resource-poor हैं। अंग्रेज़ी या चीनी की तुलना में उच्च-गुणवत्ता वाला data बहुत कम है, और बड़े मॉडल train करने के लिए अलग तकनीकों की आवश्यकता हो सकती है
- अधिक निराशावादी लोग यह भी कहते हैं कि भविष्य में कई भाषाएँ गायब हो जाएँगी, और internet अंग्रेज़ी तथा Mandarin की दो दुनियाओं में बँट जाएगा। Esperando याद है किसी को?
- Machine translation और chatbot जैसे AI tools का भाषा सीखने पर क्या प्रभाव होगा, यह अभी स्पष्ट नहीं है
क्या वे लोगों को नई भाषाएँ अधिक तेज़ी से सीखने में मदद करेंगे, या नई भाषा सीखने की आवश्यकता ही समाप्त कर देंगे?
1 टिप्पणियां
यह लेख लिखने वाले वही व्यक्ति हैं जिन्होंने O'Reilly की किताब Designing Machine Learning Systems लिखी है.
इसका अनुवादित संस्करण Hanbit Publishing से प्रकाशित हुआ है.
https://m.hanbit.co.kr/store/books/book_view.html?p_code=B1811121220