LLM के लिए Stable Diffusion जैसा क्षण आ रहा है

xguru · 2023-03-13T11:40:39+09:00

अगस्त 2022 में Stable Diffuion(SD) का सार्वजनिक होना एक महत्वपूर्ण क्षण था, और इसकी वजह से विस्फोटक नवाचार आज तक जारी है हाल में ControlNet ने फीचर्स के मामले में MidJourney और DALL-E को पीछे छोड़ दिया है SD के सार्वजनिक होने से generative AI के प्रति नई रुचि पैदा हुई, और नवंबर में ChatGPT के लॉन्च ने उस लहर को और तेज कर दिया ऐसा SD moment अब बड़े language models (LLM) के लिए भी आ रहा है अब GPT-3 स्तर के language model को personal laptop पर चलाना संभव है LLaMA GPT-3 जैसे LLM को image generation model की तुलना में बनाना और चलाना कहीं अधिक महंगा पड़ता है सबसे अच्छे मॉडल OpenAI जैसी कंपनियों द्वारा बनाए गए हैं और API के जरिए उपलब्ध हैं, लेकिन उन्हें सीधे चलाने योग्य रूप में सार्वजनिक नहीं किया गया मॉडल स्वयं भी इतने बड़े हैं कि GPT-3 मॉडल मिल भी जाए तो commercial hardware पर चलाना संभव नहीं है (इसके लिए कई A100-स्तर के GPU चाहिए, जिनकी कीमत प्रति यूनिट $8000 से अधिक है) पिछले कुछ वर्षों में कई language model सार्वजनिक हुए हैं, लेकिन उनमें से अधिकांश सीधे चलाने के लिए उपयुक्त नहीं हैं Facebook के LLaMA मॉडल और LLama.cpp की बदौलत सब कुछ बदल गया LLaMA पूरी तरह open नहीं है। मॉडल तक पहुंचने के लिए कुछ सख्त शर्तों से सहमत होना पड़ता है किसी ने torrent से डाउनलोड किए जा सकने वाले एक अनौपचारिक PR को अपलोड कर दिया, जिससे डाउनलोड संभव हो गया llama.cpp अगर LLaMA को personal laptop पर चलाना मुश्किल हो, तो इसकी उपयोगिता बहुत कम रह जाती है Bulgaria के Georgi Gerganov ने पहले OpenAI के speech recognition model Whisper का C++ port, Whisper.cpp बनाया था उन्होंने LLaMA के लिए भी वही काम किया लक्ष्य था 4-bit quantization (मॉडल का आकार घटाकर उसे धीमे hardware पर भी चलाने की तकनीक) का उपयोग करके इसे MacBook पर चलाना उन्होंने 7B मॉडल को 4GB तक और 13B मॉडल को 8GB से कम तक छोटा कर दिया यह MacBook पर बहुत अच्छी तरह चलता है Facebook जिस 13B मॉडल को GPT-3 के मुकाबले का बताता है, वह अब laptop पर चलाया जा सकता है laptop पर जनरेट होते टेक्स्ट को देखकर ऐसा लगा जैसे दुनिया फिर बदल रही हो मुझे लगा था कि GPT-3 स्तर के मॉडल को अपने पास मौजूद hardware पर चलाने के लिए मुझे कई साल इंतजार करना होगा, लेकिन मैं गलत था। "भविष्य पहले ही यहां आ चुका है" क्या यह सबसे खराब स्थिति हो सकती है? यह किसी SF जैसी स्थिति की चिंता नहीं है। laptop पर चलने वाला LLM कोई "दुनिया पर राज करने वाला AGI" भी नहीं है लेकिन इस तकनीक के बुरे इस्तेमाल के कई तरीके हो सकते हैं spam generation, automated romance scams, trolling और hate speech, fake news और misinformation, automated radicalization इस क्षण से पहले OpenAI जैसी कंपनियों के पास एक पतली-सी सुरक्षा परत थी, जैसे कि लोग इन मॉडलों के साथ कैसे interact करें, इसे नियंत्रित करना लेकिन अब जब इन्हें अपने-अपने hardware पर चलाया जा सकता है, तो इस तरह की नियंत्रण-व्यवस्था ही खत्म हो जाती है इसका अच्छे उद्देश्य के लिए उपयोग कैसे किया जाए? मेरा मानना है कि इसका समाज पर बड़ा प्रभाव पड़ेगा। मेरी प्राथमिकता इस प्रभाव को सकारात्मक दिशा में ले जाना है generative AI को हानिकारक या समय बर्बाद करने वाला मानने वाली निंदक सोच में फंसना आसान है मैं व्यक्तिगत रूप से हर दिन generative AI tools का उपयोग करता हूं। इससे मेरी ठोस उत्पादकता बढ़ी है, और इससे भी महत्वपूर्ण बात यह है कि इसने मेरे प्रोजेक्ट्स के लिए मेरी महत्वाकांक्षा को बढ़ाया है पिछले सप्ताह मैंने ChatGPT की मदद से एक नए प्रोजेक्ट के लिए जरूरी AppleScript सिर्फ एक घंटे में सीख ली मैं इस तकनीक के सकारात्मक उपयोगों को आगे भी खोजता और साझा करता रहूंगा आगे क्या देखना चाहिए अगर Facebook अपनी license शर्तों को ढीला नहीं करता, तो LLaMA शायद केवल इस बात का PoC बनकर रह जाएगा कि ऐसे मॉडल consumer hardware पर चल सकते हैं अब लोगों के बीच अपने डिवाइस पर ChatGPT जैसी क्षमता देने वाले पूरी तरह open language model को रिलीज़ करने की होड़ शुरू हो चुकी है

(simonwillison.net)

37 पॉइंट द्वारा xguru 2023-03-13 | 3 टिप्पणियां | WhatsApp पर शेयर करें

अगस्त 2022 में Stable Diffuion(SD) का सार्वजनिक होना एक महत्वपूर्ण क्षण था, और इसकी वजह से विस्फोटक नवाचार आज तक जारी है
हाल में ControlNet ने फीचर्स के मामले में MidJourney और DALL-E को पीछे छोड़ दिया है
SD के सार्वजनिक होने से generative AI के प्रति नई रुचि पैदा हुई, और नवंबर में ChatGPT के लॉन्च ने उस लहर को और तेज कर दिया
ऐसा SD moment अब बड़े language models (LLM) के लिए भी आ रहा है
अब GPT-3 स्तर के language model को personal laptop पर चलाना संभव है

LLaMA

GPT-3 जैसे LLM को image generation model की तुलना में बनाना और चलाना कहीं अधिक महंगा पड़ता है
सबसे अच्छे मॉडल OpenAI जैसी कंपनियों द्वारा बनाए गए हैं और API के जरिए उपलब्ध हैं, लेकिन उन्हें सीधे चलाने योग्य रूप में सार्वजनिक नहीं किया गया
मॉडल स्वयं भी इतने बड़े हैं कि GPT-3 मॉडल मिल भी जाए तो commercial hardware पर चलाना संभव नहीं है (इसके लिए कई A100-स्तर के GPU चाहिए, जिनकी कीमत प्रति यूनिट $8000 से अधिक है)
पिछले कुछ वर्षों में कई language model सार्वजनिक हुए हैं, लेकिन उनमें से अधिकांश सीधे चलाने के लिए उपयुक्त नहीं हैं
Facebook के LLaMA मॉडल और LLama.cpp की बदौलत सब कुछ बदल गया
LLaMA पूरी तरह open नहीं है। मॉडल तक पहुंचने के लिए कुछ सख्त शर्तों से सहमत होना पड़ता है
किसी ने torrent से डाउनलोड किए जा सकने वाले एक अनौपचारिक PR को अपलोड कर दिया, जिससे डाउनलोड संभव हो गया

llama.cpp

अगर LLaMA को personal laptop पर चलाना मुश्किल हो, तो इसकी उपयोगिता बहुत कम रह जाती है
Bulgaria के Georgi Gerganov ने पहले OpenAI के speech recognition model Whisper का C++ port, Whisper.cpp बनाया था
उन्होंने LLaMA के लिए भी वही काम किया
लक्ष्य था 4-bit quantization (मॉडल का आकार घटाकर उसे धीमे hardware पर भी चलाने की तकनीक) का उपयोग करके इसे MacBook पर चलाना
उन्होंने 7B मॉडल को 4GB तक और 13B मॉडल को 8GB से कम तक छोटा कर दिया
यह MacBook पर बहुत अच्छी तरह चलता है
Facebook जिस 13B मॉडल को GPT-3 के मुकाबले का बताता है, वह अब laptop पर चलाया जा सकता है
laptop पर जनरेट होते टेक्स्ट को देखकर ऐसा लगा जैसे दुनिया फिर बदल रही हो
मुझे लगा था कि GPT-3 स्तर के मॉडल को अपने पास मौजूद hardware पर चलाने के लिए मुझे कई साल इंतजार करना होगा, लेकिन मैं गलत था। "भविष्य पहले ही यहां आ चुका है"

क्या यह सबसे खराब स्थिति हो सकती है?

यह किसी SF जैसी स्थिति की चिंता नहीं है। laptop पर चलने वाला LLM कोई "दुनिया पर राज करने वाला AGI" भी नहीं है
लेकिन इस तकनीक के बुरे इस्तेमाल के कई तरीके हो सकते हैं
- spam generation, automated romance scams, trolling और hate speech, fake news और misinformation, automated radicalization
इस क्षण से पहले OpenAI जैसी कंपनियों के पास एक पतली-सी सुरक्षा परत थी, जैसे कि लोग इन मॉडलों के साथ कैसे interact करें, इसे नियंत्रित करना
लेकिन अब जब इन्हें अपने-अपने hardware पर चलाया जा सकता है, तो इस तरह की नियंत्रण-व्यवस्था ही खत्म हो जाती है

इसका अच्छे उद्देश्य के लिए उपयोग कैसे किया जाए?

मेरा मानना है कि इसका समाज पर बड़ा प्रभाव पड़ेगा। मेरी प्राथमिकता इस प्रभाव को सकारात्मक दिशा में ले जाना है
generative AI को हानिकारक या समय बर्बाद करने वाला मानने वाली निंदक सोच में फंसना आसान है
मैं व्यक्तिगत रूप से हर दिन generative AI tools का उपयोग करता हूं। इससे मेरी ठोस उत्पादकता बढ़ी है, और इससे भी महत्वपूर्ण बात यह है कि इसने मेरे प्रोजेक्ट्स के लिए मेरी महत्वाकांक्षा को बढ़ाया है
पिछले सप्ताह मैंने ChatGPT की मदद से एक नए प्रोजेक्ट के लिए जरूरी AppleScript सिर्फ एक घंटे में सीख ली
मैं इस तकनीक के सकारात्मक उपयोगों को आगे भी खोजता और साझा करता रहूंगा

आगे क्या देखना चाहिए

अगर Facebook अपनी license शर्तों को ढीला नहीं करता, तो LLaMA शायद केवल इस बात का PoC बनकर रह जाएगा कि ऐसे मॉडल consumer hardware पर चल सकते हैं
अब लोगों के बीच अपने डिवाइस पर ChatGPT जैसी क्षमता देने वाले पूरी तरह open language model को रिलीज़ करने की होड़ शुरू हो चुकी है

3 टिप्पणियां

ffdd270 2023-03-13

इसमें लिखा है कि यह MacBook पर चलता है, तो MacBook पर LLAMA सेटअप करने के लिए इसे देखें: https://dev.l1x.be/posts/2023/03/12/using-llama-with-m1-mac/

(अगर कोई और इसे न्यूज़ के रूप में पोस्ट कर दें तो भी अच्छा रहेगा 'mm' b)

dkmin 2023-03-15

शेयर करने के लिए धन्यवाद

xguru 2023-03-13

यह GeekNews के नियमित लेखक Simon Willison की पोस्ट है।
उनके दावे के मुताबिक, अगर ऐसे language model को personal device पर चलाना संभव हो जाए, तो मुझे लगता है कि "प्रोजेक्ट के लिए महत्वाकांक्षा/implementation scope का विस्तार" होता है।
मैं भी जब GeekNews में ChatGPT से जुड़े features जोड़ने की कोशिश करता हूँ, तो API लागत की वजह से एक बार फिर सोचना पड़ता है।
अब जब काफ़ी उपयोगी स्तर के LLM को personal device पर चलाना संभव हो गया है, तो उम्मीद है कि application के और भी विविध दायरे बनेंगे।

आज जारी हुई GeekNews Weekly में भी मैंने लिखा था,
क्योंकि अगर किसी तकनीकी trend पर चर्चा लगातार बनी रहनी है, तो यह अहम है कि उस तकनीक पर आधारित वास्तविक business कितनी हद तक users के लिए मददगार स्तर पर बनाए जाकर लॉन्च किए जाते हैं।