- आमतौर पर artificial intelligence (AI) मॉडल ऑनलाइन उपयोग किए जाते हैं, लेकिन कई open-weight टूल्स इस स्थिति को बदल रहे हैं
- bioinformatics वैज्ञानिक Chris Thorpe ने AI टूल large language model (LLM) का उपयोग करके immune system protein major histocompatibility complex (MHC) molecules के डेटाबेस histo.fyi को पढ़ने में आसान सारांशों में बदला
- Thorpe, ChatGPT जैसे web-based LLM की बजाय अपने लैपटॉप पर AI चलाते हैं
LLM के हालिया ट्रेंड
- संगठन LLM के 'open weight' वर्ज़न बना रहे हैं ताकि उपयोगकर्ता, यदि उनके पास पर्याप्त computing क्षमता हो, उन्हें लोकल रूप से डाउनलोड करके चला सकें
- tech कंपनियाँ ऐसे छोटे वर्ज़न बना रही हैं जो consumer hardware पर चल सकें, और जिनका प्रदर्शन पहले के बड़े मॉडलों की बराबरी करता है
शोधकर्ता लोकल मॉडल क्यों इस्तेमाल कर रहे हैं
- लागत में कमी
- मरीजों या कंपनियों की गोपनीय जानकारी की सुरक्षा
- reproducibility सुनिश्चित करना
- जैसे-जैसे कंप्यूटर तेज़ हो रहे हैं और मॉडल अधिक efficient बन रहे हैं, लोग बढ़ते हुए लैपटॉप या मोबाइल डिवाइस पर AI चलाएँगे
हाल में जारी छोटे open-weight मॉडलों के उदाहरण
- Google DeepMind, Meta, Allen Institute for Artificial Intelligence आदि ने अरबों parameters वाले मॉडल जारी किए हैं
- Microsoft ने Phi-1, Phi-1.5, Phi-2, Phi-3, Phi-3.5 जैसे छोटे language models जारी किए हैं, जिनमें से कुछ इमेज भी प्रोसेस कर सकते हैं
- Microsoft में generative AI के उपाध्यक्ष Sébastien Bubeck ने Phi-3 के प्रदर्शन का श्रेय उसके training dataset को दिया
कस्टम एप्लिकेशन डेवलपमेंट
- शोधकर्ता इन टूल्स के आधार पर कस्टम एप्लिकेशन विकसित कर सकते हैं
- चीन की Alibaba ने Qwen नाम का मॉडल बनाया, और New Hampshire के एक biomedical scientist ने इसे वैज्ञानिक डेटा पर fine-tune करके Turbcat-72b बनाया
प्राइवेसी सुरक्षा
- लोकल मॉडल का एक और फायदा प्राइवेसी की सुरक्षा है
- commercial services को personally identifiable information भेजना data-protection नियमों का उल्लंघन हो सकता है
- Hugging Face की medical team का नेतृत्व करने वाले डॉक्टर Cyril Zakka लोकल मॉडल का उपयोग अन्य मॉडलों के लिए training data बनाने में करते हैं
- Springfield की Mercy healthcare system के endocrinologist Johnson Thomas, मरीज़ों की प्राइवेसी के लिए OpenAI के Whisper और Google DeepMind के Gemma 2 पर आधारित ऐसा सिस्टम विकसित कर रहे हैं जो doctor-patient बातचीत को ट्रांसक्राइब और सारांशित करता है
- Seoul की pharmaceutical company Portrai द्वारा विकसित CELLama, लोकल LLM का उपयोग करके कोशिकाओं के gene expression और अन्य विशेषताओं की जानकारी को सारांश वाक्यों में संक्षिप्त करता है, और प्राइवेसी को प्रमुख लाभ के रूप में रेखांकित करता है
मॉडलों का उपयोग
- शोधकर्ता तेज़ी से बदलते LLM विकल्पों का सामना कर रहे हैं
- Thorpe इस समय अपने लैपटॉप पर Llama का उपयोग कर रहे हैं, और उनका कहना है कि लोकल मॉडल बदलते नहीं हैं, इसलिए reproducibility के लिहाज़ से यह फायदेमंद है
- Thorpe, 3D संरचना के आधार पर MHC molecules को क्रमबद्ध करने वाला कोड लिख रहे हैं और नए proteins डिज़ाइन करने के लिए ProtGPT2 नाम का open-weight मॉडल इस्तेमाल कर रहे हैं
- लेकिन कभी-कभी लोकल ऐप पर्याप्त नहीं होते, और Thorpe coding के लिए cloud-based GitHub Copilot का उपयोग करते हैं
तरीका
- Ollama, GPT4All, Llamafile जैसे software का उपयोग करके LLM को लोकल रूप से चलाया जा सकता है
- उपयोगकर्ता अपनी पसंद के अनुसार app या command line चुन सकते हैं
- Mozilla के Stephen Hood का कहना है कि लोकल LLM जल्द ही अधिकांश एप्लिकेशनों के लिए पर्याप्त अच्छे हो जाएँगे
GN+ की राय
- लोकल LLM शोधकर्ताओं के लिए बेहद उपयोगी टूल हो सकते हैं, क्योंकि इनमें लागत घटाने, प्राइवेसी सुरक्षा और reproducibility सुनिश्चित करने जैसे फायदे हैं
- लेकिन कुछ मामलों में cloud-based services बेहतर प्रदर्शन दे सकती हैं, इसलिए शोधकर्ताओं को एप्लिकेशन की ज़रूरतों के अनुसार सही टूल चुनना चाहिए
- लोकल LLM का विकास बहुत तेज़ी से हो रहा है, इसलिए शोधकर्ताओं को नए मॉडल और टूल्स की लगातार खोज और प्रयोग करते रहना चाहिए
- साथ ही, शोध क्षेत्र के अनुसार कस्टम मॉडल विकसित करने पर भी विचार किया जा सकता है। उदाहरण के लिए, यदि कोई biomedical researcher है, तो वह medical data पर मॉडल को fine-tune करके बेहतर प्रदर्शन पा सकता है
- लोकल LLM अभी शुरुआती चरण में हैं, इसलिए शोधकर्ताओं को इनके उपयोग के दौरान उत्पन्न होने वाली समस्याओं और सीमाओं के प्रति सजग रहना चाहिए। उदाहरण के लिए, मॉडल bias, data quality और ethical considerations जैसी बातों की सावधानी से समीक्षा करनी होगी
7 टिप्पणियां
अभी के लिए यह गर्म होता है, धीमा है, और सटीक भी नहीं है। Nature के हिसाब से लेख की गुणवत्ता कमजोर लगती है।
एज पर चलाने से क्या यह धीमा नहीं हो जाता और सटीकता कम नहीं हो जाती,,
असल में, जब तक वह ऐसा डोमेन न हो जहाँ latency और privacy की समस्या हो, edge computing (local) इस्तेमाल करने की कोई वजह नहीं है.. लगभग दुनिया का सारा data पहले से ही AWS और Google पर process हो रहा है, तो अब आकर privacy की बात करना बस उन कंपनियों की मार्केटिंग है जिनके पास LLM बनाने की तकनीक नहीं है..
Natureलेख के शीर्षक मेंsmallआता है, लेकिन ज़्यादातर सामग्री में असली फ़ोकसlocalपर है।हर बार कहते हैं कि ChatGPT को भूल जाओ...
हाहाहा
Hacker News राय
लोकल मॉडल इस्तेमाल करने की सिफारिश
लोकल LLM इस्तेमाल का अनुभव
AMD Strix Halo APU
Llama 3.1 लाइसेंस समस्या
Docker और Ollama का उपयोग
लोकल LLM परफॉर्मेंस
लोकल LLM प्रयोग
बड़ी कंपनियों के LLM-आधारित उत्पाद
LLM प्रशिक्षण डेटा
छोटे मॉडल चलाने के लिए स्पेसिफिकेशन सिफारिश