Ask HN: GPT से अपने मॉडल पर स्विच करने वालों, आपका अनुभव कैसा रहा?

xguru · 2024-02-29T10:29:01+09:00

HN पर पोस्ट किए गए सवाल के जवाबों का सार दर्जनों ग्राहकों को OpenPipe पर GPT-4/GPT-3.5 से अपने fine-tuned मॉडल पर स्विच करने में मदद की गई सबसे आम प्रतिक्रिया थी: "वाह, मुझे नहीं लगा था कि इतनी कम मेहनत में यह इतना अच्छा काम करेगा" ज़्यादातर कामों में fine-tuned Mistral 7B, बहुत कम लागत पर GPT-3.5 से बेहतर निकला कुछ use cases में इसने GPT-4 जैसी या उससे बेहतर performance दी (खासकर classification, information extraction, और summarization जैसे कामों में) Mistral-Instruct-0.1 का इस्तेमाल फोन/ईमेल सारांश के लिए, Mixtral का contract mining के लिए, और OpenChat का RAG tools वाले agent chatbot को बेहतर बनाने के लिए किया गया अनुभव शानदार रहा, और INT8 tradeoff तब तक स्वीकार्य है जब तक hardware FP8(FP4) अधिक व्यापक और सस्ता नहीं हो जाता on-premise लागत पहले से ही A100 और V100 legacy उपकरणों का उपयोग करके लाखों interactions चलाने में समाहित हो चुकी थी Continue और Ollama को साथ में इस्तेमाल कर रहे हैं, और मुख्य LLM deepseek-coder 7b है. यह सेटअप ChatGPT 4 जितना अच्छा है, local-first है, और कुल मिलाकर संतोषजनक है तकनीकी काम करने के लिए LLM को tune किया गया, और यह बहुत अच्छा चला. लेकिन LLM का evaluation करना उम्मीद से अधिक कठिन निकला, और यह भी पाया कि GPT-4 सामान्यतः उतना महान नहीं है 10,000 से अधिक records पर data extraction या processing करनी हो तो local model का उपयोग करना पसंद है. इस स्तर पर hosted services धीमी और नाज़ुक हो सकती हैं. fine-tuned Mistral 7B (जिसमें OpenChat सबसे अच्छा है) data को तेज़ी से प्रोसेस करता है. जटिल prompts की जानकारी का सार निकालने के लिए ChatGPT-4 का उपयोग करते हैं, और फिर उसे local model पर चलाते हैं. लगता है कि स्थिति लगातार बेहतर होगी ऐप्स और enterprise products में OpenAI API और on-device libraries (जैसे llama.cpp) दोनों को support किया जाता है. API और libraries बहुत समान हैं, इसलिए उपयोगकर्ताओं के लिए switching process लगभग पूरी तरह transparent है. दूसरे platforms के API भी जल्द support किए जाएंगे, और उन्हें OpenAI जितनी ही आसानी से integrate किया जा सकेगा Wi‑Fi के बिना उड़ान के दौरान Mistral 7B का इस्तेमाल किया गया; ज़रूरी जानकारी खोजने में यह काफ़ी अच्छा था, लेकिन step-by-step निर्देश देने में सफलता मिली-जुली रही Double.bot बनाते समय कई models का परीक्षण किया गया, लेकिन अंततः फिर gpt4 पर लौट आए. दूसरे models दिलचस्प हैं, लेकिन अगर gpt4 जिन 100 सवालों को हल करता है उनमें से 1 भी छूट जाए तो निराशा होती है. फिलहाल model के आसपास की features बनाने से ज़्यादा value मिल रही है, और इससे GitHub copilot की समस्याएँ हल होती हैं (जैसे brackets को सही तरह बंद करने वाला autocomplete, सुझाव स्वीकार करने पर अपने-आप import जोड़ना, comments लिखते समय सुझाव बंद कर देना ताकि बाधा न बने, line के बीच में completion आदि). उम्मीद है कि 6 महीनों के भीतर open source models gpt4 की बराबरी कर लेंगे सामान्य तौर पर Llama 2 काफ़ी खराब लगता है, खासकर अंग्रेज़ी के अलावा दूसरी भाषाओं में. chat के लिए Mixtral के साथ बहुत अच्छे नतीजे मिले. बेशक, असली ChatGPT से तुलना करें तो ये सब थोड़ा Frankenstein जैसा महसूस होता है. कभी-कभी यह समान लगता है और अच्छा काम करता है, लेकिन अचानक पूरी तरह बेतुका output या artifacts दे देता है, जिससे लगता है कि शायद fine-tuning में कुछ कमी रह गई हम पहले चरण में अपना मॉडल इस्तेमाल करते हैं, और यदि अपने मॉडल के परिणाम को लेकर भरोसा न हो तो उसे GPT तक escalate करते हैं 2024 में उम्मीद है कि कहीं अधिक लोग OpenAI को छोड़ेंगे, क्योंकि उन्होंने कम सत्यापित/कम scaled प्रतिस्पर्धियों की तुलना में लागत और latency का अनुभव किया है. अक्सर speed और quality के बीच tradeoff होता है, और मैंने कई vendors देखे हैं जो OpenAI से 3 गुना से अधिक तेज़ हैं और उसकी तुलना में एक-तिहाई से अधिक quality देते हैं scripting, idea search, और/या ऐसी definitions जिनमें हमेशा fact-checking की ज़रूरत होती है, जैसे use cases के लिए Mixtral 8x7b (q5) का उपयोग किया जा रहा है. फिलहाल 96GB RAM वाले M2 पर lmstudio इस्तेमाल हो रहा है. लेकिन Ollama या किसी अन्य OSS solution पर स्विच करने पर विचार चल रहा है

(news.ycombinator.com)

26 पॉइंट द्वारा xguru 2024-02-29 | 1 टिप्पणियां | WhatsApp पर शेयर करें

HN पर पोस्ट किए गए सवाल के जवाबों का सार

दर्जनों ग्राहकों को OpenPipe पर GPT-4/GPT-3.5 से अपने fine-tuned मॉडल पर स्विच करने में मदद की गई
- सबसे आम प्रतिक्रिया थी: "वाह, मुझे नहीं लगा था कि इतनी कम मेहनत में यह इतना अच्छा काम करेगा"
- ज़्यादातर कामों में fine-tuned Mistral 7B, बहुत कम लागत पर GPT-3.5 से बेहतर निकला
- कुछ use cases में इसने GPT-4 जैसी या उससे बेहतर performance दी (खासकर classification, information extraction, और summarization जैसे कामों में)
Mistral-Instruct-0.1 का इस्तेमाल फोन/ईमेल सारांश के लिए, Mixtral का contract mining के लिए, और OpenChat का RAG tools वाले agent chatbot को बेहतर बनाने के लिए किया गया
- अनुभव शानदार रहा, और INT8 tradeoff तब तक स्वीकार्य है जब तक hardware FP8(FP4) अधिक व्यापक और सस्ता नहीं हो जाता
- on-premise लागत पहले से ही A100 और V100 legacy उपकरणों का उपयोग करके लाखों interactions चलाने में समाहित हो चुकी थी
Continue और Ollama को साथ में इस्तेमाल कर रहे हैं, और मुख्य LLM deepseek-coder 7b है. यह सेटअप ChatGPT 4 जितना अच्छा है, local-first है, और कुल मिलाकर संतोषजनक है
तकनीकी काम करने के लिए LLM को tune किया गया, और यह बहुत अच्छा चला. लेकिन LLM का evaluation करना उम्मीद से अधिक कठिन निकला, और यह भी पाया कि GPT-4 सामान्यतः उतना महान नहीं है
10,000 से अधिक records पर data extraction या processing करनी हो तो local model का उपयोग करना पसंद है. इस स्तर पर hosted services धीमी और नाज़ुक हो सकती हैं. fine-tuned Mistral 7B (जिसमें OpenChat सबसे अच्छा है) data को तेज़ी से प्रोसेस करता है. जटिल prompts की जानकारी का सार निकालने के लिए ChatGPT-4 का उपयोग करते हैं, और फिर उसे local model पर चलाते हैं. लगता है कि स्थिति लगातार बेहतर होगी
ऐप्स और enterprise products में OpenAI API और on-device libraries (जैसे llama.cpp) दोनों को support किया जाता है. API और libraries बहुत समान हैं, इसलिए उपयोगकर्ताओं के लिए switching process लगभग पूरी तरह transparent है. दूसरे platforms के API भी जल्द support किए जाएंगे, और उन्हें OpenAI जितनी ही आसानी से integrate किया जा सकेगा
Wi‑Fi के बिना उड़ान के दौरान Mistral 7B का इस्तेमाल किया गया; ज़रूरी जानकारी खोजने में यह काफ़ी अच्छा था, लेकिन step-by-step निर्देश देने में सफलता मिली-जुली रही
Double.bot बनाते समय कई models का परीक्षण किया गया, लेकिन अंततः फिर gpt4 पर लौट आए. दूसरे models दिलचस्प हैं, लेकिन अगर gpt4 जिन 100 सवालों को हल करता है उनमें से 1 भी छूट जाए तो निराशा होती है. फिलहाल model के आसपास की features बनाने से ज़्यादा value मिल रही है, और इससे GitHub copilot की समस्याएँ हल होती हैं (जैसे brackets को सही तरह बंद करने वाला autocomplete, सुझाव स्वीकार करने पर अपने-आप import जोड़ना, comments लिखते समय सुझाव बंद कर देना ताकि बाधा न बने, line के बीच में completion आदि). उम्मीद है कि 6 महीनों के भीतर open source models gpt4 की बराबरी कर लेंगे
सामान्य तौर पर Llama 2 काफ़ी खराब लगता है, खासकर अंग्रेज़ी के अलावा दूसरी भाषाओं में. chat के लिए Mixtral के साथ बहुत अच्छे नतीजे मिले. बेशक, असली ChatGPT से तुलना करें तो ये सब थोड़ा Frankenstein जैसा महसूस होता है. कभी-कभी यह समान लगता है और अच्छा काम करता है, लेकिन अचानक पूरी तरह बेतुका output या artifacts दे देता है, जिससे लगता है कि शायद fine-tuning में कुछ कमी रह गई
हम पहले चरण में अपना मॉडल इस्तेमाल करते हैं, और यदि अपने मॉडल के परिणाम को लेकर भरोसा न हो तो उसे GPT तक escalate करते हैं
2024 में उम्मीद है कि कहीं अधिक लोग OpenAI को छोड़ेंगे, क्योंकि उन्होंने कम सत्यापित/कम scaled प्रतिस्पर्धियों की तुलना में लागत और latency का अनुभव किया है. अक्सर speed और quality के बीच tradeoff होता है, और मैंने कई vendors देखे हैं जो OpenAI से 3 गुना से अधिक तेज़ हैं और उसकी तुलना में एक-तिहाई से अधिक quality देते हैं
scripting, idea search, और/या ऐसी definitions जिनमें हमेशा fact-checking की ज़रूरत होती है, जैसे use cases के लिए Mixtral 8x7b (q5) का उपयोग किया जा रहा है. फिलहाल 96GB RAM वाले M2 पर lmstudio इस्तेमाल हो रहा है. लेकिन Ollama या किसी अन्य OSS solution पर स्विच करने पर विचार चल रहा है

1 टिप्पणियां

nullptr 2024-02-29

यह HN है, इसलिए लगता है कि हमें यह ध्यान में रखना चाहिए कि मानक अंग्रेज़ी है।

Ask HN: GPT से अपने मॉडल पर स्विच करने वालों, आपका अनुभव कैसा रहा?

संबंधित पढ़ाई

1 टिप्पणियां