Google Bard, LLM प्रदर्शन लीडरबोर्ड में GPT-4 Turbo के ठीक नीचे दूसरे स्थान पर पहुंचा

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) ने GPT-4-0314/0613 आदि को पीछे छोड़ते हुए GPT-4 Turbo (Arena ELO 1249) के ठीक नीचे दूसरे स्थान (1215) तक छलांग लगाई साथ ही, HHEM लीडरबोर्ड में Hallucination Rate भी 12% से घटकर 4.9% हो गया। (GPT-4/4 Turbo 3.0%, GPT 3.5 Turbo 3.5%) Bard + Gemini Ultra कैसे लॉन्च होगा, इसे लेकर सच में काफी उत्साह है

(twitter.com/JeffDean)

7 पॉइंट द्वारा xguru 2024-01-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Google Bard (Gemini Pro) ने GPT-4-0314/0613 आदि को पीछे छोड़ते हुए GPT-4 Turbo (Arena ELO 1249) के ठीक नीचे दूसरे स्थान (1215) तक छलांग लगाई
साथ ही, HHEM लीडरबोर्ड में Hallucination Rate भी 12% से घटकर 4.9% हो गया। (GPT-4/4 Turbo 3.0%, GPT 3.5 Turbo 3.5%)
Bard + Gemini Ultra कैसे लॉन्च होगा, इसे लेकर सच में काफी उत्साह है

1 टिप्पणियां

xguru 2024-01-28

Hacker News राय

Google Bard की performance limitations: एक यूज़र को लंबे समय से शक था कि Google Bard की performance लागत की वजह से सीमित की गई थी। Google Bard को मुफ्त में दे रहा है, और शायद वह हमेशा सभी यूज़र्स के लिए इतने बड़े model को मुफ्त में चलाना नहीं चाहता था। हो सकता है inference cost में कोई breakthrough हुआ हो, या फिर प्रतिस्पर्धा में पीछे होने की बात से थककर उसने अस्थायी रूप से लागत उठाने का फैसला किया हो। यूज़र का मानना है कि Google को subscription service शुरू करनी चाहिए ताकि लोग सार्वजनिक रूप से उसका सबसे अच्छा model चलता हुआ देख सकें.

Jeff Dean के ट्वीट के अनुसार, Gemini Pro-scale model नाम का एक नया model लॉन्च किया गया है, और उसने स्वतंत्र lmsys leaderboard में दूसरा स्थान हासिल किया है। Pro-scale का क्या मतलब है, और क्या सभी यूज़र पहले से यही model इस्तेमाल कर रहे हैं, यह स्पष्ट नहीं है।
Bard की शुरुआती निराशा और सुधार: लॉन्च के समय Bard निराशाजनक था, लेकिन उसमें सुधार होते देखना अच्छा है। एक यूज़र के निजी अनुभव में, वह GPT 4/Turbo की तुलना में Claude 2 का अधिक उपयोग करता है, और उसकी response style तथा सवालों के जवाब देने के तरीके को पसंद करता है। यह भी ध्यान देने योग्य है कि Kagi, Claude 1 को GPT 4 (non-turbo) के बराबर मानता है, और Claude 2 की quality को 4 Turbo के समान स्तर का मानता है।
Bard model के लिए कम votes: Bard model को अपेक्षाकृत कम votes मिले हैं। यूज़र तब तक इंतज़ार करेगा जब तक इसके votes की संख्या दूसरे models के समान स्तर तक न पहुंच जाए।
Bard की कम restrictive nature: GPT-4 की तुलना में Bard कहीं कम प्रतिबंधित है, और सिर्फ इसी वजह से वह GPT-4 से काफी बेहतर लगता है।
मुफ्त LLMs में Bard की उपयोगिता: सभी मुफ्त LLMs में Bard सबसे उपयोगी लगता है। ChatGPT 3.5 इसकी तुलना में कहीं नहीं ठहरता और सुस्त लगता है।
benchmark method को लेकर जिज्ञासा: यह जानने की उत्सुकता है कि benchmark कैसे किया जाता है। शक है कि इसे इस तरह बेहतर बनाया जा सकता है कि यह यूज़र की अपेक्षाओं या usability को और अच्छी तरह represent करे।

Jeff Dean का ट्वीट देखने के बाद यूज़र ने Bard इस्तेमाल किया। GPT-4 की तुलना में यह अभी भी निराशाजनक लगा। यह सवाल से भटक जाता है, और उसे इसका एहसास भी नहीं होता।
जब chart बनाने को कहा गया, तो उसने तीन बार जवाब दिया, "यह रहा chart," लेकिन वास्तव में कोई chart नहीं था, और आखिर में उसने कहा कि उसके पास यह capability नहीं है।
निजी अनुभव से असंगति: निजी अनुभव में, जब भी सही जवाब चाहिए होता है, यूज़र फिर से GPT पर लौट जाता है। ज्यादातर मामलों में वह Google Bard की तुलना में ChatGPT 3.5 को पसंद करता है, और उसे GPT 4 स्पष्ट रूप से Bard से बेहतर लगता है।
Bard और ChatGPT की तुलना: व्यक्तिगत रूप से, एक यूज़र को Bard, ChatGPT से कहीं बेहतर लगता है। वह uncensored Mistral इस्तेमाल करना चाहता है।
Bard की responsiveness और censorship का जुड़ना: पहले यह requests पर responsive था और मना नहीं करता था। अब लगता है कि इसमें censorship layer जोड़ दी गई है। यूज़र को पुराना Bard याद आता है।

Google Bard, LLM प्रदर्शन लीडरबोर्ड में GPT-4 Turbo के ठीक नीचे दूसरे स्थान पर पहुंचा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News राय