Google Bard, LLM प्रदर्शन लीडरबोर्ड में GPT-4 Turbo के ठीक नीचे दूसरे स्थान पर पहुंचा
(twitter.com/JeffDean)- Google Bard (Gemini Pro) ने GPT-4-0314/0613 आदि को पीछे छोड़ते हुए GPT-4 Turbo (Arena ELO 1249) के ठीक नीचे दूसरे स्थान (1215) तक छलांग लगाई
- साथ ही, HHEM लीडरबोर्ड में Hallucination Rate भी 12% से घटकर 4.9% हो गया। (GPT-4/4 Turbo 3.0%, GPT 3.5 Turbo 3.5%)
- Bard + Gemini Ultra कैसे लॉन्च होगा, इसे लेकर सच में काफी उत्साह है
1 टिप्पणियां
Hacker News राय
Google Bard की performance limitations: एक यूज़र को लंबे समय से शक था कि Google Bard की performance लागत की वजह से सीमित की गई थी। Google Bard को मुफ्त में दे रहा है, और शायद वह हमेशा सभी यूज़र्स के लिए इतने बड़े model को मुफ्त में चलाना नहीं चाहता था। हो सकता है inference cost में कोई breakthrough हुआ हो, या फिर प्रतिस्पर्धा में पीछे होने की बात से थककर उसने अस्थायी रूप से लागत उठाने का फैसला किया हो। यूज़र का मानना है कि Google को subscription service शुरू करनी चाहिए ताकि लोग सार्वजनिक रूप से उसका सबसे अच्छा model चलता हुआ देख सकें.
Bard की शुरुआती निराशा और सुधार: लॉन्च के समय Bard निराशाजनक था, लेकिन उसमें सुधार होते देखना अच्छा है। एक यूज़र के निजी अनुभव में, वह GPT 4/Turbo की तुलना में Claude 2 का अधिक उपयोग करता है, और उसकी response style तथा सवालों के जवाब देने के तरीके को पसंद करता है। यह भी ध्यान देने योग्य है कि Kagi, Claude 1 को GPT 4 (non-turbo) के बराबर मानता है, और Claude 2 की quality को 4 Turbo के समान स्तर का मानता है।
Bard model के लिए कम votes: Bard model को अपेक्षाकृत कम votes मिले हैं। यूज़र तब तक इंतज़ार करेगा जब तक इसके votes की संख्या दूसरे models के समान स्तर तक न पहुंच जाए।
Bard की कम restrictive nature: GPT-4 की तुलना में Bard कहीं कम प्रतिबंधित है, और सिर्फ इसी वजह से वह GPT-4 से काफी बेहतर लगता है।
मुफ्त LLMs में Bard की उपयोगिता: सभी मुफ्त LLMs में Bard सबसे उपयोगी लगता है। ChatGPT 3.5 इसकी तुलना में कहीं नहीं ठहरता और सुस्त लगता है।
benchmark method को लेकर जिज्ञासा: यह जानने की उत्सुकता है कि benchmark कैसे किया जाता है। शक है कि इसे इस तरह बेहतर बनाया जा सकता है कि यह यूज़र की अपेक्षाओं या usability को और अच्छी तरह represent करे।
निजी अनुभव से असंगति: निजी अनुभव में, जब भी सही जवाब चाहिए होता है, यूज़र फिर से GPT पर लौट जाता है। ज्यादातर मामलों में वह Google Bard की तुलना में ChatGPT 3.5 को पसंद करता है, और उसे GPT 4 स्पष्ट रूप से Bard से बेहतर लगता है।
Bard और ChatGPT की तुलना: व्यक्तिगत रूप से, एक यूज़र को Bard, ChatGPT से कहीं बेहतर लगता है। वह uncensored Mistral इस्तेमाल करना चाहता है।
Bard की responsiveness और censorship का जुड़ना: पहले यह requests पर responsive था और मना नहीं करता था। अब लगता है कि इसमें censorship layer जोड़ दी गई है। यूज़र को पुराना Bard याद आता है।