सभी के लिए तेज़ और उच्च-गुणवत्ता वाले AI उत्तर, Phind-405B

(phind.com)

1 पॉइंट द्वारा GN⁺ 2024-09-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें

There is no content to summarize from the provided article link.

1 टिप्पणियां

GN⁺ 2024-09-06

Hacker News की राय

Phind अब भी मेरा सबसे पसंदीदा AI-एन्हांस्ड search engine है
तकनीकी सवालों के जवाब देते हुए, यह जवाब को verify करने या और विस्तार से देखने के लिए अच्छे reference links जोड़ देता है
हाल की history के उदाहरणों में Mastodon-supported video formats https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j, XFS और ext4fs की तुलना https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1, Apple ][ का no slot clock approach https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple वगैरह शामिल हैं
जवाब perfect नहीं होते, लेकिन अच्छा overview देते हैं, और web source links शानदार होते हैं. ChatGPT और Claude इस मामले में कमजोर हैं, और Bing CoPilot कुछ हद तक कर लेता है, लेकिन मुझे उतना पसंद नहीं
- मेरे tests में Phind 70B ने भी hallucinated जवाब दिए
  उदाहरण के लिए मैंने Bluetooth earplugs पूछे जिनकी battery आसानी से बदली जा सके, लेकिन यह बार-बार ऐसे products recommend करता रहा जिनके बारे में मुझे पता था कि battery case में soldered है. निष्पक्ष रूप से कहें तो Perplexity भी इस सवाल में fail हुआ
- मुझे लगता है अभी सुधार की काफी गुंजाइश है, और हम answer composition और verifiability को बेहतर बना रहे हैं
- Phind मुख्य रूप से वह tool था जिसका इस्तेमाल मैं internet पर मिलने वाली ज़्यादा relevant और up-to-date जानकारी पाने के लिए करता था, लेकिन करीब 3 महीने पहले से ऐसा नहीं रहा
  समय के साथ कई सवालों में जवाब increasingly अधूरे या गलत होने लगे, और इससे भी खराब बात यह कि कभी-कभी यह कहता था कि जवाब नहीं मिल पा रहा, जबकि reference sites में जवाब मौजूद होता था
  आखिरकार मैं ज्यादातर Bing और gpt 4o पर वापस चला गया, और सच कहूं तो नए version को फिर से try करने में समय लगाना मुझे हिचकिचाहट भरा लगता है
- यहां references दिख रहे हैं, लेकिन जब मैं सवाल पूछता हूं तो logged-in होने पर भी सिर्फ जवाब आता है और citations नहीं आते
  मुझे लगा था यह पहले भी issue था और fix हो गया था, लेकिन मैं अब भी इसे देख रहा हूं. Log out करके पूछने पर references आते हैं, लेकिन तब जवाब instant model का होता है
- इसी तरह की वजहों से मैं Brave Search का खूब इस्तेमाल करता हूं
  सामान्य search और LLM-based search में से जो ज्यादा suitable हो, उस पर आसानी से switch कर सकते हैं
अभी-अभी इस्तेमाल करके देखा; जिस research topic की मैं जांच कर रहा था उसके बारे में पूछा, तो जवाब मिला लेकिन references नहीं थे
इसलिए मैंने जवाब copy करके खास तौर पर references मांगे, तो इसने माफी मांगते हुए कहा कि पिछले जवाब में किसी specific study का reference देना error था और search results में उस claim को support करने वाली relevant जानकारी नहीं थी
यह मुझे थोड़ा समझ नहीं आया
- आगे test किया तो, Laravel 11 Blade fragments का इस्तेमाल संक्षेप में समझाने को कहा, तब इसने काफी ठीक जवाब दिया
  इसके बाद मैंने Laravel में इस्तेमाल होने वाला route code की 3 lines दीं, और पूछा कि URL parameter के आधार पर लौटाया जाने वाला fragment decide करने की implementation कैसे करें
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  यह कहना कि सही view बनाया हुआ होना चाहिए, अच्छी शुरुआत थी, लेकिन उसके बाद इसने नीचे जैसा suggest किया
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  मुझे तुरंत पता चल गया कि यह गलत है, लेकिन सीखने वाले को पता नहीं चल सकता. इसलिए मुझे फिर पूछना पड़ा, “रुको, इस code को कैसे पता चलेगा कि कौन-सा view इस्तेमाल करना है?” और तभी इसने सही जवाब दिया
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  ऐसे models में edge cases ढूंढना बहुत आसान है, और मिले हुए लगभग हर जवाब पर शक करना पड़ता है. फिर भी कुछ मामलों में ये बहुत powerful और useful होते हैं
- पहले यह confirm कर लेना अच्छा होगा कि Always search on है, और फिर पहला सवाल दोबारा try करें
  तब आपको references के साथ सही जवाब मिलना चाहिए
- “AI assistant के रूप में मुझे ज्यादा सावधान रहना चाहिए था” जैसी line मुझे सच में नापसंद है
- वह लंबा apology text सच कहूं तो “मैंने बस कुछ भी बोल दिया” को लंबा और repetitive बनाकर कहने जैसा ही है
  बेशक इंसानों में भी ऐसे बोलने वाले लोग होते हैं. अगर LLM hype की कोई positive side है, तो शायद यह हमें psychopathic बोलचाल के तरीके के प्रति immune बना दे
“AI-आधारित search की मुख्य समस्या यह है कि यह मौजूदा Google की तुलना में बहुत धीमा है। भले ही यह बेहतर जवाब बनाए, अतिरिक्त latency लोगों को इससे दूर करती है” — क्या यह बात सच है?
मुझे जो शिकायतें महसूस होती और सुनाई देती हैं, वे ज़्यादातर गलत AI नतीजों को लेकर हैं, जैसे coding में मदद करते समय आत्मविश्वास के साथ गलतियाँ करना
- Enter दबाने के बाद कुछ दिखने तक का समय स्वाभाविक रूप से ज़्यादा धीमा है
  लेकिन Enter दबाने के बाद संबंधित सही जवाबों का समूह दिमाग में आने तक का समय ही क्या मापने का लक्ष्य नहीं होना चाहिए? उस कसौटी पर देखें तो 20 साल पुराना तरीका 10 साल से भी पहले अपने peak पर पहुँच चुका लगता है, और अगर ऐसा नहीं होता तो Phind को ध्यान नहीं मिलता
  20 साल पुराने PageRank-शैली search में search करने से लेकर दिमाग में जवाब आने तक लगने वाला समय अब “DNF”, यानी पूरा न हो पाने की स्थिति के करीब पहुँच रहा है
  hallucination हो या असंबंधित result, दोनों को छाँटने के लिए दिमाग लगाना पड़ता है। अनुपात के हिसाब से hallucination से ज़्यादा असंबंधित results होते हैं, बस हमने बहुत पहले ही search result pages पर भरोसा करना छोड़ दिया था
- यह speed / accuracy / cost का triangle problem है
  छोटे models serving cost में efficient और तेज़ होते हैं, लेकिन लगभग आधे मामलों में गलत हो सकते हैं
  बड़े models सस्ते hardware पर धीमे चलते हैं, लेकिन अधिक सही जवाब दे सकते हैं, और आम तौर पर personal use के लिए पर्याप्त तेज़ होते हैं
  तीसरा विकल्प बड़ा, तेज़ और accurate model है, लेकिन speed पाने के लिए Nvidia/Groq वगैरह को काफी पैसा देना पड़ता है, और power cost संतुलित करने के लिए शायद solar power plant तक बनाना पड़े
- मेरे अनुभव में यह सच है
  कुछ search करने से पहले मैं अक्सर अनुमान लगाता हूँ कि Google results को जल्दी skim करना तेज़ होगा या Perplexity Pro के एक-एक line करके धीरे-धीरे जवाब देने का इंतज़ार करना
- मेरे हिसाब से दोनों ही मुख्य समस्याएँ हैं
  जब result सही होता है तो वह बहुत धीमा होता है, और जो result आता भी है वह अक्सर गलत होता है, इसलिए भरोसा करना मुश्किल है
title जैसा कहता है, यह सबके लिए नहीं बल्कि Pro users के लिए है
title भ्रमित करने वाला है, अच्छा होगा अगर इसे बदल दिया जाए
यह Kagi Assistant की तुलना में कैसा होगा, यह जानने की उत्सुकता है
pricing page पर लिखा है कि $20/माह में Phind-405B और Phind-70B search unlimited, रोज़ GPT-4o 500+ बार, Claude 3.5 Sonnet 500+ बार, और Claude Opus 10 बार मिलते हैं
वे कहते हैं कि “Phind-405B ने HumanEval 0-shot में 92% हासिल किया, जो Claude 3.5 Sonnet के बराबर है”, लेकिन क्या कोई दूसरे benchmarks भी हैं?
- मैंने Phind के लिए 6 महीने का भुगतान करके इस्तेमाल किया, और अभी Kagi Assistant से ज़्यादा संतुष्ट हूँ
  यह उतने ज़्यादा links नहीं देता, लेकिन overall results मिलते-जुलते या बेहतर हैं, और lenses भी इस्तेमाल कर सकते हैं। साथ में general search engine भी मिलता है
  Phind में UI से जुड़ी एक परेशान करने वाली बात थी: Firefox में scrollbar कभी-कभी random तरीके से उछल जाता था, और लगता है यह हर बार typing करते समय या token generation के दौरान भी होता था। अगर हर बार देखी जा रही जगह दोबारा ढूँढनी पड़े तो काफी समय बर्बाद होता है, और सिर्फ bottom पर वापस जाना भी झंझट है
  फिर भी core problem दोनों में यही है कि कठिन सवालों में hallucination बहुत ज़्यादा हैं, और यह हर जगह common problem है
- VSCode extension है, इसलिए अगर आप उसे इस्तेमाल करते हैं तो कुछ हद तक मायने रखता है
  pure search के लिए मैं पक्का नहीं कह सकता। मेरे अनुभव में Phind internet access होने पर बहुत शानदार नहीं था, और कुछ लोग बेहतर जवाब पाने के लिए search function बंद भी कर देते हैं
- 92% वाला आंकड़ा निर्णय लेना मुश्किल बनाता है, क्योंकि इसका मतलब है कि और कठिन benchmark की ज़रूरत है
  खासकर high score वाले models भी अक्सर hallucination से भरे, plausible जवाब देते हैं। उदाहरण के लिए Llama 3 मेरे लिए बहुत बातूनी और confident है, लेकिन काफी बार गलत होता है
  उस स्तर की performance पर लगता है कि हम उन कठिन edge cases के क्षेत्र में पहुँच गए हैं जहाँ सही जवाब खुद अस्पष्ट होता है
- pricing देखकर लगता है कि $20/माह वाले “Phind unlimited + ChatGPT रोज़ 500 बार” के अलावा कोई lower subscription tier नहीं है
  ज़रूरत इसकी नहीं, बल्कि $5 में महीने के करीब 100 uses वाले plan की है। अगर यह coding-केंद्रित search engine है, तो उन्हें सोचना होगा कि लोग अधिक features वाले competitors जितनी ही कीमत क्यों चुकाएँ
लगता है कि मैं पिछले करीब 5–6 महीनों से Phind Pro subscribe कर रहा हूँ
search result contamination कुछ बेहतर लगी है, लेकिन follow-up questions पूछने पर यह अभी भी जवाब बिगाड़ देता है
उदाहरण के लिए, अगर ठीक ऊपर वाले जवाब के code को reference करके सवाल पूछें, तो अगला जवाब conversation context के बजाय search results में मौजूद किसी code के आधार पर जवाब दे सकता है। RAG के बारे में मुझे अच्छी समझ नहीं है, इसलिए नहीं जानता कि priority वगैरह से इसे कैसे ठीक किया जा सकता है
इसके अलावा, web interface में यह अपने artifacts को कैसे handle करेगा, इसका सच में इंतज़ार है। Claude का artifacts UI web पर काम करते समय मेरे workflow में बहुत अच्छा फिट बैठता है, और कई files के versions होना भी अच्छा लगता है
- artifacts पर काम चल रहा है
  जानना चाहूँगा कि किस model में contamination दिख रही है
रुको, यह असल में काफी अच्छा करता है
reasonable result पाने के लिए अभी भी follow-up questions पूछने पड़ते हैं, लेकिन इस साल की शुरुआत में जब test किया था, तब ज़्यादातर test queries में यह पूरी तरह fail हो गया था
अच्छा होगा अगर users service evaluate कर सकें, इसके लिए कम से कम एक free query दी जाए
- तेज़ model Phind Instant पूरी तरह free है
Phind पिछले कुछ सालों में मिला सबसे अच्छा productivity booster tool है
बधाई, और उम्मीद है इसे लगातार बेहतर बनाते रहेंगे
हाल ही में AI से नीचे वाला सवाल पूछा था
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
मैंने पूछा कि इसमें copy होना सही नहीं है क्या, तो उसने बहुत आत्मविश्वास से जवाब दिया कि copy नहीं होती। उसका सोचना था कि auto type को const reference के रूप में infer करता है, इसलिए copy नहीं करता—लेकिन यह गलत था; ऐसा करने के लिए auto& या const auto& चाहिए। जब मैंने दोबारा पूछा कि क्या यह पक्का है, तो उसने और भी ज्यादा आत्मविश्वास से जवाब दिया।
Godbolt output यहां है https://godbolt.org/z/Mz8x74vxe
आप देख सकते हैं कि "copy" print होता है, और copied object पर non-const method call किया जा सकता है—जिसका मतलब है कि वह non-const type है।
Phind से भी यही पूछा, और उसने भी वही जवाब दिया https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
दो अलग-अलग AI, जिनमें से एक खुद को coding-specialized कहता है, इतनी आत्मविश्वास के साथ कैसे fail कर सकते हैं?
- यह दिखाता है कि ऐसे tools आखिरकार token generation machines ही हैं, और उनका output बस intelligence जैसा दिखता है
  अभी तो इन्हें आंख मूंदकर भरोसा करने लायक स्तर नहीं लगता।
- LLM से बेहतर जवाब पाने की पुरानी tricks में से एक है उससे कहना, “चलिए step by step सोचते हैं”
  नीचे वाला सवाल मैंने Claude से इसी तरह पूछा
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  “क्या यह copy बनाएगा? चलिए step by step सोचते हैं।”
  अगर आप ऐसे tools को मदद के लिए ज्यादा बार इस्तेमाल करना चाहते हैं, तो यह मददगार हो सकता है

सभी के लिए तेज़ और उच्च-गुणवत्ता वाले AI उत्तर, Phind-405B

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय