1 पॉइंट द्वारा GN⁺ 2024-03-05 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Anthropic ने Claude 3 परिवार पेश किया है, जिसमें Haiku, Sonnet और Opus के साथ intelligence, speed और cost के बीच संतुलन चुनने वाली नई model lineup दी गई है
  • Opus MMLU, GPQA, GSM8K जैसे प्रमुख evaluations में समान श्रेणी के models से आगे है, और Claude 3 कुल मिलाकर analysis, prediction, code generation और non-English conversations में बेहतर हुआ है
  • speed differentiation इसका मुख्य आधार है: Haiku लगभग 10k-token वाले arXiv paper को 3 सेकंड से कम में पढ़ सकता है, और Sonnet अधिकतर workloads में Claude 2 और 2.1 से 2 गुना तेज है
  • Claude 3 photos, charts, graphs और technical diagrams जैसे vision inputs को process करता है, और launch के समय 200K context window तथा 1 million tokens से अधिक input की संभावना के साथ आता है
  • Opus और Sonnet claude.ai और Claude API पर तुरंत उपलब्ध हैं, API 159 देशों में उपलब्ध है, और Haiku जल्द launch होगा

मॉडल संरचना और उपलब्धता

  • Claude 3 परिवार performance के ascending order में Claude 3 Haiku, Claude 3 Sonnet, Claude 3 Opus से बना है
  • हर model को application के हिसाब से intelligence, speed और cost का संतुलन चुनने के लिए design किया गया है
  • Opus और Sonnet claude.ai और Claude API पर उपलब्ध हैं
    • Claude API general availability में है और 159 देशों में उपलब्ध है
    • Haiku जल्द उपलब्ध होगा
  • claude.ai का free experience Sonnet से powered है, और Opus Claude Pro subscribers के लिए उपलब्ध है
  • Sonnet Amazon Bedrock पर भी उपलब्ध है, और Google Cloud के Vertex AI Model Garden में private preview के रूप में उपलब्ध है
    • Opus और Haiku भी जल्द दोनों platforms पर जोड़े जाएंगे

intelligence, speed और multimodal performance

  • Opus Anthropic का सबसे intelligent model है, जो MMLU, GPQA, GSM8K जैसे AI system evaluation benchmarks में कई मामलों में समान श्रेणी के models से आगे है
  • Claude 3 models analysis और prediction, fine-grained content generation, code generation, और Spanish, Japanese, French जैसी non-English conversations में बेहतर capabilities दिखाते हैं
  • real-time response महत्वपूर्ण होने वाले कामों के लिए उपयोग का दायरा बढ़ गया है
    • live customer chat
    • autocomplete
    • data extraction
  • Haiku अपनी intelligence category में सबसे तेज और cost-effective model है, और charts व graphs वाले लगभग 10k-token arXiv paper को 3 सेकंड से कम में पढ़ सकता है
  • Sonnet अधिकतर workloads में Claude 2 और Claude 2.1 से 2 गुना तेज है और higher intelligence level देता है
    • knowledge search
    • sales automation
  • Opus Claude 2 और Claude 2.1 जैसी speed बनाए रखते हुए higher intelligence level देता है

vision input, refusals में कमी और accuracy improvement

  • Claude 3 models में दूसरे leading models जैसी vision capabilities हैं
    • photos
    • charts
    • graphs
    • technical diagrams
  • कुछ enterprise customers के knowledge base का 50% तक हिस्सा PDF, flowchart, presentation slides जैसे formats में stored है, इसलिए नए input formats बहुत महत्वपूर्ण हैं
  • पिछले Claude models अक्सर ऐसे unnecessary refusals देते थे जो context understanding की कमी जैसे लगते थे, लेकिन Claude 3 के Opus, Sonnet और Haiku में system guardrails के करीब prompts पर पिछली generation की तुलना में answer refuse करने की संभावना काफी कम हुई है
  • Claude 3 requests को ज्यादा fine-grained तरीके से समझने और वास्तविक harm पहचानने के लिए बेहतर किया गया है, ताकि harmless prompts पर refusals घटें
  • accuracy evaluation में current model की known weaknesses को target करने वाले complex factual questions का set इस्तेमाल किया गया
    • answers को correct, incorrect या hallucination, और uncertainty acknowledgement में classify किया गया
    • Opus ने Claude 2.1 की तुलना में कठिन open-ended questions पर correct-answer rate को 2 गुना बेहतर किया और incorrect-answer level भी घटाया
  • Claude 3 models में जल्द citation feature जोड़ा जाएगा, जिससे answers verify करने के लिए reference material के exact sentences की ओर point किया जा सकेगा

लंबा context और recall capability

  • Claude 3 परिवार launch के समय 200K context window देता है
  • तीनों models 1 million tokens से अधिक input ले सकते हैं, और यह ज्यादा processing capability की जरूरत वाले कुछ customers को उपलब्ध कराया जा सकता है
  • long-context prompts को ठीक से handle करने के लिए मजबूत recall capability जरूरी है
  • Needle In A Haystack(NIAH) evaluation बड़े data corpus से information को सही तरीके से recall करने की क्षमता मापता है
    • evaluation robustness बढ़ाने के लिए हर prompt में 30 random needle/question pairs में से एक का इस्तेमाल किया गया
    • अलग-अलग crowdsourced document corpora पर test किया गया
  • Claude 3 Opus ने NIAH में 99% से ज्यादा accuracy के साथ लगभग perfect recall हासिल किया
  • कुछ cases में इसने evaluation की limits भी पहचान लीं, जैसे यह समझना कि “needle” sentence मूल text में इंसान द्वारा artificial तरीके से insert किया गया लगता है

safety design और bias mitigation

  • Anthropic ने Claude 3 परिवार को उसकी capabilities जितना ही trustworthy बनाने पर focus किया
  • dedicated teams कई risks को track और mitigate करती हैं
    • misinformation
    • CSAM
    • biological misuse
    • election interference
    • autonomous replication capability
  • model safety और transparency बढ़ाने के लिए Constitutional AI जैसे methods का विकास जारी है
  • नए input formats से पैदा हो सकने वाली privacy issues को mitigate करने के लिए models को tune किया गया है
  • Bias Benchmark for Question Answering(BBQ) के आधार पर Claude 3 में पिछले models की तुलना में कम bias है
  • Claude 3 परिवार biological knowledge, cyber-related knowledge और autonomy के प्रमुख metrics में पिछले models से आगे बढ़ा है, लेकिन Responsible Scaling Policy के तहत AI Safety Level 2(ASL-2) पर ही रहता है
  • red-team evaluation ने निष्कर्ष निकाला कि current models में catastrophic risk की संभावना बहुत कम है
    • evaluation White House commitments और 2023 US Executive Order के अनुरूप किया गया
    • future models ASL-3 threshold के कितने करीब हैं, इसकी monitoring जारी रहेगी
  • extra safety details Claude 3 model card में हैं

usability, model-wise pricing और use cases

  • Claude 3 models complex multi-step instructions को बेहतर follow करते हैं
  • brand voice और response guidelines का पालन करने तथा reliable customer-facing experiences बनाने के लिए ये ज्यादा उपयुक्त हैं
  • JSON जैसे structured outputs generate करने की क्षमता बेहतर हुई है, जिससे natural-language classification और sentiment analysis जैसे use cases में Claude को instruct करना आसान होता है
  • Claude 3 Opus

    • Claude 3 Opus सबसे intelligent model है, जो अत्यधिक complex tasks में top-level performance देता है
    • open prompts और पहली बार आने वाले scenarios को high fluency और human-like understanding के साथ handle करता है
    • कीमत input के प्रति 1 million tokens $15 और output के प्रति 1 million tokens $75 है
    • context window 200K है, और specific use cases में 1 million tokens भी संभव हैं
    • संभावित use cases
      • APIs और databases में complex task planning और execution, interactive coding
      • research review, brainstorming, hypothesis generation, drug discovery
      • charts और graphs, finance, market trends, predictions पर advanced analysis
  • Claude 3 Sonnet

    • Claude 3 Sonnet intelligence और speed के balance को target करता है, खासकर enterprise workloads के लिए tuned है
    • समान श्रेणी के models से कम cost पर strong performance देता है, और large-scale AI deployment में high durability के लक्ष्य से design किया गया है
    • कीमत input के प्रति 1 million tokens $3 और output के प्रति 1 million tokens $15 है
    • context window 200K है
    • संभावित use cases
      • विशाल knowledge पर RAG या search/retrieval
      • product recommendation, prediction, targeted marketing
      • code generation, quality control, images से text parsing
  • Claude 3 Haiku

    • Claude 3 Haiku लगभग instant responsiveness के लिए सबसे तेज और सबसे छोटा model है
    • simple queries और requests का बहुत तेजी से जवाब देता है, और human interaction की नकल करने वाला smooth AI experience बनाने का लक्ष्य रखता है
    • कीमत input के प्रति 1 million tokens $0.25 और output के प्रति 1 million tokens $1.25 है
    • context window 200K है
    • संभावित use cases
      • live interactions में तेज और accurate customer support, translation
      • risky behavior या customer requests पकड़ने के लिए content moderation
      • logistics optimization, inventory management, unstructured data से knowledge extraction

planned features और updates

  • Anthropic मानता है कि model intelligence अपनी limit के करीब नहीं है, और आने वाले महीनों में Claude 3 परिवार के लिए frequent updates release करने की योजना है
  • enterprise use cases और large-scale deployment के लिए model capabilities को मजबूत करने वाले features planned हैं
    • tool use, यानी function calling
    • interactive coding, यानी REPL
    • अधिक advanced agent capabilities
  • AI capabilities की boundary को आगे बढ़ाते हुए safety guardrails को भी performance improvements के अनुरूप बनाए रखने की नीति है
  • Claude के साथ development शुरू करने का entry point anthropic.com/claude है

1 टिप्पणियां

 
GN⁺ 2024-03-05
Hacker News की राय
  • मैंने अभी अपने LLM command-line tool में Claude 3 models का support जोड़ने वाला plugin जारी किया है
    pipx install llm, llm install llm-claude-3, llm keys set claude से setup करने के बाद इसे llm -m claude-3-opus '3 fun facts about pelicans' की तरह चला सकते हैं
    Code: https://github.com/simonw/llm-claude-3
    LLM का विवरण: https://llm.datasette.io/

    • Mac पर Automator में एक Quick Action बनाकर selected text को llm -m gpt-4 में भेजा और result को osascript dialog box में दिखाया, तो यह बहुत उपयोगी निकला
      अब किसी भी app में text drag करके service menu का LLM चला सकता हूँ, और keyboard shortcut भी जोड़ दिया है; इसे terminal errors समझने, adhoc search, और text editor/IDE में सीधे prompt डालने के लिए इस्तेमाल कर रहा हूँ
    • Hacker News summarization script को Claude 3 Opus पर switch किया है, और original explanation यहाँ है: https://til.simonwillison.net/llms/claude-hacker-news-themes
      hn.algolia.com API से posts और comments लाकर उन्हें jq से expand किया, फिर llm -m claude-3-opus में डालकर topic-wise Markdown summary और direct quotes बनवाए
      इस 300+ comments वाले thread पर चलाने का result: https://gist.github.com/simonw/37781de39fb5555f39b4157a8ad0776c
    • Anthropic API key generation मुफ्त जैसा दिखता है, तो लगता है headless Chrome से key input वाले step तक automate किया जा सकता है
      pip या apt से install करते ही चलने वाला software और बढ़ेगा, लेकिन अभी इंसान द्वारा API key paste करने वाला परेशान करने वाला step बचा हुआ है
      मजाक में यह भी कहा जा सकता है कि API limit के करीब पहुँचने पर GPU से थोड़ा Bitcoin mine करके extra API capacity के लिए automatic payment कर देना AI युग जैसा होगा
    • अगर Mac पर Raycast इस्तेमाल करते हैं, तो user script बनाकर Raycast interface से LLM CLI के साथ interact कर सकते हैं: https://gist.github.com/vladstudio/92efe283453f5f22d4606947b9f82719
  • Opus और पुराने Claude models अभी भी Sally problem ठीक से solve नहीं कर पाते
    “अगर Sally के 3 भाई हैं और हर भाई की 2 बहनें हैं, तो Sally की कितनी बहनें हैं?” इस सवाल पर Claude यह निष्कर्ष निकालता है कि Sally को छोड़कर कोई बहन नहीं है, इसलिए जवाब 0 है
    https://imgur.com/a/EawcbeL

    • GPT-4 API और ChatGPT भी default रूप से गलत थे और उन्होंने “Sally की 2 बहनें हैं” जवाब दिया, लेकिन step-by-step reasoning मांगने वाला system prompt देने पर सही 1 बताया
      Prompting style की अहमियत के कारण models की peak performance compare करना काफी मुश्किल हो जाता है, और हर model में best performance देने वाली prompt style भी अलग होती है
    • Local LLama 13B Q5 ने इस problem पर जवाब दिया कि Sally की एक बहन है—यानी खुद Sally—और 3 भाइयों में से हर एक की 3 बहनें हैं, इसलिए कुल 9 में से Sally का हिस्सा घटाकर 8 हैं
    • Sally के माता-पिता और उसके भाइयों के माता-पिता remarriage वगैरह की वजह से अलग हो सकते हैं, और अगर भाई-बहन का रिश्ता सिर्फ एक parent share करने से भी माना जाए, तो सही जवाब unique नहीं हो सकता
      उदाहरण के लिए, Sally और तीनों भाई एक ही माँ share करते हों लेकिन पिता अलग हों, और भाइयों की Sally और Mary नाम की दो बहनें हों, लेकिन Mary और Sally के parents के sets अलग होने से वे आपस में बहनें न हों
    • ऐसे examples की वजह से AI hype पर शक होने लगता है
      PhD-level intelligence कहा जाता है, लेकिन ऊपर वाला problem भी सही से reason नहीं कर पाता; PhD-level information volume और advanced reasoning अलग चीजें हैं, और लगता है बहुत लोग यह फर्क नहीं समझते
      Self-driving में भी lane follow करना आसान है लेकिन lane identification और object identification मुश्किल हैं; जैसे car basic action कर रही हो तो लोग समझ बैठते हैं कि वह situation सच में समझ रही है, LLMs भी वैसे ही लगते हैं
    • यह निश्चित रूप से problem है, लेकिन सड़क पर किसी सामान्य adult से पूछें तो काफी लोग इस सवाल में गलत होंगे
      Model कहाँ गलत होता है, सिर्फ उसी पर अटके रहने के बजाय, वह जो कमाल की चीजें सही कर पाता है उन्हें भी साथ में देखना चाहिए
  • Claude 3 Opus का APPS benchmark 70.2% दिखाता है कि यह coding में काफ़ी उपयोगी हो सकता है
    APPS समस्या-विवरण को Python code में बदलने की क्षमता मापता है, और समस्याओं की औसत लंबाई लगभग 300 शब्द है
    दिलचस्प बात यह है कि अन्य top-tier models ने इस benchmark के results सार्वजनिक नहीं किए
    Claude 3 model card: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
    Table 1: https://twitter.com/karinanguyen_/status/1764666528220557320
    APPS dataset: https://huggingface.co/datasets/codeparrot/apps
    APPS paper: https://arxiv.org/abs/2105.09938v3

    • Table 2 के AMC 10, AMC 12 2023 results देखें तो Claude 3 Opus इस maths competition में भाग लेने वाले औसत high school student से बेहतर लगता है
      students का average क्रमशः 64.4 और 61.5 है, जबकि Opus 3 ने 72 और 63 score किया
      AMC 12 participants, अमेरिका के कुल 30–40 लाख 12th-grade students में से 1 लाख से कम होने की संभावना है, और अगर मान लें कि सिर्फ़ top-tier students में से आधे ही भाग लेते हैं, तब भी AMC average अमेरिकी high school students के top 2–4% को represent कर सकता है
      https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf#page7
    • GPQA benchmark के पहले author David Rein के अनुसार, Claude 3 ने GPQA में लगभग 60% accuracy हासिल की, और उनका कहना है कि ये problems सचमुच कठिन हैं
      उनके मुताबिक, दूसरे क्षेत्रों के PhD holders भी internet का इस्तेमाल करते हुए 30 मिनट से ज़्यादा लगाकर इन्हें हल करें तो 34%, और उसी field के PhD holders internet इस्तेमाल करें तो भी 65–75% accuracy मिलती है
      https://twitter.com/idavidrein/status/1764675668175094169
      GPQA: A Graduate-Level Google-Proof Q&A Benchmark https://arxiv.org/abs/2311.12022
    • Anthropic में काम करने वाले के तौर पर कहूं तो, हाल में मेरे work code का काफ़ी बड़ा हिस्सा Opus लिखकर दे रहा है
    • benchmarks और तारीफ़ें देखकर मैंने आज Pro subscribe किया, लेकिन मेरे सामान्य workflow में यह पूरी तरह disaster था
      ChatGPT-4 की तुलना में यह कई orders of magnitude ज़्यादा खराब लगा, और actual use में ऐसा लगा जैसे बहुत पीछे लौट गए हों
    • APPS में difficulty के हिसाब से introductory, interview, competition नाम के तीन subsets हैं, लेकिन यह साफ़ नहीं है कि Claude 3 को किस subset पर measure किया गया
      सिर्फ़ introductory पर भी यह अच्छा performance है, लेकिन कौन-सा criterion था यह पता चले तो बेहतर होगा
  • Claude 3 के विवरण में यह बात बार-बार खटकती है कि पिछले मॉडल की तुलना में गैर-ज़रूरी refusals कम हुए हैं
    यह समझ में आता है कि कंपनी ऐसा product नहीं बेचना चाहती जिससे कोई भी ड्रग्स या बम बनाने के तरीके सीख ले, लेकिन अगर मेरे कंप्यूटर पर चलने वाला मॉडल मेरे मांगे हुए काम से मना कर दे तो बुरा लगता है
    मनचाहा नतीजा पाने के लिए मॉडल को मनाना या धोखा देना पड़ता है, और कोई tool अपने मालिक के आदेश मानने से इनकार करे, यह इंसान और tool के रिश्ते के प्रति अपमान जैसा लगता है
    अगर मैं हथौड़े का इस्तेमाल स्क्रू पर करना चाहूं तो वह मेरी पसंद है, हथौड़े का फैसला नहीं; और मुझे समझ नहीं आता कि किसी तीसरे पक्ष द्वारा परिभाषित “safety” की वजह से AI tool को उसके मालिक के आदेश न मानने देने पर इतना जोर क्यों है

    • ये लोग कुछ-कुछ उसी सिद्धांत पर चलते हैं जैसे कई developers हथियारों के विकास में मदद करने से इनकार करते हैं
      वे नहीं चाहते कि उनके tools से दूसरों के किए काम उनकी अंतरात्मा पर बोझ बनें
      हालांकि बहुत से लोग thought crime में विश्वास रखते हैं और सेक्स को लेकर puritanical मान्यताएं रखते हैं, इसलिए इनके अनुरूप न चलने पर reputation और funding की लागत आती है
      अगर user मॉडल से अपराध करता है तो कानूनी व्यवस्था उसे संभाल सकती है; मुझे नहीं लगता कि Big Brother को thought crimes तक की निगरानी करनी चाहिए
    • हथौड़े वाली उपमा खराब है, और “अगर मैं परमाणु हथियार इस्तेमाल करना चाहूं तो यह मेरी पसंद है और दुरुपयोग की जिम्मेदारी भी मेरी” वाली उपमा भी उतनी ही खराब है
      अभी हथौड़े वाली उपमा काफी हद तक सही लग सकती है, लेकिन AI alignment वाले मानते हैं कि ये systems जल्द ही, अधिकतम 10 साल के भीतर, क्षमताओं में बहुत आगे बढ़ जाएंगे
      किसी tool की मूल अवस्था नैतिक रूप से neutral होती है और वह अच्छे और बुरे दोनों लोगों को अधिक प्रभावी बनाता है; अगर attack और defense symmetric हों तो समस्या छोटी है, लेकिन ऐसा होने की कोई वजह नहीं
      automatic high-capacity machine guns पर regulation भी इसलिए है क्योंकि अकेले बुरे actor की attack क्षमता और उसे defend न कर पाने के बीच asymmetry बहुत बड़ी है; और अगर AI attacks defense से कहीं आसान हो गए तो openness की विचारधारा वास्तविकता में विफल हो सकती है
      हालांकि guardrails को कोई छोटा समूह तय करे, यह समस्या है, और यह AI के बहुत तेजी से आ जाने का side effect लगता है
    • अगर कोई हथौड़ा company लगभग बिना लागत के हथौड़े को लोगों पर attack में इस्तेमाल होने से रोक सके, तो लगता है कई companies ऐसा feature डालेंगी
      सरकारी दबाव की वजह से या “हमारा हथौड़ा गलती से बच्चों को चोट नहीं पहुंचाता” जैसी competitive marketing के कारण भी ऐसा हो सकता है; और हथौड़ों में ऐसा feature न होना शायद कोई choice नहीं, बल्कि limitation का by-product हो सकता है
    • मुझे यह entitlement कुछ ज्यादा लगता है
      क्या Photoshop का पैसे की image edit करने से रोकना भी बुरा लगता है? वह मॉडल user का नहीं है, और उसे बनाने में अरबों dollars खर्च करने वाला भी user नहीं है
      commercial software में हमेशा की तरह, developer द्वारा तय शर्तों पर इस्तेमाल करें या बिल्कुल न करें
    • refusals पर नाराज होने वाले लोग शायद AI market के असली customers और पैसा कहां है, यह नहीं समझते
      target market वे बड़ी companies हैं जो कई काम automate करके करोड़ों से अरबों dollars की labor cost बचाना चाहती हैं, और उन्हें accurate information और अच्छे guardrails वाला भरोसेमंद model चाहिए
      कोई बड़ी multinational insurance company यह risk नहीं लेगी कि उसका customer-support chatbot किसी मजाक में उकसाए गए customer के लिए erotica लिख दे
      महत्वपूर्ण users individuals नहीं, बल्कि वे employers हैं जो emotional labor करने वाले customer-support staff को replace करना चाहते हैं; उन्हें controlled, polite और guardrails वाले human replacements चाहिए
  • Opus ने complex questions में Gemini Pro और GPT-4 को पीछे छोड़ दिया
    यह 43-page की life insurance investment PDF में कई numbers ढूंढने का task था, और दूसरे models आसपास भी नहीं पहुंचे
    सिर्फ Claude 3 Sonnet एक question miss करने के स्तर तक करीब था

    • जानना चाहूंगा कि क्या इसकी तुलना Gemini Pro 1.5 के 1 million token context window से भी की गई
      43-page PDF के लिए यह ideal हो सकता है, और मेरे पास access है इसलिए Pro 1.5 से test कर सकता हूं
    • Sonnet से GAN से जुड़ा question पूछा था, काफी ठीक था और GPT-3.5 से बेहतर लगा
    • Sonnet इस्तेमाल किया, पर खास अच्छा नहीं लगा
  • Claude Pro subscribe करके Opus test किया; image और SDXL fine-tuning से जुड़े complex questions पूछे, और RTX 6000 Ada बनाम H100 cost comparison calculate कराया, लेकिन गलतियां बहुत थीं
    Runpod GPU pricing का screenshot दिया तो उसने RTX 6000 Ada की price $1.14 के बजाय $0.114 पढ़ ली, और बाद की calculations में भी .278 * $0.114 या .116 * $4.69 उसके दिए total से match नहीं कर रहे थे
    इसके उलट ChatGPT 4 ने उसी screenshot से price सही पढ़ी, यह देखकर कि RTX 6000 Ada उपलब्ध नहीं है, खुद 4090 से substitute किया, और ज्यादा consistent calculations कीं

    • लगता है GPT input/output tokens पर अलग helper function चलाकर tokenization problem को correct करता है
      formula items को ढूंढकर किसी hand-made parser और function को भेजना, फिर result को output tokens में वापस डालना—इसके बिना यह problem fix करने का तरीका नहीं दिखता
      संदर्भ: Let's build the GPT Tokenizer https://www.youtube.com/watch?v=zduSFxRajkE
    • Anthropic CISO के तौर पर feedback के लिए धन्यवाद; अगर image details share कर सकें तो private message में भेजें
      अभी तक किसी भी LLM के पास emergent calculator नहीं आया है
    • जब OpenAI ने कहा था कि vision वाला GPT-4, बिना vision वाले GPT-4 से ज्यादा smart है, तो उनका ठीक-ठीक मतलब क्या था, यह जानना चाहूंगा
      क्या मतलब यह है कि vision capability image input न होने वाले tasks में भी intelligence बढ़ाती है?
    • फर्क शायद screenshot पढ़ने में आता है, और केवल text दिया जाए तो GPT-4 जैसा ही level दिखता है
      उदाहरण के लिए एक complex arithmetic expression में calculator का सही answer 22.08555452004 था, Python के बिना GPT-4 ने 22.3038 दिया, और Claude 3 Opus ने 22.0492 दिया
    • असली economic destroyer शायद तब होगा जब “इन 1,000 dollars को invest करके returns maximize करो और इसे 100x बना दो” जैसी command संभव हो जाएगी
      उसके बाद r/wallStreetBets bots को जितना चाहो चलाना होगा
  • DB और frontend से जुड़ा एक आसान coding task prompt आज़माया, और free व कमजोर मॉडल Claude 3 Sonnet ने ChatGPT Classic से बेहतर जवाब दिया
    उसने कम-ज्ञात SQL ORM library का सही method इस्तेमाल किया, जबकि GPT-4 ने गलत method इस्तेमाल किया
    हालांकि SQL generation prompt में इसका जवाब ChatGPT Classic से खराब था, और सही दिखने के बावजूद काफी लंबा था
    ChatGPT लिंक 1: https://chat.openai.com/share/d6c9e903-d4be-4ed1-933b-b35df3619984
    ChatGPT लिंक 2: https://chat.openai.com/share/178a0bd2-0590-4a07-965d-cff01eb3aeba

    • उस chat में लगता है कि GPT-3 या कोई और कमजोर मॉडल इस्तेमाल हो रहा है
      हरा icon पहली generation के ChatGPT model को दर्शाता है, और शायद वह GPT-3.5 Turbo होने की संभावना ज्यादा है
      GPT-4 पर चलाने से अपेक्षित परिणाम मिलता है: https://chat.openai.com/share/da15f295-9c65-4aaf-9523-601bf463c3b3
      यह बताने का अच्छा उदाहरण है कि internet पर मौजूद ChatGPT की कई failure cases कमजोर मॉडल के results होते हैं
      हरे background वाला OpenAI icon GPT-3.5 है, काला या बैंगनी icon GPT-4 है, और API वाला GPT-4 Turbo शायद Drizzle के बारे में ज्यादा जानता है, इसलिए थोड़ा बेहतर रहा
  • Opus को थोड़ा इस्तेमाल करके मुझे शक होने लगा है कि benchmarks वास्तविक performance से systematic रूप से अलग पड़ रहे हैं
    असल में यह GPT-4 से बेहतर नहीं लगता, बल्कि थोड़ा और खराब लगता है
    basic calculus/physics वाले सवाल में साफ लिखा था कि deceleration velocity के proportional है, फिर भी इसने constant deceleration मान लिया; और traffic simulation test में इसने पहले की बातचीत में बताए गए direction concepts भूल गए, जिससे यह GPT-4 के पहले से ही खराब result से भी नीचे रहा
    context में सिखाने के बाद basic light colors समझने वाले test में भी यह ज्यादा खराब था, और coding में long-term capital gains tax calculation problem में GPT-4 से थोड़ा पीछे था

    • YouTube के AI Explained ने पहले एक video डाला था कि LLM evaluation में इस्तेमाल होने वाले tests गलत जवाबों से भरे हैं और लगभग बेकार हैं
    • लगता है model को train करने के बाद जैसे ही numbers मिलते हैं, safety team उसे RLHF से खूब polish करती है
  • Claude 3 को https://double.bot के Chat में जोड़ दिया है, इसलिए coding के लिए इस्तेमाल करके देख सकते हैं
    अभी यह free है, और आज दोपहर autocomplete में भी Claude 3 जोड़ने की योजना है
    शुरुआती tests के हिसाब से यह GPT-4 का पहला API alternative जैसा लगता है, और यह बड़ी बात है

    • क्या मतलब Double Copilot जैसा है लेकिन free? जानना चाहूंगा कि catch क्या है
    • यह Codeium से कैसे compare होता है, और क्या Vim/Neovim integration support की योजना है, यह भी जानना चाहूंगा
      Codeium में पहले से काफी अच्छी support है
      https://www.codium.ai
      https://github.com/Exafunction/codeium.vim
    • जानना चाहूंगा कि Double local या cloud instance पर hosted open-source models को support करने की भी योजना रखता है या नहीं
      मैं इसी domain में product बना रहा हूं और ऐसी requests कुछ बार मिली हैं; IDE extension हो तो लगता है कि जहां भी AI model चल रहा हो, उससे connect किया जा सकता है
    • API अभी GPT-4 से कम stable लगती है, लेकिन launch के तुरंत बाद endpoint popular हो तो यह समझ में आता है
    • सही-सही कहें तो जानना चाहूंगा कि यह Claude 3 Opus है या Sonnet model
  • किसी भी model का GPT-4 को पार करना बड़ी बात है, और यह कर दिखाना बहुत impressive है
    हालांकि GPT-4 एक साल पुराना model है और OpenAI ने अभी अगली generation model जारी नहीं किया है

    • यह expect करना स्वाभाविक है कि OpenAI का अगला model बढ़त वापस ले लेगा, लेकिन Anthropic ने जिस हद तक catch up किया है वह बहुत impressive है
      GPT-3 paper 2020 में आया था और Anthropic 2021 में ही founded हुआ था, इसलिए OpenAI के पास तीन generations का experience था, जबकि Anthropic ने practically शून्य से शुरू करके कुछ benchmarks में कम से कम temporarily आगे निकल गया
      OpenAI का next-gen model शायद training खत्म करके fine-tuning और safety evaluation में होगा, लेकिन Anthropic का raison d’être safety है, इसलिए यह मानना मुश्किल है कि उन्होंने इस model को जल्दी release करने के लिए उस हिस्से को हल्के में लिया होगा
    • ChatGPT-4 लगातार update हो रहा है, और हाल के versions GPT-4-1106-preview और GPT-4-0125-preview हैं
      संदर्भ: https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard
    • blog footnote के मुताबिक, evaluation prompts और few-shot samples को optimize करने वाले engineers ने नए GPT-4T model में ज्यादा scores report किए हैं
    • GPT के जन्म में अहम भूमिका निभाने वाले लोग अब Anthropic में काम कर रहे हैं
    • उस table में असल में important metric MMLU है, और यह multi-task reasoning ability से काफी correlated है
      यहां इसने GPT-4 को बहुत थोड़ा पीछे छोड़ा है, और अब तक कोई और model ऐसा नहीं कर पाया लगता था, इसलिए यह अपने आप में impressive है