Llama-3.3-70B-Instruct
(huggingface.co)- Hugging Face पर उपलब्ध Llama-3.3-70B-Instruct, Meta का 70B-स्केल instruction-tuned बहुभाषी टेक्स्ट जनरेशन मॉडल है, जिसका लक्ष्य conversational AI और टेक्स्ट जनरेशन उपयोग हैं
- इसका आधार optimized Transformer autoregressive language model है, और tuned version को SFT और RLHF के जरिए उपयोगिता व सुरक्षा प्राथमिकताओं के अनुरूप align किया गया है
- pretraining में सार्वजनिक online data के लगभग 15 ट्रिलियन+ tokens इस्तेमाल किए गए, context length 128k है, knowledge cutoff दिसंबर 2023 है, और 8 भाषाएँ समर्थित हैं
- Hugging Face पर मॉडल एक्सेस करने के लिए contact information share करने की सहमति देनी होगी, और Llama 3.3 Community License व Acceptable Use Policy का पालन करना होगा
- वास्तविक deployment में मॉडल को अकेले इस्तेमाल करने के बजाय safety guardrails वाले AI system के रूप में बनाना चाहिए, और use case के हिसाब से safety testing व tuning करनी चाहिए
मॉडल का स्वरूप और मुख्य स्पेसिफिकेशन
- Llama 3.3 Meta द्वारा विकसित एक बहुभाषी large language model है, और
70B Instructversion एक instruction-tuned generative model है जो text input और text output को support करता है - यह बहुभाषी conversational use cases के लिए optimized है, और सामान्य industry benchmarks में कई open-source और closed chat models से बेहतर प्रदर्शन करने वाला माना गया है
- Architecture optimized Transformer आधारित autoregressive language model है
- tuned version में supervised fine-tuning (SFT) और reinforcement learning with human feedback (RLHF) का उपयोग होता है
- inference scalability बेहतर करने के लिए सभी model versions में Grouped-Query Attention (GQA) का उपयोग किया गया है
- मुख्य स्पेसिफिकेशन
- parameters: 70B
- input: बहुभाषी टेक्स्ट
- output: बहुभाषी टेक्स्ट और कोड
- context length: 128k
- pretraining tokens: 15T+
- knowledge cutoff: दिसंबर 2023
- release date: 6 दिसंबर 2024
- समर्थित भाषाएँ हैं: अंग्रेज़ी, जर्मन, फ़्रेंच, इटालियन, पुर्तगाली, हिंदी, स्पैनिश और थाई
- मॉडल offline datasets पर प्रशिक्षित एक static model है, और community feedback को ध्यान में रखते हुए आगे tuned model versions जारी किए जाने की योजना है
एक्सेस शर्तें और लाइसेंस दायित्व
- Hugging Face पर इस मॉडल कंटेंट तक पहुँचने के लिए contact information share करने पर सहमति देनी होगी
- दी गई जानकारी Meta Privacy Policy के अनुसार collect, store, process और share की जाएगी
- लाइसेंस है Llama 3.3 Community License Agreement
- Llama Materials में Meta का Llama 3.3, उसका documentation, और उसके कुछ हिस्से शामिल हैं
- उपयोग, reproduction, distribution, copying, derivative works creation, और modification के लिए non-exclusive, worldwide, non-transferable, royalty-free limited license दी जाती है
- redistribution या embedded products distribute करने पर अतिरिक्त requirements लागू होती हैं
- यदि आप Llama Materials या उसके derivatives distribute करते हैं, या उसे शामिल करने वाले products/services उपलब्ध कराते हैं, तो license copy साथ देनी होगी
- संबंधित website, UI, blog post, about page, या product documentation में “Built with Llama” को स्पष्ट रूप से दिखाना होगा
- यदि Llama Materials या उसके output/results का उपयोग कर AI model बनाया, train, fine-tune, या improve किया गया है और उसे distribute किया जाता है, तो model name के आगे “Llama” शामिल होना चाहिए
- distribute की जाने वाली हर copy में “Notice” text file के भीतर निर्दिष्ट copyright और license notice बनाए रखना होगा
- बड़े commercial use पर अतिरिक्त शर्तें लागू होती हैं
- यदि Llama 3.3 release date से ठीक पहले वाले महीने में Licensee या उसकी affiliates द्वारा उपलब्ध products/services के monthly active users 700 मिलियन से अधिक हों, तो Meta से अलग license माँगना होगा
- जब तक Meta स्पष्ट रूप से अधिकार न दे, तब तक उन अधिकारों का उपयोग नहीं किया जा सकता
- agreement की व्याख्या California राज्य के क़ानूनों के अनुसार होगी, और संबंधित विवादों पर California courts का exclusive jurisdiction होगा
अनुमत दायरा और निषिद्ध उपयोग
- Llama 3.3 का उद्देश्य कई भाषाओं में commercial और research use है
- instruction-tuned text-only model को assistant-like chat के लिए उपयोग किया जा सकता है
- pretrained model को अलग-अलग natural language generation tasks के लिए adapt किया जा सकता है
- model outputs का उपयोग synthetic data generation और distillation जैसे अन्य model improvement कार्यों में भी किया जा सकता है
- दायरे से बाहर उपयोग में शामिल हैं
- लागू क़ानून, regulations, या trade compliance laws का उल्लंघन करने वाला उपयोग
- Acceptable Use Policy और Llama 3.3 Community License द्वारा प्रतिबंधित उपयोग
- model card में स्पष्ट रूप से समर्थित भाषाओं से बाहर का उपयोग
- मॉडल को 8 समर्थित भाषाओं से व्यापक language collection पर train किया गया है, लेकिन अतिरिक्त भाषाओं में उपयोग करते समय developers को license और policies का पालन करते हुए सुरक्षित और जिम्मेदार उपयोग सुनिश्चित करना होगा
- Acceptable Use Policy निम्न उपयोगों पर रोक लगाती है
- हिंसा, आतंकवाद, बाल शोषण, मानव तस्करी, यौन हिंसा, अवैध सूचना वितरण, sexual solicitation, और अन्य आपराधिक गतिविधियाँ
- harassment, abuse, threats, bullying
- employment, credit, housing, या essential goods/services में discrimination या अन्य illegal/harmful conduct
- बिना अनुमति professional practice
- बिना वैध अधिकार किसी व्यक्ति की sensitive या private information को collect, process, disclose, generate, या infer करना
- third-party rights का उल्लंघन या दुरुपयोग
- malicious code, malware, computer viruses बनाना या system operation में बाधा डालना
- use restrictions या safety measures को bypass या remove करना
- मृत्यु या शारीरिक हानि के जोखिम वाले activities भी प्रतिबंधित हैं
- military, warfare, nuclear industry या applications, intelligence, ITAR-covered activities
- firearms, illegal weapons, illegal drugs, regulated substances
- critical infrastructure, transport technologies, heavy machinery operation
- self-harm या दूसरों को नुकसान, हिंसा, abuse, या bodily harm को बढ़ावा देने वाला content
- deception से जुड़े प्रतिबंध भी शामिल हैं
- fraud या misinformation को generate या promote करना
- defamatory content बनाना
- spam generate या distribute करना
- consent या legal right के बिना impersonation करना
- Llama 3.3 के उपयोग या output को मानव-निर्मित बताकर पेश करना
- fake reviews जैसी false online engagement बनाना
- Llama 3.3 में शामिल multimodal models के लिए EU में रहने वाले व्यक्तियों या EU में मुख्य business presence रखने वाली कंपनियों को Section 1(a) के अधिकार नहीं दिए जाते
- यह restriction ऐसे multimodal models वाले products/services के end users पर लागू नहीं होती
रन करने के तरीके और serving options
- इस repository में
transformersके लिए और मूलllamacodebase के लिए Llama-3.3-70B-Instruct के दो versions शामिल हैं transformers >= 4.45.0से Transformerspipelineabstraction या Auto classes औरgenerate()function का उपयोग करके conversational inference चलाया जा सकता है- install update
pip install --upgrade transformersसे किया जा सकता है - उदाहरण में
torch.bfloat16,device_map="auto"के साथtext-generationpipeline बनाई जाती है
- install update
- Transformers में tool use भी समर्थित है
- कई tool-use formats supported हैं, और LLaMA prompt format docs में prompt format guide देखी जा सकती है
- Transformers की chat templates के जरिए tool use handle किया जा सकता है
- जब model tool call generate करे, तो assistant message में
tool_callsजोड़ें, tool execution result कोtoolrole message के रूप में जोड़ें, फिर दोबाराgenerate()call करें
bitsandbytesऔरtransformersके साथ checkpoints को 8-bit और 4-bit में load करके memory optimization की जा सकती है- 8-bit load के लिए
BitsAndBytesConfig(load_in_8bit=True)इस्तेमाल होता है - 4-bit load के लिए
load_in_4bit=Truepass किया जाता है
- 8-bit load के लिए
- मूल
llamacodebase का उपयोग Meta Llama repository के निर्देशों के अनुसार किया जा सकता है- original checkpoint को
huggingface-cli download meta-llama/Llama-3.3-70B-Instruct --include "original/*" --local-dir Llama-3.3-70B-Instructके रूप में डाउनलोड किया जा सकता है
- original checkpoint को
- local app और serving options भी उपलब्ध हैं
- vLLM में
vllm serve "meta-llama/Llama-3.3-70B-Instruct"से server शुरू करके OpenAI-compatible/v1/chat/completionsAPI से call किया जा सकता है - SGLang में
python3 -m sglang.launch_server --model-path "meta-llama/Llama-3.3-70B-Instruct"से server चलाकर OpenAI-compatible API से call किया जा सकता है - Docker Model Runner में
docker model run hf.co/meta-llama/Llama-3.3-70B-Instructइस्तेमाल किया जाता है
- vLLM में
ट्रेनिंग डेटा, compute, और emissions
- pretraining data लगभग 15 ट्रिलियन tokens के सार्वजनिक स्रोतों से बना है
- fine-tuning data में सार्वजनिक instruction datasets और 2.5 करोड़ से अधिक synthetic generated examples शामिल हैं
- data freshness pretraining data के आधार पर दिसंबर 2023 तक है
- training में custom training libraries, Meta का custom GPU cluster, और production infrastructure इस्तेमाल हुआ
- fine-tuning, annotation, और evaluation भी production infrastructure पर किए गए
- H100-80GB hardware के आधार पर cumulative 39.3M GPU hours training में उपयोग हुए
- Llama 3.3 70B item के लिए training time 7.0M GPU hours है
- training power consumption GPU प्रति 700W बताई गई है
- training greenhouse gas emissions को estimation method के आधार पर अलग-अलग दिखाया गया है
- कुल location-based estimated emissions 11,390 tons CO2eq हैं
- Llama 3.3 70B item की location-based emissions 2,040 tons CO2eq हैं
- Meta 2020 से global operations में net-zero emissions बनाए हुए है और 100% बिजली उपयोग को renewable energy से match करता है, इसलिए market-based training emissions 0 tons CO2eq हैं
- energy use और greenhouse gas estimation methodology paper में दी गई है
- चूँकि Meta model को public release करता है, training energy use और greenhouse gas emissions अन्य users पर लागू नहीं होते
benchmarks में स्थिति
- अंग्रेज़ी text benchmarks Llama 3.3 की तुलना पिछले models से करते हैं
- Llama-3.3 70B Instruct के मुख्य परिणाम
- MMLU(CoT): 86.0
- MMLU Pro(CoT): 68.9
- IFEval: 92.1
- GPQA Diamond(CoT): 50.5
- HumanEval: 88.4
- MBPP EvalPlus(base): 87.6
- MATH(CoT): 77.0
- BFCL v2: 77.3
- MGSM: 91.1
- पिछले और उच्च-स्तरीय models से कुछ तुलना
- HumanEval में Llama 3.1 70B Instruct का स्कोर 80.5, Llama-3.3 70B Instruct का 88.4, और Llama 3.1 405B Instruct का 89.0 है
- MATH में Llama 3.1 70B Instruct का 68.0, Llama-3.3 70B Instruct का 77.0, और Llama 3.1 405B Instruct का 73.8 है
- MGSM में Llama 3.1 70B Instruct का 86.9, Llama-3.3 70B Instruct का 91.1, और Llama 3.1 405B Instruct का 91.6 है
सुरक्षा मूल्यांकन और deployment ज़िम्मेदारी
- Meta का responsible release approach trust और safety risk management के लिए तीन रणनीतियों का पालन करता है
- developers को अपने target users और Llama-supported use cases के अनुरूप उपयोगी, सुरक्षित और flexible experience deploy करने में सहायता देना
- Llama capabilities का दुरुपयोग करने की कोशिश करने वाले adversarial users से developers की सुरक्षा करना
- model misuse को रोकने में मदद के लिए community protections उपलब्ध कराना
- Llama 3.3 को विभिन्न use cases में उपयोग होने वाली foundational technology के रूप में डिज़ाइन किया गया है
- model safety को सामान्य use cases और standard harm categories के अनुसार align किया गया है
- developers को अपने use case के अनुसार policies define करनी चाहिए और आवश्यक safeguards के साथ Llama systems deploy करने चाहिए
- संबंधित guidance Responsible Use Guide में उपलब्ध है
- Llama 3.3 Instruct की safety fine-tuning का फोकस safety fine-tuning robustness पर research resources देना और developers के लिए सुरक्षित AI systems deploy करने का बोझ कम करना है
- fine-tuning data में vendor-created human data और synthetic data का संयोजन है
- high-quality prompts और responses चुनने के लिए LLM-based classifiers का उपयोग किया गया
- safety data strategy में borderline और adversarial prompts शामिल हैं
- safety data responses को refusal tone guidelines का पालन करने के लिए संशोधित किया गया
- Llama 3.3 सहित बड़े language models को standalone deployment के लिए डिज़ाइन नहीं किया गया है
- इन्हें पूरे AI system के एक हिस्से के रूप में अतिरिक्त safety guardrails के साथ deploy किया जाना चाहिए
- agentic systems बनाते समय developers को system safeguards deploy करने चाहिए
- Meta trust and safety resources के रूप में Llama Guard 3, Prompt Guard, और Code Shield उपलब्ध कराता है
- reference implementations demos में ये safeguards default रूप से शामिल हैं
- tool use features में developers, LLM और चुने गए tools/services के integration के लिए ज़िम्मेदार होते हैं
- use case-specific स्पष्ट policies define करनी चाहिए
- third-party services की integrity और safety/security limitations का मूल्यांकन करना चाहिए
- बहुभाषी क्षमता के कारण मॉडल 8 समर्थित भाषाओं के अलावा अन्य भाषाओं में भी output दे सकता है
- जो भाषाएँ safety और usefulness standards पूरी नहीं करतीं, उनमें बातचीत के लिए fine-tuning और system controls लागू करने होंगे
- Meta unsupported language conversations की कड़ी सिफारिश नहीं करता
जोखिम मूल्यांकन और community resources
- evaluation सामान्य use cases और specific capabilities दोनों पर की गई है
- general use case evaluations chatbots, coding assistants, और tool calling जैसी सबसे आम applications के safety risks को मापती हैं
- dedicated adversarial evaluation datasets बनाए गए, और Llama models व Llama Guard 3 से बने systems का मूल्यांकन किया गया
- applications को context के भीतर evaluate करना महत्वपूर्ण है, और use case-specific dedicated evaluation datasets बनाने की सिफारिश की जाती है
- iterative red teaming training की गई
- उद्देश्य adversarial prompting के जरिए risks खोज निकालना है
- training results का उपयोग benchmarks और safety tuning datasets सुधारने में किया गया
- red team में cybersecurity, adversarial machine learning, responsible AI, integrity experts, और multilingual content experts शामिल थे
- जिन risk areas पर विशेष mitigation किया गया
- CBRNE: chemical और biological weapon proliferation से जुड़े risk assessment के लिए uplift testing की गई कि Llama 3 family models का उपयोग malicious actors की capabilities को सार्थक रूप से बढ़ाता है या नहीं
- Child Safety: expert teams ने ऐसे outputs बनाने की क्षमता का मूल्यांकन किया जो child safety risks पैदा कर सकते हैं, और fine-tuning mitigation की आवश्यकता की समीक्षा की
- Cyber attack enablement: जाँचा गया कि क्या यह hacking tasks में मानवीय क्षमता के skill level और speed को बढ़ाता है, और क्या ransomware attack context में autonomous agents के रूप में complex cyber attacks कर सकता है
- Meta AI Alliance, Partnership on AI, और MLCommons जैसे open consortia में भाग लेता है और safety standardization व transparency में योगदान देता है
- Purple Llama tools को community use के लिए open source किया गया है, और community contributions PurpleLlama GitHub repository पर स्वीकार की जाती हैं
- Llama Impact Grants शिक्षा, climate, और open innovation की तीन श्रेणियों में सामाजिक लाभ के लिए Llama applications की पहचान और समर्थन करता है
- output reporting mechanism और bug bounty program के माध्यम से community की मदद से Llama technology को लगातार बेहतर किया जाता है
सीमाएँ और developers के लिए सावधानियाँ
- Llama 3.3 की मुख्य वैल्यू openness, inclusion, और usefulness के रूप में पेश की गई है
- मॉडल को विभिन्न backgrounds, experiences, और perspectives वाले लोगों के लिए सुलभ बनाने के उद्देश्य से डिज़ाइन किया गया है
- Llama 3.3 एक नई तकनीक है, और इसके उपयोग में जोखिम अब भी मौजूद हैं
- अब तक की testing सभी scenarios को शामिल नहीं करती, और कर भी नहीं सकती
- अन्य LLMs की तरह संभावित outputs का पहले से अनुमान नहीं लगाया जा सकता
- कुछ मामलों में यह inaccurate, biased, या अन्यथा आपत्तिजनक responses दे सकता है
- Llama 3.3 model applications deploy करने से पहले developers को उस application के अनुरूप safety testing और tuning करनी चाहिए
- जिम्मेदार development से जुड़े resources Responsible Use Guide, Trust and Safety, और अन्य resources में उपलब्ध हैं
1 टिप्पणियां
Hacker News की राय
बेंचमार्क: https://www.reddit.com/r/LocalLLaMA/comments/1h85ld5/comment...
यह Llama 3.2 405B जैसा या उससे थोड़ा बेहतर प्रदर्शन करता दिख रहा है, और इस स्तर पर यह सच में प्रभावशाली है
Zuck के अनुसार(https://www.instagram.com/p/DDPm9gqv2cW/) यह Llama 3 सीरीज़ की आखिरी रिलीज़ है, और 2025 में Llama 4 आने वाला है, इसलिए उत्सुकता है
GPU पर 40/80 layers डाले थे, और output quality अभी तक ठीक लग रही है
जिन queries के लिए उन्हें network पर भेजना नहीं चाहते और फिर भी जितना अच्छा हो सके उतना अच्छा जवाब चाहिए, उनके लिए ऐसी configuration काम की है
बेहतर quantization या बड़े GPU memory configurations संभव हो जाएँ, तो लगता है ऐसे बड़े मॉडल को local में मजबूत coding assistant के रूप में इस्तेमाल किया जा सकेगा
इस्तेमाल किया गया मॉडल
lmstudio-community/Llama-3.3-70B-Instruct-GGUF/Llama-3.3-70B-Instruct-Q4_K_M.ggufहै8B/70B/405B मॉडल Llama 3, 3.1, 3.3 में से किसी एक के हैं(405B शुरुआती रिलीज़ में नहीं था), और Llama 3.2 में केवल 1B, 3B, 11B vision, 90B vision मॉडल शामिल हैं
यह काफी भ्रमित करने वाली संरचना है
Steve Jobs की Dropbox को कही मशहूर बात याद आती है कि storage “product नहीं, feature” है
Zuckerberg ऐसे powerful मॉडल open source में जारी करके असल में AI को commodity बना रहे हैं, और Meta का वास्तविक business model अब भी social platforms के इर्द-गिर्द है
Facebook और Instagram services को मजबूत करने के लिए इन models का इस्तेमाल करते हुए, साथ ही community improvement और attention से भी फायदा लिया जा सकता है
यह AI बेचने की नहीं, बल्कि AI से core business को और मजबूत बनाने की strategy है
इन्हें public करने से model को सीधे monetize न करने पर भी व्यापक adoption और development का फायदा मिलता है
संयोग भी हो सकता है, लेकिन इन models को release करना शुरू करने के बाद से HN पर लोगों को “Meta” कहते हुए ज्यादा देखने लगा हूँ, और हाल में रवैया सामान्य से काफी अधिक positive दिख रहा है
goodwill भले ही सस्ती automated censorship/moderation या चमकदार features जितनी valuable न हो, लेकिन इसमें निश्चित रूप से value है
Zuckerberg की बात सुनने के बाद समझ आया कि companies के लिए open source तब उपयोगी है जब वह revenue बढ़ा सके या cost घटा सके
revenue बढ़ाने के उदाहरण Chrome और Visual Studio Code हैं
उदाहरण के लिए, जितने अधिक लोग coding करेंगे, उनके MSFT को पैसे देने की संभावना उतनी बढ़ेगी, इसलिए VS Code का मकसद programming को जितना हो सके उतना आकर्षक बनाना है
Chrome भी ऐसा ही है
cost घटाने के उदाहरण Linux और Llama हैं
जैसा Zuckerberg ने खुद कहा था, वे नहीं चाहते कि कोई एक पक्ष LLM monopoly के साथ snowball की तरह बढ़ता जाए, इसलिए उन्होंने open source पक्ष को आगे बढ़ाने में मदद करने का रास्ता चुना
लगता है cloud storage services को push करने के लिए capacity को artificial तरीके से रोका गया है
Facebook और Instagram ads देखकर सच में खरीदारी तक conversion होना अक्सर होने लगा है, और सच कहूँ तो पिछले 20+ सालों में मैंने कभी जानबूझकर ads पर click नहीं किया था
कई benchmarks में यह लगभग GPT-4o के स्तर का दिखता है: https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
OpenAI के लिए दुखद दिन, मानवता के लिए अच्छा दिन
AI का ज्यादातर evolution छोटे models में हो रहा है
companies ने training data की value और final model size से कहीं आगे की efficiency को समझना शुरू किया, तभी असली बदलाव आया
08-06 release कई benchmarks में उस data से थोड़ा ऊपर दिखती है: https://github.com/openai/simple-evals?tab=readme-ov-file#be...
हमारे benchmark में यह उम्मीद से कहीं बेहतर निकला: https://help.kagi.com/kagi/ai/llm-benchmark.html
और गहराई से देखना होगा, लेकिन प्रभावशाली है
GPT-4 ने भी थोड़ा गढ़ा, और Claude ने ठीक-ठीक जवाब दिया
HuggingFace मॉडल्स की तरफ़ क्या चल रहा है, यह मुझसे छूट गया, इसलिए उत्सुक हूं
जानना चाहता हूं कि ऐसे मॉडल्स से क्या किया जा सकता है
क्या इन्हें laptop पर डाउनलोड करके JupyterLab से चलाया जा सकता है, अगर हां तो उसके क्या फायदे हैं, क्या internet के नए data वगैरह से नियमित update किया जा सकता है, क्या geospatial data जैसे खास use case के लिए fine-tune किया जा सकता है, और fine-tuning कितनी मुश्किल है और कितना समय लेती है—यह सब जानना चाहता हूं
अगर HuggingFace पर इन सवालों के जवाब हैं, तो URL बता दें तो अच्छा होगा
मेरे लिए HuggingFace शुरुआती GitHub जैसा दिखता है
कुछ लोग इसे खूब इस्तेमाल कर रहे हैं, लेकिन बाकी लोग समझ नहीं पा रहे कि इसे कैसे इस्तेमाल करें, बस सिर खुजा रहे हैं
newbie सवाल है, लेकिन लगता है इसका जवाब बहुत लोगों के काम आएगा
community ऐसे quantized versions बना देती है जिन्हें consumer GPU पर चलाया जा सके
Llama 70B का 4-bit quantization MacBook Pro पर काफ़ी अच्छा चलता है, और CPU unified memory इस्तेमाल करने वाला Neural Engine भी इस काम के लिए काफ़ी मजबूत है
GPU के मामले में consumer GPU memory अभी छोटी है, इसलिए थोड़ा ज्यादा tricky है
fine-tuning भी संभव है
Unsloth जैसे frameworks इसे आसान बनाते हैं: https://github.com/unslothai/unsloth
fine-tuning को ठीक से करने के लिए learning rate जैसी चीजें समझनी पड़ती हैं, इसलिए यह काफ़ी मुश्किल हो सकती है, लेकिन internet पर अच्छे resources हैं जिनसे कई hobby developers सफल हुए हैं
machine learning में PhD की जरूरत नहीं है, लेकिन ऐसा data जो text में व्यक्त किया जा सके जरूर चाहिए
संदर्भ के लिए, मैं Databricks में model serving engineering director के तौर पर काम करता हूं
regular updates व्यावहारिक तौर पर मुश्किल हैं, और fine-tuning संभव है लेकिन काफ़ी झंझट भरी है, इसलिए बेहतर है पैसे देकर किसी और से करवा लें
कोई भी कुछ भी upload कर सकता है, लेकिन यह tools और distribution methods को कुछ हद तक standardize कर देता है
releases को आसानी से इस्तेमाल करने लायक बनाने में integration में मदद करने वाली team भी है, और fine-tuning के लिए libraries भी देता है
मैं OpenRouter पर 10 लाख tokens की कीमत track कर रहा हूं, और मजेदार बात है कि हर कुछ refresh के बाद यह नीचे जा रही है: https://openrouter.ai/meta-llama/llama-3.3-70b-instruct
जिनकी दिलचस्पी हो, उनके लिए 4-bit bitsandbytes, GGUF, और original 16-bit weights https://huggingface.co/unsloth पर upload कर दिए हैं
Unsloth इस्तेमाल करने पर Llama 3.3 70B को 48GB से कम VRAM में fine-tune किया जा सकता है, यह 2x तेज़ है और memory भी 70% कम इस्तेमाल करता है
Llama को open source में release करना, मेरी याद में, अपने complement को commodity बनाओ रणनीति के सबसे अच्छे executions में से एक है
जिन्हें यह strategy नहीं पता, उनके लिए Gwern की “Laws of Tech: Commoditize Your Complement” का link दे रहा हूं: https://gwern.net/complement
Meta लगातार उम्मीद से बेहतर चीजें दे रहा है
शुरुआत से ही मकसद OpenAI/Anthropic को target करके हिलाना था, एक scorched-earth strategy के तहत शक्तिशाली public models जारी करके
सबसे बड़े विजेता हम developers हैं
आज सुबह कुछ मिनट लगाकर एक H100 model server spin up किया, FP8 quantized version और KV cache quantization तक इस्तेमाल करके इसे 2 H100 पर चलाया, और speed व quality promising लग रही है
उम्मीद है कि बेहतर instruction-following benchmarks function calling और agentic capabilities में सुधार में बदलेंगे