1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • नॉर्वे की राष्ट्रीय पुस्तकालय नॉर्वेजियन भाषा को समझने वाला sovereign LLM बनाने के लिए 2PB Huawei OceanStor Dorado flash storage को AI training pipeline में उपयोग कर रही है
  • जब commercial LLM provider नॉर्वेजियन local model नहीं बना रहे हैं, तब English-केंद्रित LLM के लिए स्थानीय भाषा में दर्ज इतिहास, समाचार और संस्कृति को ठीक से संभालना कठिन होता है
  • राष्ट्रीय पुस्तकालय 2005 से किताबों, अखबारों, वेबपेजों, ऑडियो और वीडियो को digitize करके 20PB का unique data जुटा चुकी है, और 3-2-1 पद्धति से लगभग 60PB स्टोर करती है
  • bottleneck compute में नहीं, बल्कि data quality, cleansing और throughput में है; तैयारी आंतरिक DGX H200, CPU cluster और Huawei flash पर होती है, फिर training Sigma2 Olivia पर चलती है
  • preservation archive और AI pipeline की आवश्यकताएँ अलग हैं—durability और cost बनाम low-latency और parallel I/O—और sovereign LLM के लिए management और preservation क्षमता भी चाहिए

नॉर्वे की राष्ट्रीय पुस्तकालय की sovereign LLM परियोजना

  • नॉर्वे की राष्ट्रीय पुस्तकालय(Nasjonalbiblioteket) नॉर्वेजियन भाषा को समझने वाला large language model (LLM) विकसित कर रही है, और AI training data pipeline में 2PB Huawei OceanStor Dorado flash storage का उपयोग कर रही है
  • राष्ट्रीय पुस्तकालय में IT platform प्रमुख Marius Husnes ने Huawei ID Forum 2026 Paris में कहा कि commercial LLM provider नॉर्वेजियन क्षेत्रीय भाषा LLM विकसित नहीं कर रहे हैं
  • जिन देशों के पास अपनी भाषा पर प्रशिक्षित sovereign LLM नहीं है, वे वैश्विक डेटा और English-केंद्रित LLM पर निर्भर हो जाते हैं, और ऐसे मॉडल के लिए स्थानीय भाषा में दर्ज इतिहास, समाचार और संस्कृति को समझना कठिन होता है
  • नॉर्वे के संस्कृति मंत्रालय ने राष्ट्रीय पुस्तकालय को sovereign AI, यानी LLM, बनाने की जिम्मेदारी दी है, और राष्ट्रीय पुस्तकालय के पास नॉर्वे का सबसे बड़ा digital books, newspapers और webpages collection है
  • राष्ट्रीय पुस्तकालय को प्रकाशित सभी किताबों और broadcast content की प्रति पाने का अधिकार है, और legal deposit obligation किताबों से आगे बढ़कर पूरे नॉर्वेजियन सांस्कृतिक विरासत के संग्रह और संरक्षण तक विस्तृत हो चुका है
  • नॉर्वे के newspaper publishers के साथ समझौते के कारण copyrighted content भी LLM training में इस्तेमाल किया जा सकता है, और Husnes ने कहा, “private companies के पास यह नहीं है”

डेटा की मात्रा और digitization का आधार

  • राष्ट्रीय पुस्तकालय 2005 से अपने collection को digitize करके 20PB का unique data जमा कर चुकी है
  • यह डेटा 3-2-1 पद्धति से स्टोर किया जाता है
    • 3 प्रतियाँ
    • 2 media types
    • 1 offsite storage
  • इस संरचना के कारण कुल storage लगभग 60PB तक पहुँचता है
  • digitization के दायरे में मूल text, ऑडियो, वीडियो, स्थिर छवियाँ और web content शामिल हैं
  • digitization प्रक्रिया में बहुत सारे OCR scan किए गए, और बड़ी मात्रा में metadata तथा online access के लिए API भी बनाए गए
  • अधिकांश डेटा digital disk और tape archive से बने preservation system में स्टोर है

archive से AI pipeline तक डेटा ले जाने की समस्या

  • मुख्य चुनौती preservation system में मौजूद डेटा को LLM training system तक पहुँचाना है
  • bottleneck compute नहीं, बल्कि data quality, cleansing और pipeline throughput है
  • processing दो भागों में बंटी है: राष्ट्रीय पुस्तकालय के आंतरिक computing environment में data preparation, और national supercomputer पर वास्तविक training run
  • आंतरिक environment में ये सिस्टम शामिल हैं
    • Nvidia DGX H200 system
    • 384-core CPU cluster
    • कुल 2PB flash capacity वाले कई Huawei OceanStor Dorado all-flash array
  • Huawei flash storage का उपयोग data pipeline और training preparation के लिए low-latency storage के रूप में किया जाता है
  • pipeline में data ingestion, cleansing, deduplication, format normalization, validation और preparation के चरण शामिल हैं

training execution environment: Sigma2 Olivia

  • pipeline से गुजर चुका डेटा वास्तविक training run के लिए नॉर्वे के national supercomputer Sigma2 के Olivia system में भेजा जाता है
  • Olivia एक HPE Cray Supercomputing EX system है
  • Olivia का configuration इस प्रकार है
    • 448 GPU
    • 64,512 CPU cores
    • 5.3PB Cray ClusterStor E1000 storage system
  • राष्ट्रीय पुस्तकालय का on-premises AI environment डेटा तैयार करता है, और Olivia training execution संभालता है

अलग-अलग storage आवश्यकताएँ

  • preservation archive और AI pipeline storage की आवश्यकताएँ अलग हैं
  • 60PB preservation system durability और cost के लिए optimized है, तेज I/O के लिए नहीं
  • preservation system को कम access को ध्यान में रखकर डिजाइन किया गया है, इसलिए read latency अधिक है
  • AI pipeline storage को high throughput, low latency और parallel data I/O के लिए डिजाइन किया गया है
  • PB-स्तर के dataset को archive से AI data pipeline में लाकर process करने का तरीका टीम को खुद विकसित करना पड़ा

अब भी हल की जा रही चुनौतियाँ

  • evaluation

    • sovereign नॉर्वेजियन LLM का आकलन करने के लिए standard evaluation tools मौजूद नहीं हैं
    • नॉर्वेजियन भाषा के दो लिखित रूप हैं, और कई बोलियाँ तथा ऐतिहासिक बदलाव मौजूद हैं
    • राष्ट्रीय पुस्तकालय की टीम अपने evaluation tools बना रही है
  • governance

    • sovereign LLM तक पहुँच को कौन नियंत्रित करेगा, यह तय करना है
    • sovereign LLM का उपयोग किस लिए हो सकता है, यह कौन तय करेगा, यह भी एक चुनौती है
    • यह संस्थागत और राजनीतिक प्रश्न है, और इसका आसान उत्तर नहीं है
  • orchestration

    • preservation archive, on-premises AI environment और national Sigma2 supercomputer—इन तीन systems को सुचारु रूप से साथ चलाने का काम अभी जारी है

महत्व और निष्कर्ष

  • Huawei storage यूरोपीय बाजार में महत्वपूर्ण और व्यावहारिक भूमिका निभा रहा है
  • जो देश sovereign स्थानीय-भाषा LLM विकसित करना चाहते हैं, उनके लिए Husnes से बात करना और आवश्यक काम को समझना उपयोगी हो सकता है
  • नॉर्वे को ऐसे छोटे देश के रूप में पेश किया गया है जो उन समस्याओं से जूझ रहा है जिनका सामना हर non-English देश को करना पड़ता है
  • मुख्य प्रश्न यह है कि ऐसी AI कैसे बनाई जाए जो अपनी भाषा, संस्कृति और इतिहास को प्रतिबिंबित करे
  • AI को केवल builders नहीं, बल्कि managers और custodians भी चाहिए

1 टिप्पणियां

 
GN⁺ 4 시간 전
Hacker News टिप्पणियाँ
  • एक नॉर्वेजियन होने के नाते मैं राष्ट्रीय पुस्तकालय का इस्तेमाल लगभग हर दिन टेक्स्ट सर्च के लिए करता हूँ
    विशाल टेक्स्ट संग्रह में खोज के लिए इसका यूज़र इंटरफ़ेस और फीचर्स सचमुच शीर्ष स्तर के हैं

    • यह वाकई शानदार है। बस काश उपलब्ध कंटेंट पर पाबंदियाँ थोड़ी कम होतीं
      इसका काफ़ी हिस्सा सिर्फ़ नॉर्वेजियन IP से ही उपलब्ध है, इसलिए भले ही मैं UK में रहता हूँ, लेकिन नॉर्वेजियन होने के नाते VPN बनाए रखने की यह मेरी मुख्य वजहों में से एक है। कुछ और सामग्री सिर्फ़ पुस्तकालय या शोध संस्थान के IP से ही उपलब्ध है, फिर भी आम तौर पर सार्वजनिक रूप से उपलब्ध सामग्री भी बहुत ज़्यादा है
    • इंटीग्रेटेड सर्च इंजन न होना बहुत निराशाजनक है। समझ नहीं आता कि TV subtitles के भीतर खोज क्यों नहीं की जा सकती
    • इससे एहसास होता है कि Altavista के ज़माने से हर सर्च इंजन में मौजूद बुनियादी stemming और spelling flexibility की हमें कितनी आदत हो चुकी थी
  • मुझे यह जानने की जिज्ञासा है कि यह बात कितनी सच है: “अगर किसी देश की अपनी भाषा है और उसके पास उस भाषा पर प्रशिक्षित sovereign LLM नहीं है, तो वह नुकसान में रहेगा। क्योंकि दुनिया भर की सामग्री पर प्रशिक्षित English LLM उस देश के इतिहास, समाचार और संस्कृति को, जो स्थानीय भाषा में लिखे गए हैं, नहीं जान पाएगा”
    मुझे लगा था कि बड़े खिलाड़ी भाषा या गुणवत्ता की परवाह किए बिना लगभग हर सुलभ सामग्री पर पहले ही प्रशिक्षण कर लेते हैं, इसलिए यह विचार सामान्य-उद्देश्य LLM के शुरुआती दौर की सोच जैसा लगता है

    • अगर आप चाहते हैं कि LLM के पास नॉर्वेजियन ज्ञान हो, तो सबसे obvious तरीका क्या अच्छा training dataset बनाकर उसे व्यापक रूप से सार्वजनिक करना नहीं होगा?
      मुझे समझ नहीं आता कि अपना मॉडल प्रशिक्षित करने पर इतना बड़ा खर्च क्यों किया जाए, ख़ासकर अगर उसके अत्याधुनिक मॉडलों से कमतर होने की संभावना हो
    • विदेशी LLM शायद नॉर्वे के राष्ट्रीय पुस्तकालय की सामग्री पर प्रशिक्षित नहीं हुए होंगे
      वंशावली संबंधी कामों के कारण मैं अक्सर सामान्य keyword search से वहाँ सामग्री ढूँढता हूँ, और ऐसी चीज़ें मिलती हैं जिन्हें न सर्च इंजन जानता है, न भाषा मॉडल
      बेशक, जिस जानकारी में दिलचस्पी होती है वह आम तौर पर कहीं न कहीं AI के लिए scrape करने लायक जगह पर डाल देता हूँ, लेकिन वहाँ की सारी दिलचस्प सामग्री निकालने में सचमुच बहुत समय लगेगा
    • मेरे आकलन में यह लगभग सच नहीं है। मैं नॉर्वेजियन अच्छी तरह नहीं जानता, लेकिन स्वीडिश जानता हूँ, और दोनों भाषाएँ बहुत मिलती-जुलती हैं, इसलिए नॉर्वेजियन भी मोटे तौर पर समझ लेता हूँ
      जिन भी मॉडलों से मैंने स्वीडिश में बात की है, उन्होंने उसे पूरी तरह संभाला है। मुझे लगता है कि नॉर्वेजियन के साथ भी शायद पहले से यही स्थिति होगी
    • कम से कम यह संभव हो सकता है कि वह अंग्रेज़ी से नॉर्वेजियन में अनुवादित शैली की बजाय नॉर्वेजियन की तरह लिखे
      https://arxiv.org/pdf/2507.22445 जैसे प्रयोगों को लागू करके देखना भी दिलचस्प हो सकता है
    • मौजूदा सर्वश्रेष्ठ मॉडल प्रमुख भाषाओं और संस्कृतियों में काफ़ी प्रवाहपूर्ण हैं, इसलिए कम से कम “सभी” जैसी सीमा सही नहीं है
      प्रदर्शन पर शायद लगभग कोई असर न पड़े, या कभी-कभी बेहतर भी हो सकता है। हालाँकि अंग्रेज़ी के पैटर्न सूक्ष्म रूप से दूसरी भाषाओं के मूल-भाषी पैटर्न में घुस सकते हैं
      low-resource भाषाओं में यह पूरी तरह अलग समस्या है, लेकिन इसे सुधारने के लिए नए मॉडल से ज़्यादा अधिक डेटा की ज़रूरत है
  • “Olivia सिस्टम एक HPE Cray Supercomputing EX सिस्टम है, जिसमें 448 GPU और 64,512 CPU cores हैं”
    इतने सीमित हार्डवेयर के साथ open source मॉडल के ऊपर LoRA लगाने के बजाय sovereign LLM प्रशिक्षित करने की कोशिश करना मुझे बड़ी गलती और चेतावनी संकेत जैसा लगता है
    पूरे LLM को प्रशिक्षित करने लायक संसाधन तो इनके पास होने से रहे, इसलिए उसे लक्ष्य बताना ऐसा लगता है मानो इस LLM को वास्तव में उपयोगी बनाने का इरादा ही नहीं है। तब सवाल उठता है कि किसका पैसा और क्यों बर्बाद किया जा रहा है

    • बाहरी लोगों को यह उपयोगी न लगे, लेकिन लक्ष्यों में से एक organizational learning भी हो सकता है
      यानी LLM बनाने का ज्ञान संस्था के भीतर समाहित करना
      नाममात्र रूप से राष्ट्रीय पुस्तकालय इसका प्रमुख है, लेकिन लेख के अनुसार नॉर्वेजियन सामग्री को इस उद्देश्य से क़ानूनी तौर पर अपने पास रखने और उपयोग करने की क्षमता के कारण शायद उसे चुना गया। विश्वविद्यालय जैसे संबंधित संस्थानों के शोधकर्ता भी प्रक्रिया में शामिल होंगे, ऐसा लगता है
    • पहले proof-of-concept के लिए fine-tuned model सफलतापूर्वक बनाया जा चुका है, इसलिए अगला चरण पूर्ण LLM प्रशिक्षण है
      हालाँकि मुझे नहीं लगता कि इसका लक्ष्य कोई बहुत मूल्यवान चीज़ हासिल करना है। वे fine-tuned मॉडल काफ़ी टूटे हुए थे, और यह ज़्यादा methodology बनाने जैसा लगा। यह बहुत उपयोगी होगा, इस पर मुझे भरोसा नहीं, लेकिन शोध निधि से कौन क्या करे, यह तय करना मेरा काम भी नहीं है
      एक fine-tuned मॉडल जिसे मैंने इस्तेमाल किया, वह चैट में भावनाएँ व्यक्त करने वाले इंसानों का अक्सर मज़ाक उड़ाता था
      दूसरे fine-tuned मॉडल में, मैं सिर्फ़ “hei” लिखता था और वह hallucinate करके मुझे डॉक्टर समझ लेता था, फिर हर बार कहता था कि मेरा बच्चा किसी भयानक बीमारी से पीड़ित है। शायद किसी साधारण और neutral system prompt ने इस व्यवहार को उकसाया होगा
      मुझे लगता है Olivia अपने उपयोग के हिसाब से पर्याप्त बड़ा है। अभी के लिए नवीनतम रुझानों के साथ चलना, लेकिन हार्डवेयर पर बहुत ज़्यादा पैसा बर्बाद न करना, बेहतर होगा
    • बहुभाषी·अंतरराष्ट्रीयकरण भाषा मॉडल अग्रणी शोध प्रयोगशालाओं का ऐसा क्षेत्र नहीं लगता जहाँ वे बहुत सारे संसाधन झोंक रही हों, और नॉर्वेजियन के मामले में तो और भी कम
      नॉर्वेजियन corpus के लिए शायद बहुत बड़े क्लस्टर की ज़रूरत न हो, और अगर हो भी, तो पुस्तकालय शायद जितना कर सकता है, उतना ही कर रहा है। नॉर्वेजियन मॉडल में जो निवेश हो रहा है, उनमें यह निश्चित ही सबसे बड़े स्तंभों में से एक होगा
      शीर्ष स्तर के मॉडल शायद उस कंटेंट गुणवत्ता तक पहुँच न पाते हों जो राष्ट्रीय पुस्तकालय के पास है। लेख में समाचार प्रकाशकों के साथ licensing का भी उल्लेख है, और पुस्तकालय का अपना archive भी है
      अंग्रेज़ी और नॉर्वेजियन कोई बहुत निकट भाषा-परिवार नहीं हैं, इसलिए LoRA शायद सबसे अच्छा तरीका न हो
      मैं जानना चाहूँगा कि लक्ष्य भाषा की grammar और vocabulary अंग्रेज़ी से जितनी दूर हो, उसके हिसाब से LoRA-आधारित localization कितना अच्छा काम करता है, इस पर कोई सार्वजनिक शोध है या नहीं
      ऐसे प्रोजेक्टों का आम तौर पर सिर्फ़ एक लक्ष्य नहीं होता; केवल अत्याधुनिक मॉडल बनाना ही नहीं, बल्कि जैसे विश्वविद्यालय उपग्रह लॉन्च करते हैं, वैसे ही स्थानीय प्रतिभा तैयार और प्रशिक्षित करना भी मकसद होता है
    • इस स्तर के संसाधनों के साथ, Olmo 3 recipe जैसी किसी चीज़ के आधार पर, अपने डेटा को प्राथमिकता देने वाले मिश्रित डेटा और अपने कार्यों के लिए आगे के प्रशिक्षण को लागू करना पर्याप्त होना चाहिए
      अगर वे अपना embedding model बनाएँ, पूरे पुस्तकालय को index करें, और फिर मॉडल को इस तरह प्रशिक्षित करें कि वह इतिहास, संस्कृति, क़ानून और रणनीति से जुड़े सवालों के जवाब देश के अपने दृष्टिकोण से देते हुए उस डेटा को retrieve करे, तो यह काफ़ी दिलचस्प और उपयोगी हो सकता है
      React code निकालने में यह Anthropic को नहीं हरा पाएगा, लेकिन उसकी नकल करने की ज़रूरत भी नहीं है
    • वास्तव में सबसे बड़ी समस्या उपलब्ध training data है
      वे पहले ही 10 billion parameters से कम वाले कई मॉडलों के साथ fine-tuning और scratch से training, दोनों का प्रयोग कर चुके हैं, और जब मैंने आख़िरी बार देखा था तो scratch से प्रशिक्षित मॉडल भाषा को बेहतर पकड़ रहे थे
  • नॉर्वे अगर इसके बजाय, या इसके साथ-साथ, एक training dataset बनाकर उसे सभी model बनाने वालों के साथ मुफ़्त में साझा करे तो शायद वह बेहतर होगा
    यहाँ जो लक्ष्य दिखता है, उसके लिए frontier models को नॉर्वेजियन भाषा और उसकी संस्कृति से परिचित कराने का यह एक बेहतर, या अतिरिक्त, तरीका लगता है

    • frontier models को नॉर्वेजियन पहले से ही अच्छी तरह आती है। वे नॉर्वेजियन बोलियों के अनुरूप ढल जाते हैं, और पुरानी नॉर्वेजियन का भी काफ़ी विश्वसनीय ढंग से अनुकरण कर लेते हैं
      उदाहरण के लिए, मैंने 1911 के उपन्यास “De knyttede næver” के बारे में Claude से 1911 के आसपास की नॉर्वेजियन वर्तनी में समझाने को कहा था, और उसने यह अच्छी तरह किया
      कमी नॉर्वेजियन साहित्य, संस्कृति और इतिहास की समझ में है। “De knyttede næver” अपने प्रकाशन के समय बेस्टसेलर स्तर के नॉर्वेजियन उपन्यासों में से एक था, लेकिन Claude कुछ कह पाने से पहले इसे खोजने पर निर्भर रहा। ChatGPT ने इससे बेहतर किया, ख़ासकर thinking mode में उसने एक विस्तृत सारांश दिया
      यह आज बहुत व्यापक रूप से जाना जाने वाला काम नहीं है, लेकिन लेखक दशकों तक एक प्रतिष्ठित अख़बारी पत्रकार था, और यह शृंखला इतनी जानी-पहचानी है कि एक नॉर्वेजियन गायक ने अपने stage name का आधार नायक के नाम पर रखा है। लेखक के राजनीतिक विचारों और उनके उपन्यास पर पड़े प्रभाव के कारण इस पर दशकों तक नॉर्वेजियन अख़बारों और किताबों में चर्चा होती रही, इसलिए यह काफ़ी उचित टेस्ट है और मुझे लगता है कि यह ज्ञान की एक बड़ी कमी को उजागर करता है
      मैं इस बात से सहमत हूँ कि National Library dataset को अधिक सुलभ बनाना बेहतर होगा। लेकिन यहाँ बड़ा अतिरिक्त तत्व यह दिखता है कि उन्होंने ऐसे copyright वाले material पर training की अनुमति देने वाला समझौता किया है, जो archive में बंद है और जिसके उपयोग पर पाबंदियाँ हैं
      फिर भी, उनके संग्रह में जो data public domain में आ चुका है, केवल उसे ही जारी करना भी एक शानदार शुरुआत होगी
    • मुझे समझ नहीं आता कि यह data पूरा का पूरा उन लालची अमेरिकी कंपनियों के साथ क्यों साझा किया जाए, जो सबका data चुराकर अपना फ़ायदा कमाती हैं
      सरकारी संस्थाओं के साथ कानूनी समझौते बनाए रखना और अपने देश के लिए वास्तव में उपयोगी कुछ विकसित करना कहीं बेहतर है
  • Marius Husnes का यह कहना कि “commercial LLM providers स्थानीय नॉर्वेजियन LLM विकसित नहीं कर रहे हैं, और जिन देशों के पास अपनी भाषा पर trained sovereign LLM नहीं है वे नुकसान में हैं,” यह देखकर मुझे पूरा भरोसा नहीं होता कि वे सच में जानते हैं कि वे क्या कह रहे हैं

    • वह सही बात कह रहे हैं। लेकिन यह केवल training corpus का मुद्दा नहीं है, बल्कि tokenizer का भी मामला है, जो target language के लिए आवश्यक bias के आधार पर substrings को अधिक कुशलता से tokenize करता है
      English-केंद्रित LLM अंग्रेज़ी में इसलिए मज़बूत होते हैं क्योंकि token space अंग्रेज़ी को अधिक सघन रूप से आवंटित होती है। यदि आप Anthropic API को कॉल करने वाले online tokenizer में आम English शब्द और नॉर्वेजियन शब्द डालें, तो English अक्सर एक token या उससे कम में आ जाती है, जबकि नॉर्वेजियन प्रायः 2–4 token, और कभी-कभी उससे भी अधिक लेती है। थाई जैसी भाषाएँ तो बहुत अधिक नुकसान में रहती हैं
      corpus selection भी अक्सर target language की ओर बहुत ज़्यादा झुका होता है। ऐसा इसलिए क्योंकि उस भाषा की रचनाओं को हासिल करने में अधिक मेहनत लगती है
      भाषाओं के बीच अर्थ की दृष्टि से मिलते-जुलते embeddings के परस्पर प्रभाव के कारण vector space में सांस्कृतिक baseline और अलग तरह का semantic bias भी बनता है। अंत में, fine-tuning का LLM की सांस्कृतिक अभिव्यक्ति पर बड़ा असर पड़ता है। ये प्रभाव मामूली नहीं हैं
      लुप्तप्राय भाषाओं और cross-cultural models का उपयोग करके language model बनाने की बहुत कोशिशें हो रही हैं, लेकिन यदि किसी भाषा की literacy base मज़बूत है, तो अपनी भाषा और संस्कृति के लिए विशेष रूप से अनुकूल विरासत-आधारित LLM बनाने के पर्याप्त कारण हैं। यह उम्मीद करना बेतुका है कि जब OpenAI या Anthropic को चुनाव करना होगा, तो वे अपने target customers से पहले आपकी भाषा को प्राथमिकता देंगे
    • जब आप ChatGPT से बात करते हैं, तो डैनिश में बात करने पर भी यह काफ़ी साफ़ महसूस होता है कि वह अमेरिकी है
      उसकी मातृभाषिक शैली, लेखन शैली और रवैया अमेरिकी है
      जैसे Netflix और HBO आज स्कैंडिनेवियाई TV shows बना रहे हों, फिर भी हम उन पर निर्भर नहीं रह सकते, वैसे ही इस क्षेत्र में भी हमें अपनी चीज़ें ख़ुद बनानी होंगी
      समय के साथ यह संभव बनाने वाली तकनीक और सस्ती व अधिक सुलभ हो जाएगी
    • पोलैंड के पास Bielik नाम का अपना LLM है
      वह न केवल अधिक पोलिश-सुलभ अभिव्यक्ति को बनाए रखने में बेहतर है, बल्कि सरकारी दस्तावेज़ लिखने में भी बेहतर है। यह बेहतर क्यों है? क्योंकि arena evaluations हुए हैं और आँकड़ों के हिसाब से वह बेहतर निकला है
    • जानना चाहूँगा कि क्या आप यह साबित कर सकते हैं कि वह ग़लत हैं
      आपने दावा तो किया, लेकिन कोई आधार नहीं दिखता। केवल English LLM होना नुकसानदेह क्यों नहीं है?
      क्या मौजूदा models से नॉर्वे के इतिहास और संस्कृति की बारीकियाँ हासिल की जा सकती हैं?
    • subsidy पाने के लिहाज़ से यह बात ठीक-ठाक सुनाई देती है
  • Welsh भी Nemotron के साथ LLM training पा रही है
    https://www.bangor.ac.uk/news/2025-09-15-reaching-across-the...

  • यह सबसे efficient तरीका न भी हो, फिर भी non-Latin script languages के लिए scratch से शुरू करने का एक स्पष्ट use case अब भी दिखता है
    sarvam.ai और स्थानीय भाषा tokenization में सुधार के उदाहरण [1] को देखिए। हर LLM का coding में मदद करना ज़रूरी नहीं है, और न ही उसे पहले से ही Babel fish बनना है
    भाषा ही संस्कृति है, इसलिए इनके motives समझ में आते हैं। यह कि वे ख़ुद यह कर सकते हैं, शायद अच्छी बात है
    [1] https://www.sarvam.ai/blogs/sarvam-30b-105b

    • tokenization सुधारने के लिए scratch से बनाना ज़रूरी नहीं है
      रूस के T-Bank ने base Qwen के tokenizer को बदलकर Cyrillic tokens की संख्या 5 गुना बढ़ाई, और Russian corpus पर आगे training करके generation speed को 1.5–3 गुना तक बढ़ा सका
  • यह एक विशाल storage deployment है
    LLM training की I/O ज़रूरतों, ख़ासकर checkpointing को देखें, तो पारंपरिक disk arrays की जगह इस पैमाने के NVMe flash की ओर जाना उचित लगता है

  • “नॉर्वे एक छोटा देश है जो उस समस्या को सुलझा रहा है जिसका सामना अंग्रेज़ी-भाषी दुनिया के बाहर के सभी देशों को करना पड़ेगा। ऐसी AI कैसे बनाई जाए जो अपनी भाषा, संस्कृति और इतिहास को दर्शाए? AI को सिर्फ निर्माताओं ही नहीं, बल्कि प्रशासकों की भी ज़रूरत होती है”
    अफसोस की बात है, लेकिन मुझे लगता है कि इसका जवाब ज़्यादातर “बना नहीं सकते” के काफ़ी करीब है
    इस तरह के काम के लिए मजबूत राजनीतिक इच्छाशक्ति चाहिए, लेकिन कम से कम मेरे आसपास तो इसे हासिल करना व्यवहारिक रूप से लगभग असंभव लगता है
    लागत उठाना भी मुश्किल है, लेकिन उससे भी बढ़कर, ऐसी स्थानीय प्रतिनिधित्व की परवाह करने वाले लोग या तो विदेशी कंपनियाँ इसे लागू करें तो उससे पूरी तरह संतुष्ट हैं, या फिर शुरू से ही AI के ख़िलाफ़ हैं। चाहें तो आप ChatGPT को Basque में भी इस्तेमाल कर सकते हैं

    • नॉर्वे के मामले में यह बहस की जा सकती है कि क्या लागत वाकई इतनी असहनीय है
      यह छोटा लेकिन बेहद समृद्ध देश है, और अभी sovereign wealth fund के निवेश के ज़रिए दुनिया की सूचीबद्ध कंपनियों में कुल 1.5% हिस्सेदारी रखता है
    • अगर नॉर्वे training के लिए curated dataset बनाने के लक्ष्य से अमेरिकी research labs से संपर्क करे, तो वे निश्चित रूप से उसे training process में शामिल होने देंगे
      और ऐसे models के देश के भीतर बनाए जा सकने वाले मॉडलों से कहीं बेहतर होने की संभावना है
      बेशक, यह कहते हुए मुझे स्क्रीन के उस पार से उठती सिहरन भी महसूस हो रही है