RustGPT: Rust में शुरू से पूरी तरह इम्प्लीमेंट किया गया शुद्ध Transformer LLM

(github.com/tekaratzas)

23 पॉइंट द्वारा GN⁺ 2025-09-16 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

RustGPT एक Transformer-आधारित language model है, जिसे किसी बाहरी machine learning framework के बिना, केवल शुद्ध Rust और ndarray से इम्प्लीमेंट किया गया है
इसे pre-training और instruction tuning के ज़रिए तथ्य-आधारित ज्ञान और संवादात्मक पैटर्न सीखने के लिए डिज़ाइन किया गया है
इसकी संरचना tokenizer → embedding → transformer block → output projection जैसी सामान्य LLM architecture का पालन करती है
यह modular source structure और test code प्रदान करता है, जिससे training, inference और optimization प्रक्रियाओं को विस्तार से समझा जा सकता है
Rust ecosystem में framework dependency के बिना LLM को शुरू से इम्प्लीमेंट करना चाहने वाले developers और learners के लिए यह एक महत्वपूर्ण reference है

प्रोजेक्ट अवलोकन

RustGPT एक open source project है, जो किसी बाहरी machine learning framework या जटिल dependency के बिना, केवल शुद्ध Rust भाषा और linear algebra operations library (ndarray) से LLM इम्प्लीमेंट करता है
इसका मुख्य लक्ष्य आधुनिक LLM के core components जैसे transformer, attention, embedding और optimization को सीधे इम्प्लीमेंट करना और training process को समझना है
दूसरे mainstream LLMs से अलग, इसमें transformer structure, backpropagation, tokenizer और optimizer आदि सब कुछ सीधे Rust code में डिज़ाइन किया गया है, जिससे Rust developers और researchers deep learning के सिद्धांतों को शुरू से समझ और आगे बढ़ा सकते हैं
इसकी एक प्रमुख विशेषता यह है कि matrix operations के लिए ndarray का उपयोग किया गया है, और यह PyTorch या TensorFlow जैसे बाहरी machine learning packages पर निर्भर नहीं है
इसकी modularity और test coverage मजबूत है, इसलिए यह विभिन्न experiments और improvements के लिए उपयुक्त है, और "From Scratch" शैली के शैक्षिक LLM प्रोजेक्ट के रूप में भी उपयोगी है

प्रमुख विशेषताएँ और इम्प्लीमेंटेशन तरीका

Transformer architecture: input text → tokenize → embedding → transformer block → final prediction
- input text को tokenization प्रक्रिया से गुज़रकर embedding vectors में बदला जाता है
- embeddings को Transformer Block (multi-head attention + feedforward network) से गुज़ारा जाता है
- अंत में Output Projection Layer vocabulary probability distribution बनाकर prediction करता है

इम्प्लीमेंटेशन संरचना

main.rs: training pipeline, data preparation, interactive mode execution
llm.rs: पूरे LLM का forward pass, backward pass और training logic
transformer.rs, self_attention.rs, feed_forward.rs: core transformer blocks
embeddings.rs, output_projection.rs: embedding और final output layer
adam.rs: Adam optimizer implementation
हर module में संबंधित test code (tests/) शामिल है, जिससे functionality verification संभव है

training, testing तरीका और data flow

training process
- vocabulary creation → pre-training (100 epoch, factual sentence data) → instruction tuning (100 epoch, conversation data)
- pre-training उदाहरण: "The sun rises in the east and sets in the west"
- instruction tuning उदाहरण: "User: How do mountains form? Assistant: ..."
interactive mode support
- training पूरी होने के बाद prompt-response आधारित conversation testing संभव है
- उदाहरण: "How do mountains form?" → "Mountains are formed through tectonic forces or volcanism..."

तकनीकी विवरण

vocabulary size: training data के आधार पर dynamically सेट
embedding dimension: 128, hidden layer: 256
maximum sequence length: 80 tokens
architecture: 3 transformer blocks + embedding + output layer
training algorithm: Adam optimizer, gradient clipping (L2 norm 5.0 limit)
learning rate: pre-training 0.0005, instruction tuning 0.0001
loss function: cross-entropy loss

मॉडल और कोड की विशेषताएँ

custom tokenizer (punctuation handling)
greedy decoding आधारित text generation
modular layer structure और स्पष्ट interfaces
test coverage: हर layer और feature के लिए unit test code शामिल
dependencies: केवल ndarray (matrix operations), rand / rand_distr (random initialization) का उपयोग (PyTorch/TensorFlow जैसे बाहरी ML का उपयोग नहीं)
शैक्षिक मूल्य: आधुनिक LLM की प्रतिनिधि internal structure और training principles सीखने के लिए उपयुक्त

आगे की संभावनाएँ

advanced architectures का समावेश: multi-head attention, RoPE, positional encoding आदि
performance optimization: SIMD, parallel training, memory efficiency improvements
model save/load support
बेहतर sampling (beam search, Top-k/Top-p) और evaluation metrics जोड़ना

महत्व

यह एक learning और experimental project है, जो दिखाता है कि Python-आधारित PyTorch या TensorFlow framework पर निर्भर हुए बिना भी केवल Rust से LLM को सीधे इम्प्लीमेंट किया जा सकता है
LLM के internal working principles को समझने और Rust environment में ML systems बनाना चाहने वाले developers के लिए यह एक उपयोगी reference है

RustGPT: Rust में शुरू से पूरी तरह इम्प्लीमेंट किया गया शुद्ध Transformer LLM

प्रोजेक्ट अवलोकन

प्रमुख विशेषताएँ और इम्प्लीमेंटेशन तरीका

इम्प्लीमेंटेशन संरचना

training, testing तरीका और data flow

तकनीकी विवरण

मॉडल और कोड की विशेषताएँ

आगे की संभावनाएँ

महत्व

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.