TOON - LLM इनपुट के लिए token-कुशल डेटा serialization फ़ॉर्मैट

xguru · 2025-11-19T09:31:02+09:00

Token-Oriented Object Notation LLM में इनपुट देते समय token उपयोग कम करने के लिए डिज़ाइन किया गया serialization फ़ॉर्मैट JSON डेटा को बिना किसी हानि के व्यक्त करते हुए token efficiency और readability दोनों सुनिश्चित करता है एकसमान object arrays के लिए अनुकूलित संरचना, जो दोहराई जाने वाली keys को हटाकर 30~60% token बचत प्रदान करती है YAML की indentation-आधारित संरचना और CSV के table फ़ॉर्मैट को मिलाने वाला hybrid फ़ॉर्मैट गहरी nested संरचनाओं या non-uniform डेटा के लिए JSON अधिक कुशल है स्पष्ट structural information शामिल करता है ताकि LLM डेटा को स्थिर रूप से parse और validate कर सके array length ([N]) और field definitions ({id,name,role}) को स्पष्ट रूप से बताकर संरचना की पहचान बेहतर बनाता है संक्षिप्त syntax के साथ अनावश्यक brackets, quotes और punctuation हटाकर minimal syntax डिज़ाइन indentation-आधारित hierarchical representation, CSV-जैसे row-आधारित data stream का समर्थन CLI tool के माध्यम से JSON ↔ TOON के बीच दो-तरफ़ा conversion का समर्थन automatic format detection, delimiter (,, \t, |) निर्दिष्ट करना, token बचत statistics आउटपुट जैसे विकल्प प्रदान करता है API संरचना encode() से JSON serialization, decode() से deserialization किया जाता है options के रूप में indentation, delimiter, length marker (#) निर्दिष्ट किए जा सकते हैं Benchmark परिणाम: JSON की तुलना में औसतन 21~60% token बचत, LLM query accuracy 73.9% हासिल CSV से थोड़ा बड़ा, लेकिन structural validation सुविधाओं के कारण LLM reliability बेहतर होती है फ़ॉर्मैट नियम strings को केवल आवश्यकता होने पर quote किया जाता है, delimiter शामिल होने पर अपने-आप quoting होती है numbers, booleans, dates आदि को LLM-friendly रूप में बदला जाता है विभिन्न भाषा implementations उपलब्ध आधिकारिक: Python, Rust (विकासाधीन) community: Go, Java, Swift, C++, .NET, Ruby आदि

(github.com/toon-format)

18 पॉइंट द्वारा xguru 2025-11-19 | 3 टिप्पणियां | WhatsApp पर शेयर करें

Token-Oriented Object Notation
LLM में इनपुट देते समय token उपयोग कम करने के लिए डिज़ाइन किया गया serialization फ़ॉर्मैट
- JSON डेटा को बिना किसी हानि के व्यक्त करते हुए token efficiency और readability दोनों सुनिश्चित करता है
एकसमान object arrays के लिए अनुकूलित संरचना, जो दोहराई जाने वाली keys को हटाकर 30~60% token बचत प्रदान करती है
- YAML की indentation-आधारित संरचना और CSV के table फ़ॉर्मैट को मिलाने वाला hybrid फ़ॉर्मैट
- गहरी nested संरचनाओं या non-uniform डेटा के लिए JSON अधिक कुशल है
स्पष्ट structural information शामिल करता है ताकि LLM डेटा को स्थिर रूप से parse और validate कर सके
- array length ([N]) और field definitions ({id,name,role}) को स्पष्ट रूप से बताकर संरचना की पहचान बेहतर बनाता है
संक्षिप्त syntax के साथ अनावश्यक brackets, quotes और punctuation हटाकर minimal syntax डिज़ाइन
- indentation-आधारित hierarchical representation, CSV-जैसे row-आधारित data stream का समर्थन
CLI tool के माध्यम से JSON ↔ TOON के बीच दो-तरफ़ा conversion का समर्थन
- automatic format detection, delimiter (,, \t, |) निर्दिष्ट करना, token बचत statistics आउटपुट जैसे विकल्प प्रदान करता है
API संरचना
- encode() से JSON serialization, decode() से deserialization किया जाता है
- options के रूप में indentation, delimiter, length marker (#) निर्दिष्ट किए जा सकते हैं
Benchmark परिणाम: JSON की तुलना में औसतन 21~60% token बचत, LLM query accuracy 73.9% हासिल
- CSV से थोड़ा बड़ा, लेकिन structural validation सुविधाओं के कारण LLM reliability बेहतर होती है
फ़ॉर्मैट नियम
- strings को केवल आवश्यकता होने पर quote किया जाता है, delimiter शामिल होने पर अपने-आप quoting होती है
- numbers, booleans, dates आदि को LLM-friendly रूप में बदला जाता है
विभिन्न भाषा implementations उपलब्ध
- आधिकारिक: Python, Rust (विकासाधीन)
- community: Go, Java, Swift, C++, .NET, Ruby आदि

3 टिप्पणियां

wedding 2025-11-20

मैं function calling का इस्तेमाल कर रहा हूँ, एक बार इसे टेस्ट करके देखना पड़ेगा।

princox 2025-11-19

कुछ उदाहरणों को देखें तो कहा जा रहा है कि whitespace हटाने पर JSON स्पेसिफिकेशन टोकन की संख्या कहीं ज़्यादा कम कर देता है.. अभी भी पूरी तरह समझ नहीं आ रहा। क्या यह वाकई ठीक से इस्तेमाल करने लायक स्पेसिफिकेशन है।

laeyoung 2025-11-19

मॉडल के अनुसार सटीकता की तुलना

Gemini 2.5 Flash: TOON 87.6% vs JSON 77.0%
GPT-5 Nano: TOON 90.9% vs JSON 89.0%
Claude Haiku 4.5: TOON 59.8% vs JSON 57.4%

अगर सिर्फ benchmark नतीजों पर भरोसा करें, तो accuracy घटे बिना token उपयोग कम हो रहा है, इसलिए इसे न इस्तेमाल करने की कोई खास वजह नहीं दिखती।

TOON - LLM इनपुट के लिए token-कुशल डेटा serialization फ़ॉर्मैट

संबंधित पढ़ाई

3 टिप्पणियां