TabLib - 867B Tabular Token डेटासेट
(approximatelabs.com)- LLM ट्रेनिंग के लिए 627M (62.7 करोड़) टेबल और 867B (8670 करोड़) टोकन का डेटासेट
- इसमें वेबपेज, Excel, CSV, SQLite आदि से निकाली गई टेबल शामिल हैं
- फ़ाइल नाम, source URL, और हर टेबल के आसपास का टेक्स्ट जैसी समृद्ध contextual data शामिल है
- उम्मीद है कि यह tabular data tasks के लिए बेहतर समझ और तकनीक बनाने में मदद करेगा
- 6500 करोड़ पंक्तियाँ और अधिकतम 80 करोड़ स्तंभ
- सबसे बड़ी टेबल में 3200 लाख पंक्तियाँ हैं
- सबसे चौड़ी टेबल में 300 लाख स्तंभ हैं
अभी कोई टिप्पणी नहीं है.