• LLM ट्रेनिंग के लिए 627M (62.7 करोड़) टेबल और 867B (8670 करोड़) टोकन का डेटासेट
    • इसमें वेबपेज, Excel, CSV, SQLite आदि से निकाली गई टेबल शामिल हैं
    • फ़ाइल नाम, source URL, और हर टेबल के आसपास का टेक्स्ट जैसी समृद्ध contextual data शामिल है
  • उम्मीद है कि यह tabular data tasks के लिए बेहतर समझ और तकनीक बनाने में मदद करेगा
  • 6500 करोड़ पंक्तियाँ और अधिकतम 80 करोड़ स्तंभ
  • सबसे बड़ी टेबल में 3200 लाख पंक्तियाँ हैं
  • सबसे चौड़ी टेबल में 300 लाख स्तंभ हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.