The Pile, 825GiB का open-source language modeling dataset (2020)

(pile.eleuther.ai)

1 पॉइंट द्वारा GN⁺ 2024-03-09 | 1 टिप्पणियां | WhatsApp पर शेयर करें

बड़े language model training में data sources की विविधता महत्वपूर्ण होने के साथ, The Pile को 22 high-quality datasets को जोड़कर बने 825GiB के public training set के रूप में जारी किया गया
इसकी मुख्य design सोच किताबों, code, web pages, chat logs, academic papers जैसे कई sources को मिलाकर cross-domain generalization बढ़ाने की है
The Pile पर trained models ने मौजूदा language modeling benchmarks पर मध्यम स्तर के सुधार दिखाए, और Pile BPB में महत्वपूर्ण सुधार दिखाया
Pile BPB कई domains के text को साथ में handle करता है, इसलिए single corpus performance की तुलना में व्यापक text modeling capability जांचने के लिए इस्तेमाल होता है
leaderboard test set overlap की संभावना को * से दिखाता है, और Zero-shot का मतलब है कि The Pile के सभी components training data में शामिल नहीं थे

The Pile की संरचना और distribution

The Pile 825GiB आकार का diverse open-source language modeling dataset है
इसे 22 छोटे और high-quality datasets को एक साथ जोड़कर बनाया गया है
download files the Eye पर host की गई हैं
अगर कोई model The Pile का उपयोग करता है या The Pile पर evaluate होता है, तो EleutherAI को बता सकते हैं
The Pile या उसके components का उपयोग करने पर निम्न paper को cite करना चाहिए
- The Pile: An 800GB Dataset of Diverse Text for Language Modeling
  - arXiv preprint arXiv:2101.00027, 2020

training set और benchmark के रूप में भूमिका

खासकर large-scale models में, data sources की diversity सामान्य cross-domain knowledge और downstream generalization capability को बेहतर करती है
evaluation results के अनुसार, The Pile पर trained models ने traditional language modeling benchmarks में मध्यम सुधार दिखाया और Pile BPB में महत्वपूर्ण सुधार दर्ज किया
Pile BPB(bits per byte) ऐसा benchmark है जिसके लिए कई domains के text को समझना जरूरी है
- target domains में books, GitHub repositories, web pages, chat logs शामिल हैं
- medicine, physics, mathematics, computer science, philosophy papers भी शामिल हैं
यह benchmark domain-specific world knowledge और reasoning capability दोनों की मांग करता है, इसलिए large language models की cross-domain text modeling capability evaluate करने में इस्तेमाल होता है
leaderboard example में 1 जनवरी 2021 के items शामिल हैं
- GPT-3 (Zero-Shot)*, OpenAI: Test BPB 0.7177
- GPT-2 (Zero-Shot)*, OpenAI: Test BPB 1.2253
- * potential test set overlap की संभावना दिखाता है
- Zero-shot का मतलब है कि The Pile के सभी components training data में शामिल नहीं थे

1 टिप्पणियां

GN⁺ 2024-03-09

Hacker News की राय

2020 में जब The Pile में Books3 शामिल होने पर चिंता जताई गई, तो Eleuther की प्रमुख रहीं Stella Biderman ने इस तरह जवाब दिया था:
डेटा में 1) दुनिया में मौजूद और ऑनलाइन डाला गया कच्चा स्रोत सामग्री, 2) उस स्रोत सामग्री को language modeling के लिए साफ़-सुथरा और प्रोसेस करके बनाए गए प्रति-सेट डेटा, 3) प्रति-सेट डेटा को weights सहित बड़े पैमाने पर जोड़कर बनाया गया The Pile होता है
उन्होंने समझाया कि Eleuther ने 2 और 3 बनाए और सार्वजनिक किए; 2 इसलिए रखा गया ताकि लोग उसे reweight और recombine कर सकें, और ज़्यादातर लोग 3 को जस का तस डाउनलोड करेंगे
साथ ही, 2 और 3 में copyrighted data होने पर भी US मानकों के हिसाब से यह fair use है, इसलिए copyright infringement नहीं; Maroon 5 को किसी website से डाउनलोड करके 2 के बराबर dataset बनाना कुछ मामलों में infringement हो सकता है, लेकिन उनका उपयोग infringement नहीं माना गया
- “2 और 3 fair use हैं, इसलिए copyright infringement नहीं” — यह बात मुकदमे में परखे जाने तक पता नहीं चल सकती
  fair use कोई ऐसी चीज़ नहीं है जो अकेले घोषित कर देने से लागू हो जाए; यह The Office के Michael Scott की तरह “मैं दिवालियापन घोषित करता हूँ!” चिल्लाने जैसा है
  अदालत 1) उपयोग का उद्देश्य और प्रकृति, 2) copyrighted work की प्रकृति, 3) इस्तेमाल की गई मात्रा और उसकी केंद्रीयता, 4) संभावित बाजार या मूल्य पर असर देखकर फैसला करती है; OpenAI का New York Times से विवाद भी इसी वजह से है
  इसका overview https://copyright.columbia.edu/basics/fair-use.html पर काफ़ी अच्छे से दिया गया है
- अगर 2 नंबर वाले set में ऐसे पूरे copyrighted works शामिल हैं जिन्हें copyright holder ने distribute करने की अनुमति नहीं दी, जैसे कोई पूरी किताब, तो समझ नहीं आता कि यह बात सच कैसे हो सकती है
  जब तक कि “language modeling के लिए processing” का मतलब पूरी तरह irreversible process न हो
- copyright मुद्दे का सही जवाब मुझे नहीं पता, लेकिन 2024 में models में लगे मानवीय श्रम के बारे में “data दुनिया में मौजूद है”, “dataset के रूप में इकट्ठा किया गया” जैसे passive voice से बेहतर रवैया हो, यह उम्मीद है
- लेखकों की अनुमति के बिना copyrighted works distribute किए जाते हैं, उन्हें लेखकों से compete करने के तरीके से इस्तेमाल किया जाता है, कई AI पैसा कमाते हैं, और कुछ original text को ज्यों का त्यों reproduce करते हैं
  ऐसे datasets copyright law की four-factor test के अधिकांश हिस्सों में fail होते दिखते हैं, और जिन non-experts को LLM समझाया गया, उन्होंने भी यही माना कि AI कंपनियाँ दूसरों का काम चुरा रही हैं
  संबंधित कानूनी मुद्दों, The Pile सहित अलग-अलग datasets, कानूनी alternatives, और balanced copyright reform proposals को समेटता एक लेख है: http://gethisword.com/tech/exploringai/
  अभी कम से कम किसी एक देश में तुरंत तीन rules चाहिए लगते हैं: जिन works तक कानूनी access है उन्हें AI training में इस्तेमाल किया जा सके; training restrictions, extra charges और download restrictions illegal हों; personal-use training के लिए accessible works को copy और transform किया जा सके; और free public web works को शर्तों की परवाह किए बिना AI training के लिए copy, share, process और bundle किया जा सके
  AI outputs का copyright मौजूदा AI और mixed-work legal doctrine के अनुसार हो; अगर output copyright के दायरे में आता है, तो उसकी स्थिति वैसी ही होनी चाहिए जैसे user ने किसी existing work पर निर्भर होकर खुद publish किया हो; और इसका फैसला हो सके इसलिए training sets भी public होने चाहिए
- Libgen को scrape करके copyrighted content डाउनलोड कर redistribute करना illegal नहीं है?
  मुझे संदेह है। internet पर कहीं से मिली फिल्म को torrent पर seed करना “fair use” नहीं है, और The Pile सिर्फ data transform करने वाला code नहीं, बल्कि redistributed data itself है
  इस logic से तो Libgen mirror को कानूनी तौर पर चला सकना चाहिए
इस dataset में distributed content के license reproduction और credits/authorship attribution कहाँ देखे जा सकते हैं?
क्या सब शामिल हैं? क्या पता चल सकता है कि शामिल सभी items compliant हैं?
copyrighted data खाए हुए model से बने generator के output में copyright obligations से बचने पर बहस के लिए मैं खुला हूँ, लेकिन dataset खुद तो ज़ाहिर है उसके अंदर के content copyrights से बंधा होगा, है न?
- इस dataset में Books3 शामिल है, जो pirate ebooks के लिए dedicated torrent tracker Bibliotik के लगभग पूरे dump जैसा है
  अगर मशहूर authors या publishers के नामों से दीवार भरकर darts फेंकें, तो जिस पर dart लगे, उसके पास इस data के किसी हिस्से के rights होने की अच्छी संभावना है
  लगता है “AI research के लिए” कह देने भर से कुछ भी किया जा सकता है। जैसे .ai domain हो तो Blu-ray rips upload करना भी ठीक हो
- उन्होंने इसे इसलिए चुराया क्योंकि उन्हें लगा कि अपना खिलौना बनाना, दूसरे लोगों के अपने श्रम के फल पर अधिकारों से ज़्यादा अहम है
लोग copyrighted works को internet पर share और repost करते हैं, यकीन नहीं होता। shocking है
ख़ैर, RedPajama 30T और The Pile ही “all you need” हैं क्या? ;)
- बाद में किसी खास natural language processing task को संभालने के लिए pre-training के लिहाज़ से यह काफ़ी है
  दिलचस्प results पाने के लिए यहाँ से instruction dataset generate करना होगा, और उसमें अलग-अलग tasks cover होने चाहिए
  completed text खुद LLM में knowledge और reasoning बाहर नहीं लाता; बड़ा और विविध instruction dataset ऐसा करता है
- copyright debate बहुत ज़्यादा है, इसलिए permissive-license data ही शामिल करने वाला The Pile v2 बनाने का project चल रहा है
The Pile पेपर में जिस Books3 का ज़िक्र है, क्या वही डेटासेट है जिस पर लेखक लोग मुकदमा कर रहे हैं? वही जिसमें लोकप्रिय और copyrighted सामग्री बड़ी मात्रा में शामिल है?
- हाँ। लिंक किए गए पेपर के मुताबिक Books3, Shawn Presser द्वारा सार्वजनिक किए गए Bibliotik private tracker के content की copy से निकला एक book dataset है
  Bibliotik में fiction और nonfiction दोनों मिले हुए हैं, और यह अगले सबसे बड़े book dataset BookCorpus2 से लगभग एक order of magnitude बड़ा है। पेपर में कहा गया है कि किताबें लंबे context modeling research और consistent storytelling के लिए मूल्यवान हैं, इसलिए इन्हें शामिल किया गया
- अलग-अलग legal proceedings को देखने की शुरुआत के लिए यह सूची ठीक लगती है। Silverman वगैरह के मामलों तक यह कितनी बार update होती है, पता नहीं
  https://originality.ai/blog/openai-chatgpt-lawsuit-list
- ऐसा ही लगता है। https://www.wired.com/story/battle-over-books3/ देखें
- क्या वे यह दावा करते हैं कि उनका data copyright वाले स्रोतों से नहीं आया, या वह copyright के दायरे में नहीं है?
Books3 पर बहुत ध्यान गया है, लेकिन इस dataset का एक और बड़ा component है, जिसका नाम थोड़ा भ्रामक OpenWebText2 है
यह उन third-party websites के 15 साल के content को scrape करके बनाया गया है, जिन्हें बहुत recommended Reddit submissions में link किया गया था, और इसमें मेरी कुछ writing भी शामिल है
- relevance और impact को छोड़ दें, तो किसी access restriction के बिना किसी site पर internet-public तरीके से content डालकर उस content पर moral rights का दावा करना समझना मुश्किल है
  यह radio पर broadcast करने या लाखों random लोगों के घरों के सामने printed material deliver करने जैसा है
  intellectual property ownership स्थापित करने और data को copyright से protect करने के तरीके हैं, लेकिन Tumblr fanfic, YouTube comments, HN discussions formal copyright हासिल करने का रास्ता नहीं हैं
  जिस चीज़ को आपने ऐसी website पर डाला है जिसे legal तरीके से scrape किया जा सकता है, वह fair use के दायरे में आ सकती है
  public websites से इकट्ठा किया गया data आप निजी तौर पर किसी भी तरह इस्तेमाल कर सकते हैं, और scraped dataset से एक बढ़िया HN LLM बनाकर निजी तौर पर इस्तेमाल भी कर सकते हैं
  हालिया case law को देखते हुए, अगर copyright का सम्मान करने और मूल text की reproduction रोकने के लिए good-faith efforts किए जाएँ, तो दुनिया भर की copyrighted works पर trained model को भी API के रूप में provide करना और commercial use करना संभव हो सकता है
  हालांकि अगर model खुद को बेचा या distribute किया जाए, तो यह दूसरे legal क्षेत्र में चला जाता है
  internet मूल रूप से इसी तरह काम करने के लिए design किया गया था, और अगर access रोकना है तो authentication, network settings, access control implement करने चाहिए
  ऐसी व्यवस्था के बिना public site पर डालने का मतलब यह माना जाना चाहिए कि आपने व्यापक fair use के खिलाफ protection claim का बड़ा हिस्सा छोड़ दिया, और server व domain लगाते ही आपने implicit रूप से पूरी दुनिया को download करने का निमंत्रण दे दिया
  OpenWebText2 में जिसे misuse माना जा रहा है, वह मूल रूप से public website पर डालने और बाद के use पर control खो देने से निकला है, और वह fair तरीके से scrape किया गया था
- domain name बता दें तो मैं major LLMs में plagiarism check कर दूँगा
  शायद कोई भी model आपकी writing से एक sentence भी generate नहीं कर पाएगा
क्या इसे अभी भी कहीं से download किया जा सकता है? कुछ महीने पहले download करने की कोशिश की थी, लेकिन download link 404 था, और अभी भी वैसा ही लगता है
- distribution ज्यादातर torrent·magnet links और सीधे hard drive exchange से होता है
  अगर आप किसी ऐसे व्यक्ति को नहीं जानते जिसके पास पहले से है, तो public trackers खोज सकते हैं
  लेकिन यह जान लें कि इसमें copyrighted content शामिल है, इसलिए distribution piracy के अंतर्गत आता है
- पता नहीं यहाँ magnet link पोस्ट करना ठीक है या नहीं
  magnet:?xt=urn:btih:0d366035664fdf51cfbe9f733953ba325776e667&dn=EleutherAI_ThePile_v1
- The Pile पुरानी खबर है, और सलाह है कि इससे ज़्यादा recent datasets जैसे the-stack-v2 देखें
  https://huggingface.co/datasets/bigcode/the-stack-v2
  — https://the-eye.eu/public/AI/pile/readme.txt
- The Pile में कई curated sources शामिल हैं, और हालिया trend curated data sources को filtered web crawl के साथ combine करने का है
  जैसे Common Crawl को heavy processing के बाद mix करना; दूसरों ने जो dolma या code models के लिए the-stack-v2 का ज़िक्र किया, वे ऐसे ही उदाहरण हैं
नाम शानदार है। Manhattan Project का original “Pile” याद आता है
“The Making of the Atomic Bomb”(1986) में पढ़ा था, और शायद हालिया movie में भी आया होगा
- असल में लगभग नहीं आया। मुझे याद है कि बस बहुत छोटा-सा mention था
  movie ऐसा लगा जैसे अंत में एक भोंडा message बनाने के लिए anecdotes को पिरो दिया गया हो
  actual recreation के बजाय fictional story के तौर पर देखें तो ठीक movie थी, लेकिन किताब पढ़ना बेहतर होगा
  खासकर अगर Fermi में रुचि है, तो David Schwartz की “The Last Man Who Knew Everything” recommend करूँगा
The Pile काफ़ी पुराना है; क्या यह उसका updated version है?
- नहीं
  इसी से जुड़ा the-stack dataset v2 हाल ही में रिलीज़ हुआ है
  बताया गया है कि Software Heritage 2023-09-06 graph dataset को traverse करके 10.42 करोड़ GitHub repositories में मौजूद 3.28 अरब unique files इकट्ठी की गईं, और 2023-09-14 तक के GitHub Archive data से repository-level metadata भी अतिरिक्त रूप से जुटाया गया
  कुल uncompressed size 67.53TB है, और preprocessing pipeline में exact deduplication के ऊपर approximate deduplication लागू किया गया है
  deduplication के बाद size और token count के आधार पर v1 2.9TB·200B है, जबकि v2 32.1TB·900B है
  लगता है कि जल्द ही काफ़ी शक्तिशाली public coding models आने वाले हैं, और जिन models को test करने की सोच है वे हैं dolphincoder-starcoder2-15b-iMat.GGUF, CodeFuse-DeepSeek-33B-iMat.GGUF, OpenCodeInterpreter-DS-33B-iMat.GGUF, starcoder2-15b-instruct-iMat.GGUF
  Dataset: https://huggingface.co/datasets/bigcode/the-stack-v2
  GGUF quantization: https://huggingface.co/dranger003
बड़े Hollywood studios कई cybersecurity companies को काफ़ी पैसा देकर pirated content ढूंढवाते हैं और hosting companies को copyright infringement takedown notices भेजते हैं
अगर लेखक और कलाकार data coalition जैसी किसी व्यवस्था में साथ आएं, तो वे studios जैसा ही काम कर सकते हैं
अगर copyright law में वास्तविक ताकत है, तो ऐसी संस्था उन जगहों को कानूनी requests भेजकर content हटाने की मांग कर सकती है जहां वह host किया जा रहा है

The Pile, 825GiB का open-source language modeling dataset (2020)

The Pile की संरचना और distribution

The Pile: An 800GB Dataset of Diverse Text for Language Modeling

training set और benchmark के रूप में भूमिका

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय