• SafeDocs के पूरे संग्रह को LLMs, embedding models, XGBoost, और Linear Regressors का उपयोग करके वर्गीकृत किया गया।
  • वर्गीकरण प्रक्रिया में विभिन्न प्रयोग और performance comparisons किए गए, और कई models के performance का मूल्यांकन किया गया।

परिचय

  • Common Crawl(CC) इंटरनेट को archive करने वाला एक web archive है, जो वैज्ञानिकों और शोधकर्ताओं के लिए इंटरनेट को संरक्षित करने पर केंद्रित है।
  • CC PDF फ़ाइलों को पूरा store नहीं करता, बल्कि केवल पहला 1MB store करता है; SafeDocs ऐसे CC से PDF फ़ाइलों को फिर से प्राप्त करके मूल PDF को संरक्षित करता है।
  • SafeDocs dataset में लगभग 84 लाख PDF फ़ाइलें हैं, और decompress करने पर इसका आकार 8TB तक पहुँचता है।
  • इन PDF को वर्गीकृत करने का प्रयास किया गया।

डेटासेट निर्माण

  • PDF फ़ाइलों को विभिन्न labels में वर्गीकृत करने की प्रक्रिया का वर्णन किया गया है।
  • FineWeb technical blog से प्रेरणा लेकर educational content का एक subset बनाया गया, LLM का उपयोग करके labels तैयार किए गए, और फिर ऐसा छोटा model train किया गया जो इन्हें सीख सके।
  • 100k labels बनाए गए, और असंतुलित labels को समायोजित करके उन्हें 59k labels में पुनर्गठित किया गया।

मॉडल प्रशिक्षण

आइडिया 1: embedding model

  • embedding model का उपयोग करके text, image, video जैसे data को n-आयामी space के vectors में बदला गया।
  • Finetuning के माध्यम से classification performance बढ़ाई गई।
  • कई models को test करने पर Alibaba-large-gte-1.5 model ने सबसे अच्छा प्रदर्शन किया और 59.14% accuracy दर्ज की।

आइडिया 2: XGBoost

  • XGBoost table data पर बेहतरीन performance देने वाला model है, जो कई सरल binary classifiers को train करके classification problems को हल करता है।
  • इस तरीके से 83.97% accuracy हासिल की गई।

आइडिया 3: TFIDF

  • TFIDF एक तरीका है जो यह गणना करता है कि text में कोई विशेष शब्द किसी document के भीतर कितना महत्वपूर्ण है, और basic NLP techniques का उपयोग करके model को train किया गया।
  • इसने 67.52% accuracy दर्ज की।

आइडिया 4: फिर से deep learning की ओर

  • deep learning classifier का उपयोग करके कम से कम 70% accuracy हासिल करने का लक्ष्य रखा गया।
  • अधिक labels बनाए गए, और gte-large model के साथ प्रयोग करने पर 69.22% accuracy हासिल हुई।

प्रयोग परिणाम

  • अंततः XGBoost embedding model ने सबसे अधिक 85.26% accuracy दर्ज की।
  • विभिन्न models के performance की तुलना में XGBoost सबसे बेहतर साबित हुआ।

पूरे corpus का वर्गीकरण

  • तैयार किए गए model का उपयोग करके पूरे PDF data को classify किया गया और उसके परिणामों को visualize किया गया।
  • PCA और UMAP का उपयोग करके classification results को visual रूप में प्रस्तुत किया गया।

निष्कर्ष

  • deep learning models का प्रदर्शन अपेक्षाओं तक नहीं पहुँचा, लेकिन कुल मिलाकर सार्थक परिणाम हासिल हुए।
  • उम्मीद है कि PDF जैसे complex data का उपयोग करने वाले large-scale datasets आगे और अधिक सामने आएँगे।
  • dataset और code को सार्वजनिक किया गया ताकि बेहतर परिणाम पाने के अवसर मिल सकें।

GN⁺ की राय

  • यह project large-scale datasets की classification problem पर विभिन्न approaches के प्रयोग का एक अच्छा उदाहरण है।
  • यह दिखाता है कि XGBoost जैसी पारंपरिक machine learning techniques आज भी बहुत प्रभावी हो सकती हैं।
  • deep learning models का प्रदर्शन बेहतर करने के लिए संभव है कि अधिक data और GPU resources की आवश्यकता रही हो।
  • PDF जैसे complex data को process करने के तरीकों पर और अधिक research और experiments की जरूरत है।
  • यह project research और development में रुचि रखने वालों के लिए बहुत उपयोगी संदर्भ सामग्री बन सकता है।

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.