36 पॉइंट द्वारा xguru 2025-03-13 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • वीडियो स्क्रैपिंग: स्क्रीन कैप्चर वीडियो को Google Gemini मॉडल में देकर उसे structured data में बदला जा सकता है
  • इमेज मॉडल का उपयोग: Gemini, GPT-4o, Claude 3.7 आदि का उपयोग करके इमेज और असंरचित PDF से डेटा निकाला जा सकता है
  • Playwright जैसी आधुनिक लाइब्रेरी का उपयोग: ब्राउज़र automation किया जा सकता है। इसे वीडियो/इमेज विश्लेषण मॉडल के साथ इंटीग्रेट करके इस्तेमाल किया जा सकता है
  • Simon Willison द्वारा डेटा जर्नलिज़्म कॉन्फ्रेंस NICAR 2025 में लिया गया 1 घंटे का इंटरैक्टिव वर्कशॉप

वर्कशॉप की संरचना

1. Git स्क्रैपिंग

  • Git scraper क्या है?
    • GitHub Actions का उपयोग करके वेबसाइट या संसाधनों को नियमित रूप से स्क्रैप किया जा सकता है और बदलावों का रिकॉर्ड रखा जा सकता है
    • GitHub repository में template Repo का उपयोग करके fork/clone करने के बाद इसे आसानी से सेट किया जा सकता है
    • किसी खास वेबसाइट URL या JSON फ़ाइल URL को दर्ज करने पर यह रोज़ अपने-आप चल सकता है
  • repository के commit page URL में .atom जोड़ने पर RSS feed बनाई जा सकती है
    • RSS reader के ज़रिये वेबसाइट के बदलावों को रीयल-टाइम में देखा जा सकता है

2. ब्राउज़र के भीतर JavaScript स्क्रैपिंग

  • जटिल वेबसाइटों से सिर्फ़ साधारण HTML parsing के ज़रिये डेटा निकालना मुश्किल होता है
  • असली ब्राउज़र में पेज लोड होने के बाद JavaScript का उपयोग करके स्क्रैपिंग की जा सकती है
  • टेबल डेटा एक्सट्रैक्शन: ब्राउज़र developer tools में JavaScript का उपयोग करके टेबल डेटा को JSON में बदला जा सकता है
  • अनंत स्क्रॉल पेज हैंडलिंग: JavaScript से पेज पर लगातार जुड़ते कंटेंट को अपने-आप इकट्ठा किया जा सकता है
  • shot-scraper का उपयोग करके automation:
    • खास command के ज़रिये पूरे वेबपेज का screenshot कैप्चर किया जा सकता है
    • JavaScript code चलाने के बाद JSON फ़ॉर्मेट में डेटा आउटपुट किया जा सकता है

3. LLM का उपयोग करके structured data extraction

  • LLM (Large Language Model) का उपयोग करके unstructured data को structured data में बदला जा सकता है
  • OpenAI और Google Gemini API key की ज़रूरत होती है
  • Codespaces या local Python environment में इसे चलाया जा सकता है
  • schema के ज़रिये डेटा एक्सट्रैक्शन
    • schema वह ढांचा है जो यह परिभाषित करता है कि LLM किस फ़ॉर्मेट में डेटा लौटाएगा
    • उदाहरण के लिए, title, URL, date आदि को schema में परिभाषित करके एकसमान फ़ॉर्मेट में डेटा निकाला जा सकता है
    • वेबपेज से डेटा स्क्रैप करते समय schema-आधारित आउटपुट लिया जा सकता है
  • लागत की गणना और मॉडल चयन
    • हर मॉडल में input और output token की संख्या के आधार पर लागत लगती है
    • GPT-4o mini मॉडल सस्ता है, लेकिन दूसरे मॉडल महंगे हो सकते हैं
    • उदाहरण के लिए, GPT-4.5 मॉडल में वही काम करने पर कहीं ज़्यादा लागत आ सकती है
    • Gemini मॉडल तुलनात्मक रूप से सस्ते हैं और कई विकल्प देते हैं
  • PDF से डेटा एक्सट्रैक्शन
    • FEMA Daily Operations Briefing जैसे PDF दस्तावेज़ों से डेटा निकाला जा सकता है
    • Gemini मॉडल PDF फ़ाइल को इनपुट लेकर structured JSON फ़ॉर्मेट में आउटपुट दे सकता है
    • PDF से खास तालिकाएँ या टेक्स्ट निकाले जा सकते हैं
  • इमेज से डेटा एक्सट्रैक्शन
    • GPT-4o इमेज से डेटा निकाल सकता है
    • screenshot को मॉडल में देकर structured data आउटपुट लिया जा सकता है
  • मॉडल चयन के सुझाव
    • Gemini 2.0 Pro मॉडल मुफ़्त है, लेकिन उस पर कड़े rate limit मौजूद हैं
    • लागत-प्रभावशीलता और performance को ध्यान में रखते हुए कई मॉडलों को टेस्ट करके चुनना चाहिए
    • वेबपेज की प्रकृति के अनुसार LLM की तुलना में shot-scraper ज़्यादा उपयोगी हो सकता है
  • जटिल डेटा प्रोसेसिंग की चुनौतियाँ
    • जटिल infographic या map से डेटा निकालते समय अलग-अलग मॉडलों का प्रदर्शन भिन्न हो सकता है
    • सबसे अच्छा प्रदर्शन देने वाले मॉडल को चुनने के लिए कई मॉडल आज़माने की ज़रूरत होती है

4. Google AI Studio का उपयोग करके वीडियो स्क्रैपिंग

  • वीडियो स्क्रैपिंग ऐसी वेबसाइटों से डेटा निकालने का शक्तिशाली तरीका है जहाँ सामान्य स्क्रैपिंग कठिन हो
  • Google Gemini मॉडल वीडियो इनपुट लेकर उसे JSON फ़ॉर्मेट के structured data में बदल सकता है
  • स्क्रीन रिकॉर्डिंग के बाद उस वीडियो को AI मॉडल में देकर डेटा निकाला जा सकता है
  • वीडियो स्क्रैपिंग की प्रक्रिया
    1. वेबसाइट में उस सेक्शन तक जाएँ जिसमें इच्छित डेटा मौजूद हो
    2. स्क्रीन रिकॉर्डिंग टूल (जैसे: QuickTime Player) चलाएँ
    3. वेबसाइट नेविगेट करें → महत्वपूर्ण हिस्सों पर थोड़ी देर रुकें
    4. रिकॉर्ड किए गए वीडियो को Google AI Studio में अपलोड करें
    5. AI Studio में मॉडल prompt लिखें और डेटा निकालें
    6. schema extraction tool का उपयोग करके JSON फ़ॉर्मेट में डेटा संरचित किया जा सकता है
  • वीडियो स्क्रैपिंग के फ़ायदे
    • जटिल वेबसाइट संरचना को bypass किया जा सकता है
    • JavaScript rendering की ज़रूरत वाली साइटों में यह उपयोगी है
    • पेज के भीतर मौजूद विभिन्न प्रकार के डेटा (टेक्स्ट, तालिका, इमेज आदि) निकाले जा सकते हैं
  • सावधानियाँ
    • AI Studio की अधिकतर सुविधाएँ मुफ़्त हैं, लेकिन इनपुट किया गया डेटा training में उपयोग हो सकता है
    • सुरक्षा की दृष्टि से संवेदनशील डेटा इनपुट न करना बेहतर है
    • जटिल वेबसाइटों के मामले में वीडियो स्क्रैपिंग दूसरी स्क्रैपिंग तकनीकों से अधिक प्रभावी हो सकती है
  • रीयल-टाइम स्ट्रीमिंग विकल्प
    • AI Studio के Stream Realtime विकल्प का उपयोग करके रीयल-टाइम डेटा extraction किया जा सकता है
    • कठिन dynamic content में भी यह प्रभावी हो सकता है
  • न्यूज़रूम में उपयोग
    • न्यूज़रूम में जटिल डेटा एक्सट्रैक्शन और automation के लिए उपयोगी
    • Gemini मॉडल के performance और accuracy को टेस्ट करके सबसे उपयुक्त तरीका निकाला जा सकता है
    • वर्कशॉप के बाद भी सहयोग और feedback संभव है

अतिरिक्त टूल और सामग्री

  • git-scraper-template – Git स्क्रैपिंग सेटअप टेम्पलेट
  • shot-scraper-template – वेबपेज screenshot automation टेम्पलेट
  • shot-scraper har - HTML archive बनाता है। --zip से compressed फ़ाइल भी बनती है (JSON और अन्य assets सहित)
  • git-history – Git commit log को SQLite database में बदलता है

3 टिप्पणियां

 
roxie 2025-03-16

हम्म.. GitHub Actions का इस्तेमाल करना शायद GitHub की policy का उल्लंघन होगा

 
lighteach 2025-03-14

काश इसका Android के लिए भी कोई वर्ज़न होता

 
wantutopia 2025-03-13

अगर इसमें anti-macro prevention को bypass करने की क्षमता हो, तो लगता है कि यह बाज़ार का विजेता बन सकता है।