- वीडियो स्क्रैपिंग: स्क्रीन कैप्चर वीडियो को Google Gemini मॉडल में देकर उसे structured data में बदला जा सकता है
- इमेज मॉडल का उपयोग: Gemini, GPT-4o, Claude 3.7 आदि का उपयोग करके इमेज और असंरचित PDF से डेटा निकाला जा सकता है
- Playwright जैसी आधुनिक लाइब्रेरी का उपयोग: ब्राउज़र automation किया जा सकता है। इसे वीडियो/इमेज विश्लेषण मॉडल के साथ इंटीग्रेट करके इस्तेमाल किया जा सकता है
- Simon Willison द्वारा डेटा जर्नलिज़्म कॉन्फ्रेंस NICAR 2025 में लिया गया 1 घंटे का इंटरैक्टिव वर्कशॉप
वर्कशॉप की संरचना
1. Git स्क्रैपिंग
- Git scraper क्या है?
- GitHub Actions का उपयोग करके वेबसाइट या संसाधनों को नियमित रूप से स्क्रैप किया जा सकता है और बदलावों का रिकॉर्ड रखा जा सकता है
- GitHub repository में template Repo का उपयोग करके fork/clone करने के बाद इसे आसानी से सेट किया जा सकता है
- किसी खास वेबसाइट URL या JSON फ़ाइल URL को दर्ज करने पर यह रोज़ अपने-आप चल सकता है
- repository के commit page URL में
.atom जोड़ने पर RSS feed बनाई जा सकती है
- RSS reader के ज़रिये वेबसाइट के बदलावों को रीयल-टाइम में देखा जा सकता है
2. ब्राउज़र के भीतर JavaScript स्क्रैपिंग
- जटिल वेबसाइटों से सिर्फ़ साधारण HTML parsing के ज़रिये डेटा निकालना मुश्किल होता है
- असली ब्राउज़र में पेज लोड होने के बाद JavaScript का उपयोग करके स्क्रैपिंग की जा सकती है
- टेबल डेटा एक्सट्रैक्शन: ब्राउज़र developer tools में JavaScript का उपयोग करके टेबल डेटा को JSON में बदला जा सकता है
- अनंत स्क्रॉल पेज हैंडलिंग: JavaScript से पेज पर लगातार जुड़ते कंटेंट को अपने-आप इकट्ठा किया जा सकता है
- shot-scraper का उपयोग करके automation:
- खास command के ज़रिये पूरे वेबपेज का screenshot कैप्चर किया जा सकता है
- JavaScript code चलाने के बाद JSON फ़ॉर्मेट में डेटा आउटपुट किया जा सकता है
3. LLM का उपयोग करके structured data extraction
- LLM (Large Language Model) का उपयोग करके unstructured data को structured data में बदला जा सकता है
- OpenAI और Google Gemini API key की ज़रूरत होती है
- Codespaces या local Python environment में इसे चलाया जा सकता है
- schema के ज़रिये डेटा एक्सट्रैक्शन
- schema वह ढांचा है जो यह परिभाषित करता है कि LLM किस फ़ॉर्मेट में डेटा लौटाएगा
- उदाहरण के लिए, title, URL, date आदि को schema में परिभाषित करके एकसमान फ़ॉर्मेट में डेटा निकाला जा सकता है
- वेबपेज से डेटा स्क्रैप करते समय schema-आधारित आउटपुट लिया जा सकता है
- लागत की गणना और मॉडल चयन
- हर मॉडल में input और output token की संख्या के आधार पर लागत लगती है
- GPT-4o mini मॉडल सस्ता है, लेकिन दूसरे मॉडल महंगे हो सकते हैं
- उदाहरण के लिए, GPT-4.5 मॉडल में वही काम करने पर कहीं ज़्यादा लागत आ सकती है
- Gemini मॉडल तुलनात्मक रूप से सस्ते हैं और कई विकल्प देते हैं
- PDF से डेटा एक्सट्रैक्शन
- FEMA Daily Operations Briefing जैसे PDF दस्तावेज़ों से डेटा निकाला जा सकता है
- Gemini मॉडल PDF फ़ाइल को इनपुट लेकर structured JSON फ़ॉर्मेट में आउटपुट दे सकता है
- PDF से खास तालिकाएँ या टेक्स्ट निकाले जा सकते हैं
- इमेज से डेटा एक्सट्रैक्शन
- GPT-4o इमेज से डेटा निकाल सकता है
- screenshot को मॉडल में देकर structured data आउटपुट लिया जा सकता है
- मॉडल चयन के सुझाव
- Gemini 2.0 Pro मॉडल मुफ़्त है, लेकिन उस पर कड़े rate limit मौजूद हैं
- लागत-प्रभावशीलता और performance को ध्यान में रखते हुए कई मॉडलों को टेस्ट करके चुनना चाहिए
- वेबपेज की प्रकृति के अनुसार LLM की तुलना में shot-scraper ज़्यादा उपयोगी हो सकता है
- जटिल डेटा प्रोसेसिंग की चुनौतियाँ
- जटिल infographic या map से डेटा निकालते समय अलग-अलग मॉडलों का प्रदर्शन भिन्न हो सकता है
- सबसे अच्छा प्रदर्शन देने वाले मॉडल को चुनने के लिए कई मॉडल आज़माने की ज़रूरत होती है
4. Google AI Studio का उपयोग करके वीडियो स्क्रैपिंग
- वीडियो स्क्रैपिंग ऐसी वेबसाइटों से डेटा निकालने का शक्तिशाली तरीका है जहाँ सामान्य स्क्रैपिंग कठिन हो
- Google Gemini मॉडल वीडियो इनपुट लेकर उसे JSON फ़ॉर्मेट के structured data में बदल सकता है
- स्क्रीन रिकॉर्डिंग के बाद उस वीडियो को AI मॉडल में देकर डेटा निकाला जा सकता है
- वीडियो स्क्रैपिंग की प्रक्रिया
- वेबसाइट में उस सेक्शन तक जाएँ जिसमें इच्छित डेटा मौजूद हो
- स्क्रीन रिकॉर्डिंग टूल (जैसे: QuickTime Player) चलाएँ
- वेबसाइट नेविगेट करें → महत्वपूर्ण हिस्सों पर थोड़ी देर रुकें
- रिकॉर्ड किए गए वीडियो को Google AI Studio में अपलोड करें
- AI Studio में मॉडल prompt लिखें और डेटा निकालें
- schema extraction tool का उपयोग करके JSON फ़ॉर्मेट में डेटा संरचित किया जा सकता है
- वीडियो स्क्रैपिंग के फ़ायदे
- जटिल वेबसाइट संरचना को bypass किया जा सकता है
- JavaScript rendering की ज़रूरत वाली साइटों में यह उपयोगी है
- पेज के भीतर मौजूद विभिन्न प्रकार के डेटा (टेक्स्ट, तालिका, इमेज आदि) निकाले जा सकते हैं
- सावधानियाँ
- AI Studio की अधिकतर सुविधाएँ मुफ़्त हैं, लेकिन इनपुट किया गया डेटा training में उपयोग हो सकता है
- सुरक्षा की दृष्टि से संवेदनशील डेटा इनपुट न करना बेहतर है
- जटिल वेबसाइटों के मामले में वीडियो स्क्रैपिंग दूसरी स्क्रैपिंग तकनीकों से अधिक प्रभावी हो सकती है
- रीयल-टाइम स्ट्रीमिंग विकल्प
- AI Studio के Stream Realtime विकल्प का उपयोग करके रीयल-टाइम डेटा extraction किया जा सकता है
- कठिन dynamic content में भी यह प्रभावी हो सकता है
- न्यूज़रूम में उपयोग
- न्यूज़रूम में जटिल डेटा एक्सट्रैक्शन और automation के लिए उपयोगी
- Gemini मॉडल के performance और accuracy को टेस्ट करके सबसे उपयुक्त तरीका निकाला जा सकता है
- वर्कशॉप के बाद भी सहयोग और feedback संभव है
अतिरिक्त टूल और सामग्री
3 टिप्पणियां
हम्म.. GitHub Actions का इस्तेमाल करना शायद GitHub की policy का उल्लंघन होगा
काश इसका Android के लिए भी कोई वर्ज़न होता
अगर इसमें anti-macro prevention को bypass करने की क्षमता हो, तो लगता है कि यह बाज़ार का विजेता बन सकता है।