लाखों PDF को प्रोसेस कैसे करें, और Gemini 2.0 सब कुछ क्यों बदल रहा है

(sergey.fyi)

29 पॉइंट द्वारा GN⁺ 2025-02-06 | 2 टिप्पणियां | WhatsApp पर शेयर करें

PDF को text chunks में बदलने की प्रक्रिया (chunking) बड़े पैमाने के RAG सिस्टम बनाने में सबसे परेशान करने वाली समस्याओं में से एक है
open source और commercial, दोनों तरह के solutions मौजूद हैं, लेकिन accuracy, scalability और cost efficiency—इन तीनों पहलुओं में संतोषजनक परिणाम पाना अब भी कठिन है
- उदाहरण: NVIDIA का nv-ingest कई services को Kubernetes cluster में कॉन्फ़िगर करने की मांग करता है, और यह GPU resources बहुत अधिक खर्च करने वाला जटिल तरीका है
- कुछ commercial services में भी cost के मुकाबले accuracy कम होती है, या बड़े दस्तावेज़ों पर लागू करने पर कीमतें बेहद ऊंची हो जाती हैं

Gemini Flash 2.0 का आगमन

बड़े models (LLM) को OCR और PDF conversion जैसी प्रक्रियाओं में इस्तेमाल करने की कोशिशें पहले भी हुई थीं, लेकिन वास्तविक cost saving बहुत कम थी और unpredictable errors भी काफी थे
- उदाहरण: GPT-4o के tables में अनावश्यक cells जोड़ देने के मामले रिपोर्ट हुए थे
Gemini Flash 2.0 को 1.5 Flash version की तुलना में accuracy और cost efficiency, दोनों में काफी बेहतर माना जा रहा है
- internal tests के अनुसार, इसने लगभग perfect OCR accuracy हासिल की, जबकि लागत बहुत कम रही
Google का Developer Experience, OpenAI की तुलना में थोड़ा पीछे माना जाता है, लेकिन इसकी reasonable pricing एक बड़ी ताकत है

लागत और accuracy की तुलना

PDF को Markdown format में बदलने पर, प्रति page processing cost के लिहाज़ से Gemini Flash 2.0 बेहतर साबित होता है
- 2.0 Flash: लगभग 6,000 pages/$1
- 2.0 Flash Lite: लगभग 12,000 pages/$1 (test से पहले)
- 1.5 Flash: लगभग 10,000 pages/$1
- AWS Textract: लगभग 1,000 pages/$1
- OpenAI 4o-mini: लगभग 450 pages/$1 आदि
table extraction accuracy देखें तो Reducto के अपने model का स्कोर 0.90 के साथ सबसे ऊंचा था, जबकि Gemini 2.0 Flash और Anthropic Sonnet लगभग 0.84 के स्तर पर थे
- जिन मामलों में Gemini गलत लगता था, उनमें ज्यादातर structural formatting की समस्या थी; वास्तविक संख्याओं को गलत पहचानने के मामले कम थे
इसके अलावा text extraction लगभग पूरी तरह सटीक के करीब काम करता है

दस्तावेज़ विभाजन (Chunking) और LLM का उपयोग

RAG pipeline में उपयोग के लिए निकाले गए text को अर्थपूर्ण इकाइयों में बांटना ज़रूरी होता है
शोध से पता चलता है कि बड़े LLM का उपयोग करने पर text boundaries को अधिक स्वाभाविक ढंग से पहचाना जा सकता है
लेकिन अब तक लागत इतनी अधिक थी कि इसे बड़े document sets पर व्यावहारिक रूप से लागू करना मुश्किल था
Gemini Flash 2.0 की वजह से अब LLM-आधारित chunk splitting को बड़े document collections पर भी कम लागत में लागू किया जा सकता है
- उदाहरण: 10 करोड़ pages के PDF corpus को लगभग $5,000 में प्रोसेस किया जा सकता है
एक सरल example prompt:

OCR the following page into Markdown. Tables should be formatted as HTML.
Do not sorround your output with triple backticks.

Chunk the document into sections of roughly 250 - 1000 words. Our goal is
to identify parts of the page with same semantic theme. These chunks will
be embedded and used in a RAG pipeline.

Surround the chunks with <chunk> </chunk> html tags.

Bounding Box की समस्या

PDF में text location information (जैसे Bounding Box) को बनाए रखना ज़रूरी है, ताकि उपयोगकर्ता को सटीक आधार दिखाया जा सके
Markdown में बदलने पर location information का खो जाना एक बड़ी कमी है
कुछ शोधों में LLM के image और document के भीतर spatial understanding दिखाने के उदाहरण मिले हैं, लेकिन मौजूदा Gemini model अभी सटीक Bounding Box देने में सक्षम नहीं है
अगर Google अतिरिक्त training या fine-tuning के जरिए document layout data को मजबूत करे, तो इस समस्या का समाधान संभव है

कारण और महत्व

सस्ता और सटीक PDF extraction तथा chunking solution बड़े पैमाने के document indexing pipelines को सरल बनाने और उनकी scalability बढ़ाने का मुख्य तत्व है
parsing, chunking और bounding box की समस्याएं हल हो जाने पर LLM-आधारित document processing कहीं अधिक आसान हो जाएगी
आगे चलकर अधिक परिपक्व open source libraries तेज़ी से सामने आने की संभावना है, और यह कई कंपनियों व developers के लिए आसानी से इस्तेमाल होने वाला आधार बनेगा
अगर किसी को Google के AI Startup credits program के बारे में जानकारी हो, तो संपर्क करने का अनुरोध है

टिप्पणियां

[1] Reducto vs Gemini vs मूल PDF की तुलना करने वाली sample images संलग्न हैं
[2] Gemini Flash 2.0 cost calculation: input image cost $0.00009675, और 400 tokens पर $0.0000525 output cost के आधार पर, लगभग 6,379 pages/$1 का अनुमान निकाला गया है

2 टिप्पणियां

jacde 2025-02-07

लागत या परफ़ॉर्मेंस के लिहाज़ से agent chunking काफ़ी असरदार साबित हो सकता है।

ragingwind 2025-02-06

इसे LLM-Ready format में बदलने वाला बाज़ार काफ़ी प्रतिस्पर्धी हो गया है।