- ArXiv पेपर को आसानी से पढ़ने लायक बनाने के लिए उसका सारांश तैयार करके GPT की मदद से उसे ऑडियो/वीडियो में बदलने वाला कोड
- visual learners के लिए पेपर को वीडियो फ़ॉर्मैट में और सुनना पसंद करने वालों के लिए ऑडियो में बदलता है
- काम करने के चरण
- ArXiv ID के ज़रिए पेपर का source code डाउनलोड
latex2html या latexmlc का उपयोग करके LaTeX कोड को HTML पेज में बदलना
- HTML पेज से टेक्स्ट और सूत्र निकालना, टेबल और चित्र आदि को नज़रअंदाज़ करना
- वीडियो बनाते समय PDF पेज, टेक्स्ट और page block से मेल खाने वाले text chunk को मैप करना
- टेक्स्ट को sections में बाँटकर OpenAI GPT API के माध्यम से वाक्यों को दोबारा रचना, सरल बनाना और समझाना
- GPT से बने टेक्स्ट को chunks में बाँटकर Google के text-to-speech API से ऑडियो में बदलना
- सभी ज़रूरी हिस्सों को पैकेज करके वीडियो प्रोसेसिंग के लिए zip फ़ाइल बनाना
- पहले से गणना किए गए text-block map का उपयोग करके
ffmpeg से वीडियो बनाना
1 टिप्पणियां
वीडियो भी? यह देखकर मैं हैरान होकर YouTube पर गया, लेकिन वहाँ बस पेपर पेज का कैप्चर + आवाज़ है।
मुझे लगता है कि जब OpenAI Sora सार्वजनिक होगा, तब शायद यह खुद पेपर की और गहराई से व्याख्या करके उसे समझाने वाले वीडियो तक भी बना सकेगा।
आधिकारिक YouTube चैनल : https://www.youtube.com/@ArxivPapers