6 पॉइंट द्वारा xguru 2024-03-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ArXiv पेपर को आसानी से पढ़ने लायक बनाने के लिए उसका सारांश तैयार करके GPT की मदद से उसे ऑडियो/वीडियो में बदलने वाला कोड
  • visual learners के लिए पेपर को वीडियो फ़ॉर्मैट में और सुनना पसंद करने वालों के लिए ऑडियो में बदलता है
  • काम करने के चरण
    • ArXiv ID के ज़रिए पेपर का source code डाउनलोड
    • latex2html या latexmlc का उपयोग करके LaTeX कोड को HTML पेज में बदलना
    • HTML पेज से टेक्स्ट और सूत्र निकालना, टेबल और चित्र आदि को नज़रअंदाज़ करना
    • वीडियो बनाते समय PDF पेज, टेक्स्ट और page block से मेल खाने वाले text chunk को मैप करना
    • टेक्स्ट को sections में बाँटकर OpenAI GPT API के माध्यम से वाक्यों को दोबारा रचना, सरल बनाना और समझाना
    • GPT से बने टेक्स्ट को chunks में बाँटकर Google के text-to-speech API से ऑडियो में बदलना
    • सभी ज़रूरी हिस्सों को पैकेज करके वीडियो प्रोसेसिंग के लिए zip फ़ाइल बनाना
    • पहले से गणना किए गए text-block map का उपयोग करके ffmpeg से वीडियो बनाना

1 टिप्पणियां

 
xguru 2024-03-20

वीडियो भी? यह देखकर मैं हैरान होकर YouTube पर गया, लेकिन वहाँ बस पेपर पेज का कैप्चर + आवाज़ है।
मुझे लगता है कि जब OpenAI Sora सार्वजनिक होगा, तब शायद यह खुद पेपर की और गहराई से व्याख्या करके उसे समझाने वाले वीडियो तक भी बना सकेगा।

आधिकारिक YouTube चैनल : https://www.youtube.com/@ArxivPapers