1 पॉइंट द्वारा GN⁺ 2024-10-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • PDF को podcast में बदलने के लिए workflow बनाने वाली tutorial series
  • text-to-speech model का उपयोग करके experiments भी सीखे जा सकते हैं
  • LLM, prompt, audio model के बारे में पहले से जानकारी न हो, तब भी हर notebook में सब कुछ कवर किया गया है

चरण-दर-चरण प्रक्रिया

  • चरण 1: PDF preprocessing
    Llama-3.2-1B-Instruct मॉडल का उपयोग करके PDF को preprocess किया जाता है और .txt फ़ाइल के रूप में सेव किया जाता है।
  • चरण 2: transcript लिखना
    Llama-3.1-70B-Instruct मॉडल का उपयोग करके text से podcast transcript तैयार किया जाता है।
  • चरण 3: नाटकीय पुनर्लेखन
    Llama-3.1-8B-Instruct मॉडल का उपयोग करके transcript को और अधिक नाटकीय बनाया जाता है।
  • चरण 4: text-to-speech workflow
    parler-tts/parler-tts-mini-v1 और bark/suno मॉडल का उपयोग करके conversational podcast बनाया जाता है।

notebook चलाने के विस्तृत चरण

  • आवश्यकताएँ
    70B, 8B, 1B Llama मॉडल का उपयोग करने के लिए GPU server या API provider की आवश्यकता है।
  • Notebook 1
    PDF को process करता है और Feather light मॉडल का उपयोग करके उसे .txt फ़ाइल में बदलता है।
  • Notebook 2
    Notebook 1 के output को लेकर उसे रचनात्मक रूप से podcast transcript में बदलता है।
  • Notebook 3
    पिछले transcript को लेकर बातचीत में नाटकीय तत्व और विराम जोड़ता है।
  • Notebook 4
    आखिरी notebook के परिणाम को podcast में बदलता है।

भविष्य के सुधार/अतिरिक्त विचार

  • voice model experiments: अधिक प्राकृतिक ध्वनि के लिए TTS मॉडल में सुधार की आवश्यकता।
  • LLM बनाम LLM चर्चा: दो agent किसी विषय पर चर्चा करके podcast outline तैयार करें।
  • 405B मॉडल का उपयोग करके transcript generation test।
  • बेहतर prompt लिखना।
  • website, audio file, YouTube link आदि को ingest करने वाली सुविधा का समर्थन।

GN⁺ की संक्षिप्त टिप्पणी

  • NotebookLlama एक open source project है जो PDF को podcast में बदलता है और विभिन्न LLM तथा TTS मॉडल का उपयोग करके रचनात्मक content बनाता है।
  • यह project LLM और TTS मॉडल के experiments के माध्यम से अधिक प्राकृतिक आवाज़ उत्पन्न करने की संभावना दिखाता है।
  • समान सुविधाओं वाले projects में Google का TTS API और Amazon Polly जैसी सेवाएँ सुझाई गई हैं।

1 टिप्पणियां

 
GN⁺ 2024-10-28
Hacker News की राय
  • NotebookLM के "episode" सुनते-सुनते यह भरोसा होने लगता है कि Google ने अपने मौजूदा multimodal backbone के आधार पर दो वक्ताओं वाले "podcast discussion" मॉडल को train किया है

    • जिस तरह दोनों वक्ता इंसानों की तरह एक-दूसरे की बात काटते हुए बातचीत करते हैं, वह बहुत स्वाभाविक लगता है
    • संभव है कि असली podcast और उनके transcript के आधार पर मॉडल को fine-tune किया गया हो
    • "The Daily" episode का उदाहरण देते हुए अनुमान लगाया गया कि language model podcast सामग्री का सार लेकर एक काल्पनिक लेख लिखता होगा, फिर उसे दो-speaker मॉडल में डालकर यह देखा जाता होगा कि निकला हुआ transcript इनपुट लेख से कितना मेल खाता है
  • NotebookLM तकनीक से बहुत परिचित न होने वाले लोगों के लिए भी बेहद प्रभावशाली है

    • 70 साल के माता-पिता और 8 साल के बच्चे तक इस तकनीक पर हैरान हैं और इसे लगातार इस्तेमाल कर रहे हैं
  • TTS engine का चुनाव अजीब लगता है

    • तर्क दिया गया कि नवीन open TTS systems की तुलना में XTTSv2 या नया F5-TTS बेहतर विकल्प होता
  • sample output को बहुत अपर्याप्त माना गया

    • इस बात पर ज़ोर दिया गया कि NotebookLM टीम ने मौजूदा foundation model का इस्तेमाल करके एक hit product बना दिया
  • उम्मीद है कि यह दूसरी भाषाओं और अलग-अलग accents, खासकर Southeast Asian accents, में जारी हो

  • यह राय भी है कि NotebookLM वास्तव में open source नहीं है, बल्कि iPython notebook में किए गए कुछ experiments जैसा है

    • LLM स्तर पर इसकी functionality खास तौर पर नई नहीं है, लेकिन product के रूप में इसकी packaging दिलचस्प है
    • "podcast" हिस्सा बड़े corpus की introduction/overview भर है, और bot के साथ बातचीत करके उद्धृत reference material पाना ज़्यादा उपयोगी माना गया
  • यह दिखाता है कि LLM का इस्तेमाल करके prototyping कितनी तेज़ हो सकती है

    • जिन्होंने API का इस्तेमाल नहीं किया है, उन्हें इसे आज़माने की सलाह दी गई
  • यह सवाल उठाया गया कि क्या NotebookLM सिर्फ podcast ही बनाता है

    • podcast मज़ेदार है, लेकिन इसे कुछ हद तक gimmicky feature भी माना गया
  • अगर इसे mobile phone पर local रूप से चलाया जा सके तो अच्छा होगा

    • उदाहरण के लिए, अगर काम के documents को podcast में बदलकर ड्राइव करते समय सुना जा सके, तो productivity काफ़ी बढ़ सकती है
  • sample को थोड़ा rough माना गया

  • यह भी कहा गया कि NotebookLM इस्तेमाल कर चुके किसी व्यक्ति का output सुनना अच्छा रहेगा