- PDF को podcast में बदलने के लिए workflow बनाने वाली tutorial series
- text-to-speech model का उपयोग करके experiments भी सीखे जा सकते हैं
- LLM, prompt, audio model के बारे में पहले से जानकारी न हो, तब भी हर notebook में सब कुछ कवर किया गया है
चरण-दर-चरण प्रक्रिया
- चरण 1: PDF preprocessing
Llama-3.2-1B-Instruct मॉडल का उपयोग करके PDF को preprocess किया जाता है और .txt फ़ाइल के रूप में सेव किया जाता है।
- चरण 2: transcript लिखना
Llama-3.1-70B-Instruct मॉडल का उपयोग करके text से podcast transcript तैयार किया जाता है।
- चरण 3: नाटकीय पुनर्लेखन
Llama-3.1-8B-Instruct मॉडल का उपयोग करके transcript को और अधिक नाटकीय बनाया जाता है।
- चरण 4: text-to-speech workflow
parler-tts/parler-tts-mini-v1 और bark/suno मॉडल का उपयोग करके conversational podcast बनाया जाता है।
notebook चलाने के विस्तृत चरण
- आवश्यकताएँ
70B, 8B, 1B Llama मॉडल का उपयोग करने के लिए GPU server या API provider की आवश्यकता है।
- Notebook 1
PDF को process करता है और Feather light मॉडल का उपयोग करके उसे .txt फ़ाइल में बदलता है।
- Notebook 2
Notebook 1 के output को लेकर उसे रचनात्मक रूप से podcast transcript में बदलता है।
- Notebook 3
पिछले transcript को लेकर बातचीत में नाटकीय तत्व और विराम जोड़ता है।
- Notebook 4
आखिरी notebook के परिणाम को podcast में बदलता है।
भविष्य के सुधार/अतिरिक्त विचार
- voice model experiments: अधिक प्राकृतिक ध्वनि के लिए TTS मॉडल में सुधार की आवश्यकता।
- LLM बनाम LLM चर्चा: दो agent किसी विषय पर चर्चा करके podcast outline तैयार करें।
- 405B मॉडल का उपयोग करके transcript generation test।
- बेहतर prompt लिखना।
- website, audio file, YouTube link आदि को ingest करने वाली सुविधा का समर्थन।
GN⁺ की संक्षिप्त टिप्पणी
- NotebookLlama एक open source project है जो PDF को podcast में बदलता है और विभिन्न LLM तथा TTS मॉडल का उपयोग करके रचनात्मक content बनाता है।
- यह project LLM और TTS मॉडल के experiments के माध्यम से अधिक प्राकृतिक आवाज़ उत्पन्न करने की संभावना दिखाता है।
- समान सुविधाओं वाले projects में Google का TTS API और Amazon Polly जैसी सेवाएँ सुझाई गई हैं।
1 टिप्पणियां
Hacker News की राय
NotebookLM के "episode" सुनते-सुनते यह भरोसा होने लगता है कि Google ने अपने मौजूदा multimodal backbone के आधार पर दो वक्ताओं वाले "podcast discussion" मॉडल को train किया है
NotebookLM तकनीक से बहुत परिचित न होने वाले लोगों के लिए भी बेहद प्रभावशाली है
TTS engine का चुनाव अजीब लगता है
sample output को बहुत अपर्याप्त माना गया
उम्मीद है कि यह दूसरी भाषाओं और अलग-अलग accents, खासकर Southeast Asian accents, में जारी हो
यह राय भी है कि NotebookLM वास्तव में open source नहीं है, बल्कि iPython notebook में किए गए कुछ experiments जैसा है
यह दिखाता है कि LLM का इस्तेमाल करके prototyping कितनी तेज़ हो सकती है
यह सवाल उठाया गया कि क्या NotebookLM सिर्फ podcast ही बनाता है
अगर इसे mobile phone पर local रूप से चलाया जा सके तो अच्छा होगा
sample को थोड़ा rough माना गया
यह भी कहा गया कि NotebookLM इस्तेमाल कर चुके किसी व्यक्ति का output सुनना अच्छा रहेगा