NotebookLlama - Google NotebookLM का open source संस्करण

(github.com/meta-llama)

1 पॉइंट द्वारा GN⁺ 2024-10-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें

NotebookLlama recipe का मौजूदा GitHub page implementation documentation नहीं है, बल्कि यह बताने वाला सूचना page है कि इसे नई जगह ले जाया गया है
नई जगह Building a Notebook Llama: A Step-by-Step Guide document से जुड़ती है
पुराने path की body में वही move notice दोहराया गया है, इसलिए असली content नए document में देखना चाहिए
अगर पुराने bookmarks और scripts इस GitHub path को reference करते हैं, तो उन्हें नए URL पर update करना जरूरी है
मौजूदा page में installation method, code structure, execution process जैसी NotebookLlama usage instructions शामिल नहीं हैं

NotebookLlama recipe की नई जगह

NotebookLlama recipe को पुराने GitHub directory से नई जगह ले जाया गया है
नए document का title Building a Notebook Llama: A Step-by-Step Guide है

पुराने path का इस्तेमाल करने की स्थिति में

अगर पुराने bookmarks या scripts इस GitHub page की ओर point करते हैं, तो उन्हें नए document URL में बदलना होगा
मौजूदा GitHub page की body में move notice और धन्यवाद संदेश दोहराए गए हैं

इस मौजूदा page में जो content नहीं है

इस page में NotebookLlama की installation method, code structure, execution process, और feature description शामिल नहीं हैं

1 टिप्पणियां

GN⁺ 2024-10-28

Hacker News की राय

NotebookLM के “एपिसोड” जितना ज़्यादा सुनता हूं, उतना ही भरोसा बढ़ता है कि Google ने मौजूदा multimodal-based model के ऊपर सीधे podcast जनरेट करने वाला दो-व्यक्ति संवाद model train किया है
जिस तरह दो speaker एक-दूसरे को बीच में टोकते हैं और एक साथ बोलते हैं, वह डरावनी हद तक इंसानों जैसा है
ऐसा भी लगता है कि शायद असली podcasts और transcripts का बड़े पैमाने पर इस्तेमाल किया गया हो, और transcripts से synthetic “input material” बनाकर training samples में डाला गया हो
उदाहरण के लिए, The Daily का एक episode लेकर किसी language model से उस podcast की सामग्री का सार बताने वाला एक काल्पनिक लेख लिखवाया गया हो, फिर उस लेख को दो-speaker model में डालकर output audio को transcribe किया गया हो और देखा गया हो कि वह input लेख से कितना मेल खाता है
हो सकता है मैं कुछ अहम details मिस कर रहा हूं, लेकिन मुझे नहीं लगता कि इस podcast की naturalness सिर्फ text transcript से आ सकती है
- swyx की बात को आगे बढ़ाएं तो, यह TTS बहुत संभव है कि Google ने आखिरकार वह Soundstorm बाहर निकाला हो जिसे वह basement में दबाकर रखे हुए था
  https://google-research.github.io/seanet/soundstorm/examples...
- अच्छी खबर और बुरी खबर है: उन्होंने ऐसा नहीं किया
  audio model को lead करने वाले engineer का interview वाला पहला podcast था: https://www.latent.space/p/notebooklm
  संक्षेप में, उन्होंने confirm किया कि script और audio अलग-अलग generate होते हैं, लेकिन TTS model open source या commercially accessible चीज़ों से काफी आगे train किया हुआ है
- NotebookLM में मुझे भी वैसा ही एहसास हुआ, लेकिन एक अजीब बात भी देखी
  कभी-कभी host A बोल रहा होता है और अचानक host B वही sentence पूरा कर देता है
  आमतौर पर ऐसे में A, B को कुछ समझा रहा होता है या किसी सवाल का जवाब दे रहा होता है, इसलिए context के हिसाब से यह बात समझ नहीं आती; इसे कैसे interpret करना चाहिए पता नहीं, लेकिन phenomenon दिलचस्प है
यह असल में काफी साफ़ तौर पर open source नहीं है: https://github.com/meta-llama/llama-recipes/blob/d83d0ae7f5c...
LICENSE file भी नहीं है, इसलिए अभी लगता है कि इस code को ज्यादा से ज्यादा reference के तौर पर ही इस्तेमाल किया जा सकता है
- ज्यों का त्यों इस्तेमाल करने के लिए यह खास उपयोगी नहीं लगता, लेकिन explore किया गया approach plain text में साफ़ और अच्छी तरह documented है
  सीधे इस्तेमाल न कर सकें, तब भी public knowledge में योगदान के तौर पर इसके लिए आभारी होना चाहिए
- README में लिखी बात से अलग है, इसलिए यह गलती भी हो सकती है: https://github.com/meta-llama/llama-models/blob/main/models/...
  यहां Meta Llama 3.2 की license की ओर इशारा किया गया है
- धन्यवाद, लेकिन फिर भी मैं बस इसे इस्तेमाल करने वाला हूं
यह देखकर अच्छा लगा। tech पसंद करने वाले लोगों के लिए NotebookLM को ignore करना risky है
मेरे जानने वाले smart लेकिन खास techie नहीं लोग, ज्यादातर NotebookLM को जबरदस्त AI killer app की तरह देखते हैं
मेरे 70s में चल रहे माता-पिता और 8 साल का बच्चा, दोनों इसे देखकर हैरान हैं और लगातार इससे खेल रहे हैं
नीचे किसी ने जैसा बताया, यहां बात ठीक-ठीक “podcast” feature की है
- मैं podcasts नहीं सुनता, तो समझ नहीं आता कि NotebookLM से podcast न बनाने पर किस तरह का risk होगा
- समझता हूं कि बहुत लोगों को यह cool क्यों लगता है, लेकिन मेरे लिए यह time-saving का उल्टा है
  कहें तो यह समय खा जाने वाले tool जैसा है
  यह उन videos जैसा लगता है जिनकी जरूरत इसलिए बनती है क्योंकि कुछ लोग, यहां तक कि developers भी, पढ़ नहीं पाते या लंबे text से घबरा जाते हैं
  बहुत छोटे text page पर भी video लगाना पड़ता है, तभी कुछ हद तक कम होने वाला competitive disadvantage रहता है
- पक्का नहीं। क्या मतलब है कि “smart लेकिन technical नहीं” लोग पढ़ नहीं पाते?
  जैसे दूसरे podcasts को ignore करता हूं, वैसे इसे ignore करने पर क्या छूट जाएगा, समझ नहीं आता
  मैंने बहुत कम लोगों को देखा है जिन्होंने podcast से कुछ सीखा हो; आमतौर पर वह दूसरे fields का बिखरा हुआ ज्ञान होता है जिसका कोई इस्तेमाल नहीं होता
- क्या बात पूरे NotebookLM की हो रही है, या खास तौर पर podcast trick की, यह जानना चाहूंगा
- जब भी किसी article या blog post पर NotebookLM podcast सुनता हूं, मुझे लगता है कि उसी article को बस AI text-to-speech से पढ़वा देना कहीं बेहतर होता
पिछले कुछ महीनों से NotebookLM जैसा कुछ, personalized news podcast बनाने की कोशिश कर रहा था (https://www.tailoredpod.ai)
सबसे बड़ी समस्या यह है कि मौजूदा अच्छे TTS API बहुत महंगे हैं, इसलिए जिन सामान्य कंपनियों के पास Google model का internal access नहीं है उनके लिए NotebookLM जैसा product बनाना मुश्किल है
OpenAI price-to-quality के हिसाब से कुछ बेहतर TTS API देता है, लेकिन फिर भी कई घंटों का audio मुफ्त में generate करने के लिए बहुत महंगा है
open source TTS models भी धीरे-धीरे catch up कर रहे हैं, लेकिन अभी strong hardware चाहिए। जैसे: https://github.com/SWivid/F5-TTS
- क्या users हैं? अगर TTS bottleneck है तो शायद मदद कर सकूं। email profile में है
- “strong hardware” से आपका मतलब कितना powerful है, यह जानना चाहूंगा
TTS engine selection काफी अजीब है
open TTS systems के लिहाज से इनमें से कोई भी state-of-the-art के करीब नहीं है
XTTSv2 या नया F5-TTS कहीं बेहतर choice होती
- ऐसे engines इस्तेमाल करने के लिए code को कभी भी update किया जा सकता है
  Meta का GitHub पर कुछ release करना “best” देने के लिए नहीं, बल्कि proof of concept देने जैसा ज्यादा है
  उन TTS systems की licenses भी important हैं, इसलिए सिर्फ open होना काफी नहीं है
  अगर यह user-facing product होता तो पक्का बेहतर TTS इस्तेमाल किया गया होता
- page के सुधार योग्य items में यह लिखा है:
  “voice model experiments: यह TTS model के natural sounding होने की सीमा है। बेहतर pipeline और इस क्षेत्र को बेहतर जानने वाले लोगों की मदद से इसमें सुधार हो सकता है। PR welcome! :)”
सैंपल आउटपुट बहुत अच्छा नहीं है
डेमो शानदार है, लेकिन यह और भी ज़्यादा दिखाता है कि NotebookLM टीम ने लगभग उन्हीं foundation models के साथ कितना बड़ा हिट product बना दिया, जो पहले से उपलब्ध थे
यह open source NotebookLM कम और iPython notebook के अंदर कुछ experiments ज़्यादा लगता है
NotebookLM LLM स्तर पर जो करता है, वह कोई खास नया नहीं है; दिलचस्प बात यह है कि दूसरे products से अलग उसे product के रूप में package करने का तरीका है
“podcast” वाला हिस्सा भी असल में एक बड़े corpus का introduction या overview जैसा है, और कहीं ज़्यादा उपयोगी feature यह है कि आप उस corpus के बारे में bot से बात कर सकते हैं और citations पा सकते हैं
हालांकि यह उदाहरण दिखाता है कि LLM के साथ prototyping बहुत तेज़ होती है
अगर आपने अभी तक API आज़माई नहीं है, तो एक बार try करने की सलाह दूँगा
- सहमत नहीं हूँ
  NotebookLM की नई बात इस बात में है कि दो hosts एक-दूसरे को बीच में रोकते हैं और उनकी बातें overlap होती हैं
  दूसरे open source solutions ऐसा नहीं कर पाते और बस बारी-बारी से बोलते हैं
LLaMA models को support करने वाला एक और Jupyter-based notebook solution भी है: https://raku.land/zef:antononcube/Jupyter::Chatbook
demo video यहाँ है: https://youtu.be/zVX-SqRfFPA
क्या यह सिर्फ podcasts ही बनाता है?
मुझे NotebookLM के दूसरे features में ज़्यादा दिलचस्पी है
podcasts मज़ेदार हैं, लेकिन लगभग एक gimmick जैसे हैं
- इसके उलट, मैंने podcast feature कई बार इस्तेमाल किया है और कई लोगों के साथ share किया है
  यह जटिल जानकारी को समझने के लिए एक अच्छा system और medium था, जिसे मैं सामान्य तौर पर digest नहीं कर पाता
अगर इसे phone पर locally चला सकें, तो काफ़ी बढ़िया होगा
कल्पना कर रहा हूँ कि काम के documents, जैसे product requirements document, मिलें तो उन्हें podcast में बदल दे ताकि drive करते समय सुना जा सके
productivity काफी बढ़ेगी और compliance issues की चिंता भी नहीं करनी पड़ेगी
- अच्छा होगा अगर ChatGPT या Claude drive करते समय इस्तेमाल करने के लिए Android Auto app बना दें

NotebookLlama - Google NotebookLM का open source संस्करण

NotebookLlama recipe की नई जगह

पुराने path का इस्तेमाल करने की स्थिति में

इस मौजूदा page में जो content नहीं है

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय