1 टिप्पणियां

 
GN⁺ 2024-12-15
Hacker News प्रतिक्रियाएँ
  • एक उपयोगकर्ता को लगा कि प्रस्तुति में कुछ भी नया या उपयोगी नहीं था। उसे प्रस्तुति का स्वर धार्मिक और खोखला लगा

  • Ilya ने प्रस्तुति की शुरुआत Quoc Le की फोटो से की, इसे सकारात्मक रूप से देखा गया। Quoc Le 2012 के neural network scaling पेपर के प्रमुख लेखक थे, और इसी वजह से इस उपयोगकर्ता की deep learning में रुचि जगी थी

  • Ilya की बातों को विनम्र और सार्वजनिक रूप से उपलब्ध पूर्व शोध पर आधारित माना गया, लेकिन साथ ही यह भी कि वह अभी बड़े प्रोजेक्ट्स पर काम कर रहे हैं और उनकी कल्पनाशक्ति समृद्ध है

  • Ilya के इस कथन, "reasoning अधिक अप्रत्याशित है," को महत्वपूर्ण माना गया। तर्क दिया गया कि उपयोगी reasoning स्वभावतः अप्रत्याशित होती है

  • यह सवाल उठाया गया कि pipeline parallelism आखिर खराब विचार क्यों था

  • एक उपयोगकर्ता को लगा कि प्रस्तुति का बड़ा हिस्सा अनावश्यक बातों से भरा था। इसमें पिछले 10 वर्षों का सार, scaling laws की सीमाएँ, agents, synthetic data, और computing improvements जैसी बातें शामिल थीं

  • Sutskever के इस कथन पर ज़ोर दिया गया कि "pre-training समाप्त हो जाएगा।" अनुमान लगाया गया कि data की सीमाओं के कारण models को train करने का तरीका बदलेगा

  • इंटरनेट data के बजाय training में उपयोग के लिए curated synthetic datasets को एक विकल्प के रूप में सुझाया गया। यह समझाया गया कि copyright समस्याओं के कारण बड़े proprietary datasets का उपयोग सीमित है, लेकिन यदि मालिक स्वयं उनका उपयोग करें तो कानूनी समस्या सुलझ सकती है

  • DeepMind के podcast को इस प्रस्तुति जैसे विषयों को कवर करने वाला, लेकिन अधिक दिलचस्प बताया गया

  • इंटरनेट data को सीमित संसाधन के रूप में प्रस्तुत करने की बात को सकारात्मक माना गया। तर्क दिया गया कि संसाधनों की सीमा को पहचानना और उसके अनुसार प्रतिक्रिया देना ज़रूरी है

  • यह बात आश्चर्यजनक बताई गई कि transformer के 'neurons' की तुलना वास्तविक जैविक neurons से की गई। वास्तविक neurons में जटिल biochemical processes शामिल होती हैं, जबकि transformer केवल साधारण linear layers और nonlinearity का उपयोग करते हैं

  • यह उल्लेख किया गया कि YouTube के मूल transcript को ठीक करने के लिए LLM ने Gemini Flash 8B का उपयोग किया