2 पॉइंट द्वारा GN⁺ 2023-08-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Yann LeCun आदि द्वारा 1989 में प्रकाशित "Backpropagation Applied to Handwritten Zip Code Recognition" पेपर के ऐतिहासिक महत्व पर एक लेख। इस पेपर को backpropagation का उपयोग करके न्यूरल नेटवर्क को end-to-end train करने वाले सबसे शुरुआती व्यावहारिक अनुप्रयोगों में से एक माना जाता है.
  • लेखक ने PyTorch जैसे आधुनिक tools का उपयोग करके पेपर के काम को reproduce करने की कोशिश की, और उल्लेख किया कि मूल नेटवर्क को Bottou और LeCun 1988 के backpropagation simulator SN (जिसका बाद में नाम Lush रखा गया) का उपयोग करते हुए Lisp में implement किया गया था.
  • मूल नेटवर्क को SUN-4/260 workstation पर 3 दिनों तक train किया गया था, लेकिन लेखक द्वारा MacBook Air (M1) CPU का उपयोग करके किया गया reproduction लगभग 90 सेकंड में पूरा हो गया.
  • लेखक ने Adam optimizer का उपयोग करने, data augmentation और dropout जोड़ने, तथा tanh activation function को ReLU से बदलने जैसी आधुनिक deep learning techniques के साथ भी प्रयोग किया, जिससे error rate लगभग 60% कम हो गई.
  • लेखक का सुझाव है कि network या dataset का आकार बढ़ाकर अतिरिक्त सुधार हासिल किए जा सकते हैं, लेकिन इससे compute cost बढ़ सकती है और inference latency पैदा हो सकती है.
  • पिछले 33 वर्षों में deep learning की प्रगति को देखते हुए, लेखक बताते हैं कि मूल सिद्धांत वही रहे हैं, लेकिन datasets और models का scale बहुत बढ़ गया है, और models को train करने में लगने वाला समय काफी कम हो गया है.
  • लेखक का अनुमान है कि 2055 तक neural networks और भी बड़े हो जाएंगे, और अधिकांश applications नेटवर्क के किसी हिस्से को हल्के रूप से fine-tune करने, prompt engineering करने, या data अथवा model को छोटे और विशेष-उद्देश्य वाले inference networks में distill करने से हासिल की जाएंगी.

1 टिप्पणियां

 
GN⁺ 2023-08-27
Hacker News की राय
  • यह लेख पिछले 33 वर्षों में deep neural network के विकास पर चर्चा करता है और अगले 33 वर्षों के लिए अनुमान प्रस्तुत करता है.
  • इस नेटवर्क की मूल training Sun 4/260 workstation पर 3 दिनों तक की गई थी और इसमें लगभग 14400 watt-hour ऊर्जा खर्च हुई थी. आज, वही training MacBook पर सिर्फ 90 सेकंड में की जा सकती है, और इसमें केवल 0.5 watt-hour लगते हैं, जिससे ऊर्जा दक्षता लगभग 30000 गुना बेहतर हो गई है.
  • कुछ पाठक 2055 के लिए लेख के अनुमान को "meta-linear" कहकर आलोचना करते हैं और दावा करते हैं कि यह अब भी वर्तमान तारीख को origin मानने वाली "worldline symmetry" को दर्शाता है. उनका कहना है कि यह इतना बड़ा समय-फलक है कि इसमें कई अप्रत्याशित breakthrough और बाधाएँ आ सकती हैं.
  • इस बात पर बहस है कि अगले 33 वर्षों तक अधिक data और अधिक computing power के साथ वही काम करते रहना बेहतर होगा, या फिर नए approaches तलाशने चाहिए.
  • कुछ पाठक अगले 33 वर्षों में computing की scalability पर सवाल उठाते हैं, जबकि अन्य का तर्क है कि इसे अतीत की तरह scale करने की आवश्यकता नहीं है.
  • यह लेख machine learning की बुनियादों को सीधे और सरल तरीके से समझने के लिए सराहा गया है, खासकर उस तुलना में जहाँ कई papers नई जटिल architectures में दोहराना कठिन उपलब्धियों से पन्ने भर देते हैं.
  • पाठक बताते हैं कि सबसे बुनियादी बदलाव इस बात में है कि किस तरह के models को train किया जा रहा है—छोटी images से मानव प्रजाति के भाषाई और दृश्य संचार तक.
  • यह लेख कुछ पाठकों में nostalgia जगाता है, जिन्होंने neural network में रुचि के बढ़ने, गिरने और फिर पुनर्जीवित होने को देखा है.
  • कुछ पाठक तकनीक के भविष्य को लेकर उत्साह व्यक्त करते हैं, जबकि अन्य AI-प्रधान दुनिया में मनुष्यों के निरर्थक हो जाने की संभावना पर चिंता जताते हैं.
  • यह लेख दिखाता है कि hardware में प्रगति ने AI के विकास में महत्वपूर्ण भूमिका निभाई है, हालांकि कुछ पाठकों का कहना है कि भविष्य की प्रगति शायद इतनी नाटकीय न हो.