1 पॉइंट द्वारा GN⁺ 2024-04-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Effort क्या है?

  • Effort से मतलब है किसी काम को पूरा करने या लक्ष्य हासिल करने के लिए लगाई जाने वाली ऊर्जा, समय और संसाधन
  • यह बाधाओं को पार करने या इच्छित परिणाम पाने के लिए ज़रूरी मेहनत और परिश्रम को दर्शाता है
  • Effort physical भी हो सकता है और mental भी
    • जैसे भारी सामान उठाने या marathon दौड़ने में लगने वाला physical effort
    • या जटिल समस्याएँ हल करने या नई skills सीखने के लिए ज़रूरी एकाग्रता और मानसिक शक्ति जैसा mental effort
  • यह व्यक्तिगत विकास, कार्यस्थल, शिक्षा और जीवन के कई क्षेत्रों में सफलता के लिए एक मुख्य तत्व है

GN⁺ की राय

  • Effort सिर्फ लगाए गए समय या ऊर्जा की मात्रा भर नहीं है, बल्कि इसमें निरंतरता, एकाग्रता और motivation जैसे कई तत्व मिलकर काम करते हैं। इसलिए सिर्फ कड़ी मेहनत करने से सफलता की गारंटी नहीं होती
  • खासकर mental effort वाले कामों में burnout से बचने का ध्यान रखना चाहिए। उचित आराम और rewards के ज़रिए effort को बनाए रखने के तरीके ढूँढना महत्वपूर्ण है
  • हर व्यक्ति का effort लगाने का तरीका अलग हो सकता है। कोई कम समय में बहुत focused effort लगा सकता है, तो कोई लंबे समय तक लगातार effort करता है। अपने लिए सही तरीका ढूँढना सबसे प्रभावी है

1 टिप्पणियां

 
GN⁺ 2024-04-19
Hacker News की राय
  • यह एल्गोरिद्म real time में parameters को prune करता है और group के भीतर absolute value ranking में नीचे आने वाले weights को 0 पर सेट करके weight matrix को sparse बनाता है
  • model pruning पर खोज परिणामों में baseline के रूप में "magnitude-based pruning" पर चर्चा करने वाले कई paper मिलते हैं
    • लेकिन ये paper अपनी विधि को बढ़ा-चढ़ाकर दिखाने के लिए baseline को बहुत खराब तरीके से implement करते हैं, और अपनी विधि समझाने के लिए बहुत सारे mathematical terms का उपयोग करते हैं
    • इसके विपरीत, मूल blog post इस विधि को ऐसे समझाती है कि बहुत कम background knowledge वाले लोग भी इसे आसानी से समझ सकें
  • GPU implementation section की एक पंक्ति प्रभावशाली लगी
    • "GPU programming का नया व्यक्ति पूछेगा, 'यह कैसे काम करता है?' और अनुभवी व्यक्ति पूछेगा, 'आखिर यह कैसे काम करता है?'"
  • matrix को उलटना, row unit के हिसाब से elements को sort करना, और फिर उस दिशा से multiplication को दोबारा देखना, इसे "compressed sparse row (CSR)" format कहा जाता है
    • multiplication करने के लिए vector से 1 लिया जाता है, उसे 256 से multiply किया जाता है, फिर output vector की तीसरी row में जोड़ा जाता है
    • सुझाव है कि सबसे छोटे values वाले आखिरी column को काटकर देखें कि क्या होता है
  • आइडिया के नाम का सुझाव: "lobotomize"
  • यह semi-structured (2:4) sparsity जैसा दिखता है, इसलिए इसकी स्पष्ट तुलना करना उपयोगी होगा
    • यह तकनीक Apple Silicon के लिए optimized है, 75% sparsity पर ~2x तेज है, dynamic है और input के अनुसार बदलती है, runtime पर apply होती है, और sparsity की degree चुनी जा सकती है
    • इसके विपरीत 2:4 semi-structured sparsity sparse tensor core वाले GPU के लिए optimized है, 50% sparsity पर ~2x तेज है, static है, model idle होने पर apply होती है, और 50% sparsity पर इस तकनीक से खराब result देने की संभावना दिखती है
    • 50% sparsity पर semi-structured sparsity के result (2x speedup) और 75% sparsity पर इस तकनीक के result (2x speedup) की तुलना करना दिलचस्प होगा
  • CSR का उपयोग करने के अनुभव से यह चौंकाने वाला नहीं है, और block ELL जैसे कुछ नए format code को अधिक कठिन बनाते हैं, लेकिन वे uncoalesced read/gather से बचते हैं, इसलिए hardware के साथ उनका तालमेल बेहतर हो सकता है
  • 15ms latency, 60Hz vsync (16.7ms) के समान लगती है; अगर हर token पर एक बार screen update किया जाए, तो किसी न किसी रूप में synchronization हो सकता है
  • इस तरह के शानदार और खुले योगदान के लिए धन्यवाद। मैं llama.cpp में इसके implementation को ध्यान से देखूंगा। मैं CPU inference को तेज करने के तरीकों की तलाश में था, और यह "effort" आइडिया मुझे पसंद आया
  • शानदार लेख! quantization की तुलना में VRAM per performance को लेकर बहुत जिज्ञासा है। क्या cross-platform version implement करने की कोई योजना है?
  • यह https://arxiv.org/abs/2312.12456 और https://github.com/SJTU-IPADS/PowerInfer से संबंधित लगता है