• बड़े language models (LLMs) के शोर में दब जाने वाले machine learning (ML) और data science क्षेत्रों में कई दिलचस्प चीज़ें हो रही हैं
  • Cynthia Rudin लगातार explainable artificial intelligence (AI) पर उत्कृष्ट शोध प्रकाशित कर रही हैं
  • पिछले कुछ महीनों की कुछ दिलचस्प परियोजनाएँ:
    • कुछ images से 3D scene reconstruction: NAVER LABS Europe
    • Gaussian avatars: Gaussian Avatars
    • relightable Gaussian codec: Relightable Gaussian Codec
    • हर चीज़ को track करना: Co-Tracker, Omnimotion
    • हर चीज़ को segment करना: Segment Anything by Facebook Research
    • उत्कृष्ट human pose estimation models: Yolov8, Google के MediaPipe models
    • यथार्थवादी TTS: XTTS-v2 by Coqui on Hugging Face, Bark TTS
    • उत्कृष्ट STT: ज़्यादातर Whisper-आधारित
    • machine translation: उदाहरण के लिए Meta का SeamlessM4T
    • Meta के R&D से निकलने वाले कई परिणामों पर प्रशंसा
  • NeRFS के बारे में व्याख्या:
    • यह 3D graphics पर मूलभूत पुनर्विचार जैसा है, जहाँ textured polygons की जगह चमकते हुए अर्ध-पारदर्शी spheres रखे जाते हैं
    • इन spheres की position और color को सटीक multi-angle camera shots और poses के माध्यम से neural network द्वारा सीखा जाता है, और GPU पर ray tracing से render किया जा सकता है
    • चूँकि scenes photos से बनाए जाते हैं, वे पूरी तरह यथार्थवादी होते हैं, लेकिन उन्हें explore भी किया जा सकता है
    • सिद्धांततः ऐसे scenes को animate किया जा सकता है, लेकिन व्यवहार में यह अभी भी एक research problem है
    • क्या यह Nanite+photogrammetry जैसे optimized polygon-based systems से बेहतर होगा, यह अभी अज्ञात है
  • वाहन से सड़क के videos शूट करके 3D scene बनाने वाले tools के बारे में प्रश्न:
    • फोकस सड़क के आसपास के परिदृश्य पर है, कई angles से कई बार drive किया जा सकता है, और processing time अधिक लगे तो भी ठीक है
    • racing simulator में उपयोग के लिए स्थानीय सड़कें बनाना चाहते हैं
  • geometric deep learning में रुचि:
    • models को सिद्धांतपरक ढंग से इस तरह डिज़ाइन करना कि वे data की ज्ञात symmetries का सम्मान करें
    • ConvNets अपनी translation equivariance के लिए प्रसिद्ध हैं, लेकिन अन्य symmetry groups के लिए भी हाल के उदाहरण मौजूद हैं
    • यह सवाल भी है कि क्या किसी विशेष symmetry को अपने-आप खोजा या पहचाना जा सकता है
  • UW-Madison की ML+X community द्वारा आयोजित machine learning marathon का परिचय:
    • गर्मियों का लगभग 12 हफ्तों का event, जिसे Kaggle पर competition के रूप में feature किया जाएगा
    • machine learning tools को साथ में सीखने और लागू करने के ज़रिए वास्तविक datasets पर नवोन्मेषी समाधान खोजने का अवसर
    • कई तरह की चुनौतियाँ हैं, और यह शुरुआती लोगों तथा उन्नत practitioners दोनों के लिए उपयुक्त है
    • प्रतिभागी, project advisors, और event organizers साप्ताहिक या पखवाड़े में मिलकर tips साझा करते हैं और छोटे demos/चर्चाएँ करते हैं
    • skills सुधारने और community बनाने के अंतर्निहित लाभों के अलावा, विजेता टीमों को cash prizes दिए जाते हैं
  • LLMs के एक cousin Vision-Language-Action (VLA) model RT-2 का परिचय:
    • text और vision data के अलावा robot action data को भी "एक और language" के रूप में शामिल किया जाता है, और robot movement actions निकालने वाले tokens के रूप में उपयोग किया जाता है
  • यह राय कि SAM परिवार के computer vision models ने कई human annotation services और tools को कुछ हद तक अनावश्यक बना दिया है:
    • vision data की automatic labeling अपेक्षाकृत उच्च गुणवत्ता के साथ हासिल की जा सकती है
  • arXiv पर रुचिकर विशिष्ट विषयों के नवीनतम शोध पाने के लिए Scholars.io लॉन्च करने का अनुभव साझा किया गया:
    • आशा है कि इससे गैर-रुचिकर शोध को filter किया जा सकेगा और दूसरे लोगों को LLM के बाहर की research activity ढूँढने में मदद मिलेगी
  • 2024 में भी ML सीखते रहना क्या अभी भी मूल्यवान है, इस पर प्रश्न और व्यक्तिगत intuition का उल्लेख:
    • xgboost का उपयोग करने वाले एक side project पर काम करने का अनुभव साझा किया
    • लगता है कि ML अब भी मूल्यवान है, लेकिन पूरी तरह निश्चित नहीं हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.