11 पॉइंट द्वारा GN⁺ 2025-08-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • LL3M कई बड़े भाषा मॉडलों का उपयोग करके Python code अपने-आप लिखता है और Blender में 3D assets बनाता और संपादित करता है
  • यह उपयोगकर्ता के text निर्देशों के अनुसार रचनात्मक और सटीक आकार सीधे बनाता है, और जटिल geometric manipulation को code के रूप में लागू करता है
  • मौजूदा 3D model generation tools से अलग, यह बिना बंधन asset generation और सूक्ष्म interaction प्रदान करता है
  • जनरेट किया गया Blender code स्पष्ट है और इसमें parameter transparency अधिक है, इसलिए उपयोगकर्ता या agent इसे आसानी से संशोधित या बार-बार बेहतर कर सकते हैं
  • यह consistent stylization, material editing, और hierarchy implementation सहित 3D assets की प्रोसेसिंग की व्यापक संभावनाएँ दिखाता है

LL3M अवलोकन

  • LL3M एक अभिनव framework है जिसमें कई बड़े भाषा मॉडल (LLM) agents Python code लिखकर Blender में 3D assets बनाते और संपादित करते हैं
  • जब उपयोगकर्ता text में निर्देश देता है, तो LL3M रचनात्मक आकार निर्माण और सटीक geometry manipulation को automate करता है, और high-level code को 3D representation के रूप में इस्तेमाल करके iterative improvement और collaboration को संभव बनाता है
  • code को स्पष्ट रूप से समझाया गया है, जिससे कई parameters और structures पारदर्शी रूप में सामने आते हैं, और आगे का editing तथा उपयोगकर्ता का लगातार feedback देना भी आसान हो जाता है

Pipeline अवलोकन

  • pipeline तीन मुख्य चरणों (initial generation, automatic refinement, user feedback आधारित refinement) से बनी है
    • initial generation चरण में बुनियादी आकार बनाए जाते हैं, और साथ ही LL3M तार्किक रूप से अनुपयुक्त संरचनाओं या सरल geometric elements को अपने-आप पहचानकर सुधारता है
    • दूसरा चरण अधिक परिष्कृत automatic संशोधन करता है और जटिल आकारों या संबंधों को भी दर्शाता है
    • अंतिम चरण उपयोगकर्ता के अतिरिक्त editing अनुरोधों को स्वीकार कर interactive और iterative 3D asset generation को साकार करता है
  • हर चरण agents के role division के आधार पर iterative और gradual improvement का तरीका लागू करता है

Gallery और प्रदर्शन

  • विविध आकार निर्माण: windmill, piano, drum set जैसी जटिल arrangements और सूक्ष्म details को code से लागू किया गया
  • consistent style application: एक ही "steampunk" निर्देश को कई meshes (टोपी) पर लागू कर, समान style बनाए रखते हुए विविध परिणाम उत्पन्न किए गए
  • material editing support: उदाहरण के लिए, blade वाले हिस्से को अलग shader node के रूप में परिभाषित कर material बदला जा सकता है

Code की interpretability

  • जनरेट किए गए code में structural logic, स्पष्ट variable names, और comments शामिल हैं, इसलिए इसे समझना और संशोधित करना आसान है
  • उदाहरण: keyboard pattern logic या key width variables को सीधे बदला जा सकता है
  • Blender nodes और parameters सीधे दिखाई देते हैं, इसलिए color और pattern जैसे visual attributes को सहज रूप से समायोजित किया जा सकता है

Code reusability और versatility

  • अलग-अलग आकार होने पर भी loops, modifiers, और node settings जैसे high-level code patterns दोबारा उपयोग किए जाते हैं
  • इससे विभिन्न prompts में modular और editable code generation संभव होती है

Scene और hierarchy

  • कई objects बनाए जाते हैं और instancing और parenting के जरिए spatial relationships को अपने-आप व्यवस्थित किया जाता है
  • उदाहरण: lamp जैसे complex object बनाते समय parent-child relationship structure को दर्शाया जाता है, ताकि transformations hierarchy के अनुसार propagate हों
  • हर part को अर्थपूर्ण semantic names दिए जाते हैं, जिससे Blender के scene graph में उनका कुशलतापूर्वक प्रबंधन किया जा सके

1 टिप्पणियां

 
GN⁺ 2025-08-18
Hacker News की राय
  • मुझे दोस्तों की मनचाही इमेज को अच्छे 3D मॉडल में बदलने के काम में meshy.ai के साथ उम्मीद से ज़्यादा सफलता मिली। मेरा workflow यह है: 1) GPT-5 या Midjourney जैसे image model से मूल इमेज को smooth rendered mesh जैसी look में बदलता हूँ, यानी अनावश्यक detail, transparency और volumetric effects हटा देता हूँ। 2) इस साफ़ की गई इमेज को meshy.ai के image to 3D mode में डालता हूँ, और अगर पसंद न आए तो फिर से step 1 पर जाकर इमेज style बदलकर चुनता हूँ। 3) आखिर में उसे Blender में ले जाकर mesh edit करता हूँ (जैसे किसी खास हिस्से को adjust करना, asymmetry जोड़ना आदि) और फिर आगे modeling करता हूँ। Mesh structure काफ़ी stable लगती है, और ऐसा महसूस होता है कि शायद NeRF-आधारित generator के ऊपर marching cubes या dual contouring जैसा कुछ इस्तेमाल हो रहा है। मैं mechanical CAD में बहुत तेज़ हूँ, लेकिन Blender में बस औसत स्तर का हूँ, इसलिए अगर AI मॉडल का बड़ा ढाँचा बना दे और मुझे सिर्फ़ हाथ से उसे ठीक व बेहतर करना हो, तो यह बहुत efficient है। उदाहरण के लिए, अगर कोई दोस्त किसी असली इंसान की मूर्ति को modify करने को कहे, तो पहले उसमें मेरा बहुत समय लगता था, लेकिन AI+Blender के साथ 5 मिनट में मॉडल बना लेता हूँ और Blender में करीब 1 घंटे की polishing से काम हो जाता है — productivity में साफ़ बढ़त महसूस होती है
    • आपने step 1 में इमेज को matte-rendered mesh जैसी look में बदलने की बात की — मैं जानना चाहता हूँ कि उससे आपका मतलब किस तरह की इमेज से है। Transparent surface को opaque बनाना तो समझ आता है, लेकिन क्या आप पूरी इमेज का कोई example या उस process में इस्तेमाल किए गए prompts साझा कर सकते हैं?
    • GPT-5 एक text-only model है। ChatGPT अभी भी image processing के लिए 4o का इस्तेमाल करता है
  • मैं Blender को 7 साल से ज़्यादा समय से इस्तेमाल कर रहा हूँ, Blender Stack Exchange पर 1000 से अधिक जवाब दे चुका हूँ और लगभग 48,000 reputation है। यह AI-आधारित Blender tool शायद Python, खासकर Blender Python API की बुनियाद सीखने के लिए ठीक हो, लेकिन असल में इसकी ज़्यादा ज़रूरत महसूस नहीं होती। उदाहरण में दिखाए गए काम Blender में सचमुच बहुत आसान हैं, और ऐसे tool का इस्तेमाल करने पर बस prompt के हिसाब से फीका-सा output मिलता है। Basic modeling ऐसी चीज़ है जिसे tutorial के एक दिन में सीखकर खुद बनाया जा सकता है, और ऐसे मॉडल में अपनी creativity झलकती है। एक हफ़्ते बाद आप AI prompt से भी तेज़ी से खुद बना सकते हैं और skill भी लगातार बढ़ती है। AI से सीखने को बहुत कुछ नहीं मिलता। meshy.ai फोटो या render को mesh में बदलने और ठीक-ठाक texture चढ़ाने में ठीक है, लेकिन उसके बाद शायद यह उन लोगों के लिए ज़्यादा उपयुक्त है जो sculpting में कमज़ोर हैं। वैसे, meshy.ai के test results मैंने यहाँ संकलित किए हैं
    • मैं Blender tutorials कुछ दिनों तक follow करने के बाद भी example वाले स्तर तक नहीं पहुँच पाता। लगता है आप अपनी क्षमता को बहुत project कर रहे हैं। 3D model artist नहीं, बल्कि सिर्फ़ 3D model की ज़रूरत वाले user के नज़रिए से देखें तो यह तकनीक सच में बहुत उपयोगी है
    • मैं भी Houdini को शौक़ से इस्तेमाल करता हूँ। एक parameterized single model कुछ दिनों में बन सकता है, लेकिन एक छोटा video या पूरा scene बनाने के लिए सैकड़ों-हज़ारों मॉडल, texture, rigging, animation, यहाँ तक कि simulation तक की ज़रूरत होती है। 2 मिनट की animation भी एक solo artist के लिए लगभग असंभव है। ज़्यादातर लोग asset packs खरीदकर जोड़ते हैं, लेकिन तब मेरी art उस style पर निर्भर हो जाती है। ऐसे AI tools इन चरणों में से एक-दो को भी काफी हल्का कर दें तो अकेले काम करने की सीमा बहुत बढ़ जाती है
    • मैं AI customer support tools का developer और designer हूँ, और मुझे कंपनी में बार-बार समझाना पड़ता है कि LLM में conversation-leading और creativity की कमी होती है। मेरा मानना है कि single feature से ज़्यादा focus इस पर होना चाहिए कि tools में AI को integrate करके repetitive work तेज़ किया जाए। उदाहरण के लिए, Fusion360 में AI constraints automation जैसी features सचमुच productivity बढ़ाती हैं। Blender के लिए भी इस दिशा के tools (जैसे material auto-wiring) कहीं ज़्यादा दिलचस्प लगते हैं
    • जो user Blender को कई हफ़्तों तक सीखना नहीं चाहते, उनके लिए अगर कुछ घंटों के निवेश में काम लायक परिणाम मिल जाएँ, तो वही सबसे efficient है
    • यह याद रखना चाहिए कि यह tool आज जितना ख़राब है, उससे बुरा यह आगे कभी नहीं होगा। यह लगातार बेहतर होगा, इसलिए LLM के application areas अभी बस शुरू ही हुए हैं
  • मैं अपने दोस्तों से काफ़ी समय से यही बात कहता आया हूँ। आगे चलकर API-केंद्रित creative software जीतेगा। After Effects ठीक-ठाक JS API देता है, और Da Vinci Resolve में Python, Lua जैसी कई scripting options से automation संभव है। Scripting process में transaction rollback का support भी अच्छा है। ज़्यादातर desktop apps के scripting environments के लिए generalized MCP की ज़रूरत बढ़ रही है। Multimodal input से जुड़े screen capture की भी ज़रूरत है
  • हाल ही में मैंने Aseprite (pixel editor) में procedural character generation के लिए Claude की मदद से एक automated Lua script लिखी। Seed value से result दोबारा reproduce किया जा सकता था, और मोटे तौर पर मानव आकृति जैसी चीज़ बनी, लेकिन quality के हिसाब से अभी बहुत दूर है। फिर भी यह बेहद accessible और मज़ेदार लगा।
    • अगर यह विषय दिलचस्प लगे, तो pixellab.ai पर भी नज़र डाल सकते हैं। वे एक Aseprite plugin बना रहे हैं जो सिर्फ़ prompt से काफ़ी अच्छे sprite images generate करता है
    • मैं भी अच्छे pixel art AI की तलाश में हूँ। मैंने जो ज़्यादातर tools इस्तेमाल किए, वे बस ठीक-ठाक थे, प्रभावशाली नहीं। अगर किसी के पास अच्छा अनुभव हो, तो recommendation link साझा करें
  • 3D models की quality का मज़ाक उड़ाने से पहले पुराने Dancing Baby और शुरुआती Pixar animations को याद करिए — प्रगति वाकई चौंकाने वाली है। मैं उस समय का इंतज़ार कर रहा हूँ जब LLM को सिर्फ़ prompt दूँ और लगभग तैयार 3D model मिल जाए, और मुझे बस texture, baking और export करना पड़े
    • मैं भी उस दौर का इंतज़ार कर रहा हूँ जब मानवता द्वारा खरबों घंटों में इकट्ठा किया गया experimental data statistical models में समेट दिया जाएगा, और जिन्हें असल में यह संभव बनाया, उन्हें 1 रुपया भी दिए बिना कंपनियाँ उससे कमाई करेंगी
    • LLM एक language model है, और mesh data भाषा नहीं है। सैद्धांतिक रूप से Python से simple mesh बनाई जा सकती है, लेकिन सचमुच सुंदर 3D art इस तरह कोई नहीं बनाता। जैसे vector art के लिए लोग सीधे SVG code नहीं लिखते, वैसे ही केवल LLM से visual art बनाना मुश्किल है। LLM दूसरे models के interface की तरह काम कर सकता है, लेकिन वह अपने-आप सब कुछ नहीं बना सकता
  • हाल के समय में LLM की spatial intelligence में काफ़ी सुधार देखना उत्साहजनक है। सिर्फ़ एक साल पहले तक ऊपर-नीचे, दाएँ-बाएँ, आगे-पीछे जैसी positional concepts के साथ कहानी लिखवाने पर भी यह पूरी तरह उलझ जाता था और ठीक से फर्क नहीं कर पाता था। मैंने GPT से पूछा कि scripting के लिए सबसे अच्छा CAD software कौन-सा है, तो उसने Freecad बताया। Blender को CAD की बजाय modeler कहना ज़्यादा सही है, क्योंकि उसमें precision measurement जैसी चीज़ें सीमित हैं। Freecad API की structure कम व्यवस्थित है, इसलिए GPT उससे जुड़े functions को याद रखने या सही ढूँढने में कमज़ोर है। Blender में users ज़्यादा हैं और shared code भी बहुत है, इसलिए वह कहीं बेहतर काम करता है
    • OpenSCAD कैसा है, यह जानने की जिज्ञासा है
    • क्या CAD में measurement tasks automate करने वाली scripts भी लिखी जा सकती हैं?
  • मैंने Blender कई बार शुरू किया और हर बार छोड़ दिया। अब मैं Blender का इस्तेमाल सिर्फ़ Openshot में animated titles बनाने के लिए करता हूँ। Advanced tools का इस्तेमाल आसान बनाने वाले तरीके हमेशा स्वागतयोग्य हैं
  • मुझे लगता है कि हर चीज़ के लिए token-based large models आएँगे, क्योंकि दुनिया के हर डेटा को token में बदला जा सकता है। भाषा के रास्ते से जाना अनिवार्य नहीं है, और AI धीरे-धीरे geometric data को भी धाराप्रवाह ढंग से संभालने लगेगा
    • AI-generated data के प्रति जो झिझक है, वह ज़्यादातर language-specificity से आती है। इसी वजह से सचमुच creative input ठीक से परिलक्षित नहीं हो पाता
    • जैसे word2vec ने कभी बड़ा innovation लाया था, वैसे ही 3D models को भी मूलतः vector space में represent किया जा सकता था
  • यहाँ असली बात agent workflow की है। LLM की 3D दुनिया की समझ लगातार बेहतर हो रही है, इसलिए यह कई तरह की स्थितियों में मददगार होगा। Expert-level bug checking, recommendations, popup help जैसी चीज़ों के लिए भी यह उपयोगी हो सकता है, और इंसानी दख़ल के बिना background में चलते हुए समस्याएँ ढूँढ सकता है। इसे programmatically control करने की क्षमता भी लगातार अधिक मूल्यवान होती जाएगी
  • मैं modeler नहीं हूँ, लेकिन solo 3D game development के दौरान इसे कुछ बार आज़मा चुका हूँ। मेरे लिए modeling हमेशा एक ज़रूरी पीड़ा रही है। अगर ऐसे tools मिलें, तो मैं indie project में ultra-low-poly base models जल्दी बनाने, और फिर उन्हें आधार बनाकर हाथ से बारीक polish करने के लिए इस्तेमाल करूँगा। मेरे लिए high quality से ज़्यादा time saving की अहमियत है