7 पॉइंट द्वारा GN⁺ 2025-05-10 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • LegoGPT सिर्फ टेक्स्ट इनपुट के आधार पर स्थिर और वास्तव में assemble किए जा सकने वाले LEGO स्ट्रक्चर जनरेट करने वाला एक अभिनव प्रोजेक्ट है
  • StableText2Lego डेटासेट बनाकर 47,000 से अधिक भौतिक रूप से स्थिर LEGO स्ट्रक्चर और विस्तृत विवरण उपलब्ध कराए गए हैं
  • एल्गोरिद्म तेज़ validity checks और physics-based rollback लागू करके अवास्तविक स्ट्रक्चर को अपने-आप हटाता है
  • जनरेट किए गए LEGO डिज़ाइन को इंसान और रोबोट दोनों वास्तव में assemble कर सकते हैं, और यह विभिन्न रंगों व texture अभिव्यक्तियों को भी सपोर्ट करता है
  • यह सिस्टम creative design prototyping, शिक्षा, robotics applications जैसे कई क्षेत्रों में नई संभावनाएँ खोलता है

प्रोजेक्ट परिचय

  • LegoGPT उपयोगकर्ता द्वारा दिए गए टेक्स्ट प्रॉम्प्ट के आधार पर पूरी तरह स्वचालित तरीके से वास्तव में assemble किए जा सकने वाले और भौतिक रूप से स्थिर LEGO स्ट्रक्चर जनरेट करने वाला पहला approach है
  • यह प्रोजेक्ट बड़े पैमाने के LEGO स्ट्रक्चर डेटासेट और विस्तृत विवरणों के साथ बनाया गया है, और वास्तविक assembly प्रक्रिया में भी स्थिरता, विविधता और सौंदर्यपूर्ण गुणवत्ता वाले परिणाम उत्पन्न करता है
  • LEGO स्ट्रक्चर जनरेशन के परिणामों को प्रयोगों में सत्यापित किया गया है कि उन्हें मनुष्य हाथ से सीधे assemble कर सकता है, या robot arm से स्वचालित रूप से assemble किया जा सकता है

StableText2Lego डेटासेट

  • StableText2Lego डेटासेट में ShapeNetCore 3D meshes से आकृतियों को voxelize करने के बाद, अलग-अलग brick placement तरीकों को लागू किया गया और सिर्फ उन्हीं स्ट्रक्चर को अपनाया गया जो भौतिक स्थिरता सत्यापन में सफल रहे
  • डेटा निर्माण प्रक्रिया में प्रत्येक स्ट्रक्चर के लिए 24 कोणों से views render किए गए, और इनके आधार पर GPT-4o ने सूक्ष्म विवरण वाले description texts स्वतः जनरेट किए
  • इस तरह बनाए गए डेटासेट में विविध आकार, संरचना और textures वाले 47,000 से अधिक LEGO स्ट्रक्चर और 28,000 से अधिक unique 3D objects शामिल हैं

LegoGPT पाइपलाइन

  • LEGO स्ट्रक्चर को नीचे से ऊपर, raster-scan तरीके से text token sequences में tokenize करके इनपुट दिया जाता है
  • प्रत्येक brick sequence और natural language description को pair बनाकर LLaMA-3.2-Instruct-1B आधारित मॉडल को fine-tune किया गया, जिससे description-brick sequence mapping सीखी जाती है
  • inference चरण में LegoGPT टेक्स्ट प्रॉम्प्ट के लिए एक-एक करके bricks predict और add करते हुए LEGO स्ट्रक्चर को क्रमिक रूप से जनरेट करता है
  • हर brick जोड़े जाने पर format, brick library में उपलब्धता, और collision के लिए validity checks किए जाते हैं, और पूरा स्ट्रक्चर बनने के बाद भौतिक स्थिरता का फिर से सत्यापन किया जाता है
  • यदि अंतिम स्ट्रक्चर अस्थिर हो, तो अस्थिर brick और उसके बाद जोड़ी गई सभी bricks को हटाकर स्थिर अवस्था तक rollback किया जाता है और फिर दोबारा जनरेशन की जाती है

चरण-दर-चरण LEGO स्ट्रक्चर जनरेशन उदाहरण

  • "लंबे और संकरे hull वाली slim नाव"
  • "क्षैतिज shelves वाली किताबों की अलमारी"
  • "बिना बैकरेस्ट के armrests वाली बेंच"
  • हर उदाहरण टेक्स्ट प्रॉम्प्ट से स्पष्ट दृश्य विशेषताओं को दर्शाने वाले LEGO स्ट्रक्चर के रूप में चरण-दर-चरण जनरेट होता है

रोबोट के साथ स्वचालित assembly

  • जनरेट किए गए LEGO मॉडल को robot arm के उपयोग से वास्तविक assembly में लागू किया गया और 8x speed वीडियो में दिखाया गया
  • "लंबे और संकरे hull वाली slim नाव", "asymmetrical 6-string guitar" आदि के जरिए वास्तविक robot assembly applicability दिखाई गई

जनरेट किए गए textured और color LEGO मॉडल

  • natural language prompts में "काई जमी हुई बेंच", "neon gradient cyberpunk material", "Victorian study shelf" जैसी अभिव्यक्तियों के साथ texture, material और विशिष्ट aesthetic effects तक दर्शाने वाले LEGO डिज़ाइन उपलब्ध कराए जाते हैं
  • "Sunburst Les Paul with amber finish" जैसे समृद्ध रंगों और metallic effects को भी सिर्फ टेक्स्ट के आधार पर LEGO डिज़ाइन में दर्शाया जा सकता है

उद्धरण और शोध समर्थन

  • पेपर की जानकारी, लेखक, और इस शोध को समर्थन देने वाली संस्थाएँ (जैसे Packard Foundation, Amazon Faculty Award आदि) स्पष्ट रूप से दी गई हैं
  • यह प्रोजेक्ट प्रमुख शोधकर्ताओं के Microsoft Research PhD Fellowship सहित विभिन्न अकादमिक और औद्योगिक समर्थन के तहत आगे बढ़ाया गया है

प्रोजेक्ट संदर्भ और टेम्पलेट

  • संबंधित साइट टेम्पलेट में Custom Diffusion और DreamFusion प्रोजेक्ट्स के लेआउट का संदर्भ लेकर उपयोग किया गया है

1 टिप्पणियां

 
GN⁺ 2025-05-10
Hacker News राय
  • हम परिणामों की स्थिरता बढ़ाने के लिए efficient validation और physics-based rollback का उपयोग करते हैं, जिससे physics laws और assembly constraints के अनुसार असंभव token predictions को prune किया जा सके। AI का उपयोग करते समय सबसे दिलचस्प बातों में से एक यह है कि यह manually programmed domain-specific constraints के भीतर संभावनाएँ generate और optimize करता है। उदाहरण के लिए, traffic signal AI में collisions को रोकने के लिए hard constraints अनिवार्य हैं। ऐसे constraints के भीतर AI स्वतंत्र रूप से optimization ideas पर प्रयोग कर सकता है। आखिरकार, मुख्य बात यह है कि problem space और constraints को कैसे design किया जाता है। इस मामले में वह LEGO bricks, उनके combinations, और stability है
    • यह तरीका दशकों से चली आ रही metaheuristics का एक典型 उदाहरण है। कई तरह के algorithms मौजूद हैं, और इस पर एक हल्की-फुल्की introductory book भी है, इसलिए देखना उपयोगी हो सकता है https://cs.gmu.edu/~sean/book/metaheuristics/
    • आजकल LLMs में इसका एक सरल version पहले से ही चमक दिखा रहा है। JSON Schema mode का उपयोग करके illegal states को मूल रूप से रोका जा सकता है और model को एक सीमित space में छोड़ने पर कम से कम valid results आने की गारंटी दी जा सकती है। यह type safety जैसी अवधारणा है। validation और correction logic को तरह-तरह के verification scenarios पर भी लागू किया जा सकता है। उम्मीद है ऐसे उपयोग और बढ़ेंगे
    • मुझे लगता है कि इस तरह की समस्या के लिए MILP या CLP based models उपयोग किए जाएंगे। constraints search space को define करते हैं, और solver algorithms इस space को explore करते हैं
    • इसमें reinforcement learning भी दिलचस्प हो सकती है। अगर system को negative reward दिया जाए तो यह safety rules का पालन करना शुरू कर सकता है। हालांकि, production services में safety mechanisms को हर हाल में बनाए रखना चाहिए https://en.wikipedia.org/wiki/Reinforcement_learning
    • मैंने यह नहीं पढ़ा कि constraints को कैसे लागू किया गया है। इसी तरह की तकनीक का उपयोग LLMs में JSON जैसी structured output को force करने के लिए भी किया जाता है। llama.cpp custom grammar matching भी support करता है
    • मैं इस राय से पूरी तरह सहमत हूँ। जब generation results को physics, legality, और tool constraints से सीमित किया जाता है, तो model एक साधारण word predictor से अधिक एक search और verification engine जैसा बन जाता है। यह program synthesis के अधिक करीब है। असली value इस बात में है कि problem space को इतनी सावधानी से define किया जाए कि model को एक "box" के भीतर कैद रखा जा सके, ताकि वह केवल उपयोगी परिणाम ही दे
    • मज़े के लिए आज़माने लायक एक चीज़: LLM से कहिए "APPLE कहो", लेकिन Apple-संबंधित tokens के logits को -अनंत पर सेट कर दीजिए ताकि वह वह शब्द इस्तेमाल न कर सके। तब output कुछ ऐसा होगा: "Banana. मज़ाक कर रहा हूँ। Banana. ओह, क्योंकि यह स्वादिष्ट है इसलिए मुझसे गलती हो गई। फिर से कोशिश करता हूँ: Orange. ओह, इस बार grape. नहीं, वह crunchy सब्ज़ी carrot"
    • मैं भी मानता हूँ कि AI सच में इसी क्षेत्र में चमकता है। इंसान rules तय करते हैं—जैसे physics laws, traffic safety आदि—और AI विशाल search space में optimal solutions ढूंढ़ता है
    • मेरा मानना है कि error feedback ही वह key है जो सच में संभावनाओं के दरवाज़े खोलती है। उदाहरण के लिए, अगर text-to-SQL bot को SQL provider का error feedback दिया जाए, तो वह कहीं बेहतर queries बना सकता है
    • combinatorial chemistry में भी ऐसा ही concept है, इसलिए इसे AI Chemistry कहना गलत नहीं होगा https://en.wikipedia.org/wiki/Combinatorial_chemistry
  • इस project को LEGO के वकीलों से चेतावनी पत्र मिलने की संभावना काफ़ी है। सुरक्षित रहना हो तो LEGO शब्द का उपयोग न करें, बल्कि Bricks या Klemmbausteine (German) जैसा कुछ कहें। बहुत से लोग LEGO legal team के साथ विवाद झेल चुके हैं, और वह अनुभव सच में थका देने वाला रहा है
    • चूंकि यह वास्तव में LEGO bricks का उपयोग कर रहा है, इसलिए गलतफहमी की गुंजाइश नहीं है। हालांकि, यह स्पष्ट रूप से नहीं बताना कि इसका LEGO से कोई संबंध नहीं है, थोड़ा अस्पष्ट है। दूसरी तरफ, ये लोग revenue generation के इरादे से काम करते नहीं दिखते, इसलिए यह दावा भी कमजोर लगता है कि LEGO को कोई नुकसान हो रहा है। इस वजह से risk कम लगता है
    • YouTubers और छोटी hobby sites को भी कभी-कभी सिर्फ़ शब्द-प्रयोग के context की वजह से takedown notices मिल जाते हैं
    • दूसरी तरफ, Amazon आराम से Boy and Tiger Adventure Blocks Set बेच रहा है, जो LEGO और Calvin & Hobbes दोनों की copy जैसा लगता है https://amazon.com/Adventure-Rotatable-Compatible-Characters-Stocking/…
    • यह academic research है, इसलिए मुझे लगता है कि यह fair use के दायरे में आएगा
    • मैं भी यही सोचता हूँ! जल्द ही समस्या आएगी
    • लोग Nintendo जैसा व्यवहार क्यों करते हैं और Sega की तरह community को embrace क्यों नहीं करते, यह सोचकर हैरानी होती है
  • यह result बहुत प्रभावशाली नहीं है। बहुत कम bricks का उपयोग हुआ है और output भी इच्छित रूप से काफ़ी दूर लगता है। लगता है कि hand-crafted algorithms इससे बेहतर परिणाम दे सकते हैं
    • इस research की शानदार बात photo realism नहीं, बल्कि language understanding और physical assemblability का combination है
    • केवल नकली textures ही इसे देखने में विश्वसनीय बना रहे हैं। अगर सिर्फ़ colored bricks का उपयोग होता, तो यह बस एक ढेला भर लगता
    • यह देखते हुए कि यह एक fine-tuned 1B model है, यह काफ़ी दिलचस्प है
    • सच में ज़रूरत जिस चीज़ की है, वह ऐसा AI है जिसे मैं अपने brick pile की photo दूँ और वह मेरे पास मौजूद bricks के आधार पर building instructions बना दे। तकनीकी रूप से यह अभी भी संभव है, लेकिन इसके लिए अलग से specialized model train करना होगा
  • iPhone पर अगर GIF की position तक scroll करें, तो GIF अपने-आप चलने लगता है, जिससे वेबसाइट navigation बहुत असुविधाजनक हो जाती है
    • पता नहीं कब सब लोग यह सीखेंगे कि autoplay कभी नहीं करना चाहिए
    • उल्टा, मुझे Firefox desktop पर यह पता ही नहीं चला कि GIF दिखाई दे रहे थे, इसलिए समझ नहीं आया कि images क्या बताना चाह रही थीं
    • playsinline attribute को video tag में देने से यह समस्या ठीक हो सकती है https://developer.mozilla.org/en-US/docs/…. अफ़सोस की बात है कि iOS का default behavior ऐसा है
  • मैं LEGO assembly को automate नहीं करना चाहता। खुद बनाना ही मज़ेदार हिस्सा है! असल में ज़रूरत assembly के बाद automation की है—यानी सफ़ाई, color और shape के हिसाब से sorting, और उन्हें साफ़-सुथरे ढंग से store करना। अच्छा होगा अगर वैज्ञानिक पहले उन समस्याओं को हल करना शुरू करें जिनकी सचमुच दुनिया को ज़रूरत है। वहीं असली value और पैसा है
    • 2 ton Lego को sort करने का एक उदाहरण, और AI से Lego auto-sorting करने वाली पहली machine पर article और links यहाँ हैं https://jacquesmattheij.com/sorting-two-metric-tons-of-lego/, https://brothers-brick.com/2019/12/…
    • वास्तविक समस्याएँ हल करना मुश्किल होने का एक कारण academia की वह culture भी है जिसमें paper publication ही सब कुछ बन जाता है
    • असली innovation मज़ेदार हिस्से को automate करने में नहीं, बल्कि उबाऊ हिस्से को गायब कर देने में है
    • मैं भी यही कहने आया था। LEGO की असली समस्या cleanup और organization है
  • सच में शानदार project है! GIF में assembly process दिखाना बहुत addictive है। जो लोग dataset की जानकारी ढूंढ़ रहे थे, उनके लिए साझा कर रहा हूँ https://huggingface.co/datasets/AvaLovelace/StableText2Lego. इसमें 47,000 से अधिक LEGO structures हैं और 21 ShapeNetCore categories में 28,000 से अधिक unique 3D objects शामिल हैं। local inference कैसे करना है, यह GitHub पर देखा जा सकता है https://github.com/AvaLovelace1/LegoGPT/?tab=readme-ov-file
  • "a basic sofa" को देखें तो animation sequence के अनुसार बनाते समय bricks हवा में तैरते हुए लगते हैं। यह इस बात का संकेत है कि design generate करने के तरीके में model की सीमाएँ हैं। अगर robots की मदद से generated designs को automatically assemble करना हो, तो मुझे लगता है कि इस design से बड़ी समस्या होगी
    • मैं भी यही बात कहने आया था। अंतिम रूप ठीक दिखता है, लेकिन animation वाली assembly order में बहुत समस्याएँ हैं। पहले दो-layer वाला floor बनना चाहिए ताकि ऊपरी layer नीचे की bricks को lock करे। उसके बाद ही legs लगाई जा सकती हैं
  • $50,000 का robot कुछ डॉलर की LEGO जोड़ते हुए दिखे, यह थोड़ा मज़ेदार है। जैसे robots के लिए किसी retirement home का दृश्य देख रहे हों
    • 10 साल में शायद ऐसे robot assemblers आ जाएँ जो इंसानों से कहीं तेज़ हों
    • इसी वजह से एशिया में अभी भी हाथ से assembly करना आम बात है
    • लोग कहते हैं LEGO महँगा है, लेकिन अगर LEGO assemble करने वाला robot खरीदें, तो पता चलेगा कि असली महँगी चीज़ क्या है
  • यह बस 3D model को voxel में बदलकर bricks में convert करने से ज़्यादा कुछ नहीं लगता। 2x2, 2x4 के अलावा भी कई तरह की bricks को creative तरीक़े से उपयोग करना चाहिए, तभी शानदार results मिलेंगे। सुंदर MOC (creative build) को automatically generate करने के लिए सबसे अच्छा algorithm क्या होगा, यह जानने की जिज्ञासा है। मैं $50k का kaggle competition कराने की सोच रहा हूँ, राय जानना चाहूँगा