4 पॉइंट द्वारा xguru 2024-03-14 | 2 टिप्पणियां | WhatsApp पर शेयर करें
  • Figure 01 रोबोट अब इंसानों के साथ पूरी तरह बातचीत कर सकता है
  • OpenAI मॉडल उच्च-स्तरीय विज़ुअल और भाषा इंटेलिजेंस प्रदान करता है
  • Figure न्यूरल नेटवर्क तेज़ और लो-लेवल फुर्तीली रोबोट मूवमेंट को संभव बनाता है
  • यह सामने दिखाई देने वाली चीज़ों का वर्णन करता है, खाने के लिए कुछ माँगने पर सेब उठाकर थमा देता है, और स्थिति को समझकर कप और टेबल को व्यवस्थित करने जैसे काम करता है

2 टिप्पणियां

 
erados 2024-03-14

लगता है output के तरीकों में एक और विकल्प जुड़ गया है।

 
xguru 2024-03-14

Hacker News राय

  • रोबोट की फुर्ती ने प्रभावित किया, लेकिन जिसने भी GPT-4 का अनुभव किया है, उसके लिए रोबोट की voice और reasoning क्षमता शायद उतनी चौंकाने वाली न हो। function calling फीचर प्रभावशाली है, लेकिन जिस 'दुनिया' के साथ यह इंटरैक्ट कर रहा है वह बहुत सरल है। रोबोट को वास्तविक दुनिया के साथ इंटरैक्ट करते देखना दिलचस्प है। अभी AI की प्रगति को reasoning cost और speed सीमित कर रहे हैं। अगर कोई ऐसा तरीका मिल जाए जो प्रति सेकंड हजारों tokens को सस्ते में प्रोसेस कर सके, तो कई कठिन समस्याएँ हल हो सकती हैं और हम सचमुच अद्भुत applications देख सकते हैं।
  • voice के जरिए पहले से pre-trained actions में से किसी एक को चुनना अच्छा है, लेकिन क्रांतिकारी नहीं। GPT-4V का उपयोग करके scene का वर्णन करना भी अपेक्षाकृत सरल है। सबसे प्रभावशाली बात इसकी speed है, जिससे यह कचरा जल्दी उठाता है और एक हाथ से दूसरे हाथ में चीजें लचीले ढंग से पास करता है। ये motion policies कितनी general हैं, यह स्पष्ट नहीं है। इंसान को बिल्कुल स्थिर खड़े देखकर लगता है कि अगर सब कुछ ठीक-ठीक सेट न हो तो यह विफल हो सकता है। मैं अधिक variation वाले demos देखना चाहूँगा। फिर भी, मुझे यह demo शानदार लगता है और मैं इससे अधिक देखना चाहता हूँ।
  • Groq की low-latency reasoning वास्तविक उपयोगिता दिखाती है। response में delay होने के कारण यह शायद तुरंत प्रभावशाली न लगे, फिर भी यह बहुत प्रभावशाली है।
  • यह सवाल उठता है कि रोबोट कचरे और सेब वाली गंदी प्लेट को drying rack में क्यों रख रहा है। प्लेट को पहले धोया जाना चाहिए।
  • text को servo motor की movements में बदलने की क्षमता अद्भुत है, और लगता है कि GPT-4 vision और Whisper का काफी उपयोग हुआ है। 'reasoning' शब्द का इस्तेमाल भी नए ढंग से हो रहा है। इसे AI wrapper company कहा जा सकता है। बेशक, medium apps से अलग होता है। आज AI development यहीं रुक भी जाए, तब भी बहुत से अद्भुत AI applications मौजूद हैं।
  • humanoid form और voice इसे शुद्ध chat version से अलग एहसास देते हैं। अगर इसमें eye contact भी जोड़ दिया जाए तो प्रभाव और गहरा होगा। मैं कल्पना करता हूँ कि इसे आम लोगों के सामने डेमो किया जाए।
  • voice को servo motor की movements में बदलना प्रभावशाली है। dexterity की जरूरत वाले कामों को जिस speed से यह करता है वह चौंकाती है, और यह पहला object manipulation robot demo है जो video को तेज किए बिना भी 'natural' लगता है।
  • काश मैं फिर से 5 साल का बच्चा होता, जिसे यह न पता हो कि यह सब कितना अवास्तविक और बेकार है, ताकि मैं भविष्य के बारे में एक बार सकारात्मक सोच सकूँ। लेकिन इंसान यह नहीं समझते कि बुनियादी आवासीय जरूरतों के नीचे 'काल्पनिक संख्याओं की बढ़त' नहीं चलाई जा सकती, और इस तकनीक को उपयोगी, सस्ता, विश्वसनीय और अच्छा बनाने का कोई तरीका नहीं है।
  • इस demo का सबसे प्रभावशाली हिस्सा यह है कि रोबोट 'देख' सकता है और इंसान जैसी भुजाओं से वस्तुओं को उठा सकता है। शायद मैं कुछ मिस कर रहा हूँ, लेकिन मुझे लगा था कि यह बहुत कठिन है। मुझे पता है कि inverse kinematics कठिन होती है; क्या इसे neural network से हल किया गया होगा?
  • YouTube पर वही वीडियो लिंक: Figure Status Update - OpenAI Speech-to-Speech Reasoning