- Niantic बड़े पैमाने की machine learning का उपयोग करके एक Large Geospatial Model (LGM) विकसित कर रहा है, जो दृश्यों को समझ सके और उन्हें दुनिया भर के लाखों अन्य दृश्यों से जोड़ सके
- इंसान spatial understanding के ज़रिये संरचनाओं की विभिन्न कोणों से कल्पना कर सकते हैं, लेकिन मशीनों के लिए यह एक कठिन चुनौती है
- Niantic का Visual Positioning System (VPS) 5 अरब से अधिक neural networks को train करके 10 लाख से अधिक locations पर काम करने में सक्षम बनाया गया है
- Large Geospatial Model क्या है?
- LGM कंप्यूटर को भौतिक दुनिया को पहचानने, समझने और उसमें नेविगेट करने में मदद करता है
- LLM की तरह, LGM भी विशाल मात्रा के raw data का उपयोग करके बनाया जाता है, जिससे space, structure और physical interaction की location-based understanding संभव होती है
- 3D vision models से आगे बढ़कर geospatial models विशिष्ट भौगोलिक स्थानों में rooted होते हैं और उन्हें सटीक scale units में मापा जा सकता है
- Niantic की प्रगति
- पिछले 5 वर्षों में Niantic ने VPS बनाया है, ताकि उपयोगकर्ता physical environment में digital content को सटीक रूप से place कर सकें
- VPS उपयोगकर्ता scans के आधार पर बनाया गया है, जो pedestrian perspective से एकत्रित data पर आधारित हैं, जिनमें ऐसे स्थान भी शामिल हैं जहाँ कार से पहुँचना संभव नहीं
- वर्तमान में दुनिया भर में 1 करोड़ scanned locations हैं, और हर सप्ताह 10 लाख नए scans एकत्र किए जाते हैं
- स्थानीय सिस्टम से shared understanding तक
- मौजूदा neural maps उपयोगी geospatial models हैं, लेकिन LGM की दृष्टि अलग-अलग local maps से आगे जाती है
- LGM local models के बीच data sharing को संभव बनाता है और किसी विशेष स्थान पर इमारत के पीछे के हिस्से का अनुमान लगा सकता है
- यह geospatial और visual data के आधार पर दुनिया की एक centralized understanding को साकार करता है
- इंसान जैसी समझ
- इंसानों में यह क्षमता होती है कि वे जो देख चुके हैं, उसे दूसरे कोणों से भी पहचान सकें
- ऐसी समझ को वास्तविक रूप से हासिल करना केवल बड़े पैमाने की machine learning से संभव है, और Niantic का लक्ष्य यही है
- पूरक foundation models की ओर विकास
- LGM का उपयोग सिर्फ positioning से आगे बढ़कर किया जा सकता है, और यह scene representation, manipulation तथा generation के नए तरीकों को सक्षम बना सकता है
- अलग-अलग प्रकार के foundation models एक-दूसरे को पूरक कर सकते हैं, और ऐसे सिस्टम भौतिक दुनिया को पहचानने, समझने और उसमें काम करने में सक्षम बनते हैं
- Niantic का लक्ष्य बड़े पैमाने के geospatial model development में अग्रणी बनकर उपयोगकर्ताओं को नए अनुभव प्रदान करना है
1 टिप्पणियां
Hacker News राय
Pokémon GO खिलाड़ी के तौर पर, ऐसा लगता है कि मैं गेम के ज़रिए training data दे रहा हूँ और वे मेरी मेहनत से मुनाफ़ा कमा रहे हैं। PokéStop scan करने का काम इनाम की तुलना में बहुत ज़्यादा मेहनत वाला है, इसलिए मैंने यह बंद कर दिया। अगर वे model और weights सार्वजनिक कर दें, तो लगेगा कि इससे बड़े सार्वजनिक हित में योगदान हुआ है.
Pokémon GO की AR तकनीक धीमी होने की वजह से मैं इसे ज़्यादा इस्तेमाल नहीं करता था, इसलिए यह जानकर हैरानी हुई कि अब यह LGM training में इस्तेमाल होने लायक विकसित हो गई है। आर्थिक रूप से भी, खिलाड़ियों को free game मिलता है, Niantic को revenue मिलता है, और दुनिया को नई technology मिलती है.
MyFitnessPal में जब उपयोगकर्ता barcode scan करते हैं, तो background noise इकट्ठा किया जाता है और उसे training data के रूप में इस्तेमाल किया जाता है। इससे औसत pantry, refrigerator, और supermarket aisle के बारे में जानकारी मिल सकती है.
यह blog post और HN की प्रतिक्रिया उलझाऊ लगती है। उन्होंने वास्तव में model train नहीं किया, बल्कि ऐसी योजना की घोषणा की है। वे कहते हैं कि 5 करोड़ neural networks train किए गए, लेकिन यह पहले से किए जा रहे काम का ही एक हिस्सा लगता है। यह Niantic को AI company के रूप में position करने की vision document जैसी लगती है.
एक दार्शनिक राय यह है कि geospatial data सार्वजनिक संपत्ति होना चाहिए। crowd-sourced data आम लोगों से आता है, इसलिए knowledge और facts को सार्वजनिक संपत्ति माना जाना चाहिए.
मुझे नहीं लगता कि real-time में 3D scenes बनाना भविष्य का map है। buildings, roads, signboards आदि काफ़ी static होते हैं, और ज़्यादातर use cases में इनमें बड़ा बदलाव नहीं होता। cloud से accurate model लाना ज़्यादा उपयोगी होगा.
शायद Google/Niantic की किसी बैठक में crowd-sourcing के ज़रिए नई पीढ़ी के 3D models बनाने का विचार आया होगा। फिर Pokémon rights खरीदकर इसे अमल में लाया गया.
Brian Maclendon (Niantic) ने Bellingfest प्रस्तुति में इस बारे में कुछ दिलचस्प details दी थीं.
यह समझना मुश्किल है कि LGM वास्तव में क्या है। ऐसा लगता है कि यह geospatial data के बारे में नहीं, बल्कि buildings के पीछे वाले हिस्सों की भविष्यवाणी करने वाले vision model को बेहतर बनाने के बारे में है। training data उन images से आया है जो Pokémon पकड़ते समय बनी थीं.
एक राय यह भी है कि CIA के पास शायद पहले से ही इसकी पहुँच होगी। privacy को लेकर चिंताएँ कई सालों से उठती रही हैं.