कुशल शब्द प्रतिनिधित्वों का vector space में अनुमान
- शोधकर्ताओं ने बहुत बड़े डेटा सेट्स में शब्दों के continuous vector representations की गणना करने के लिए दो नए model architectures प्रस्तावित किए हैं.
- इन representations की गुणवत्ता को word similarity tasks पर मापा गया और इसकी तुलना पहले सर्वश्रेष्ठ प्रदर्शन दिखाने वाली विभिन्न प्रकार की neural network-आधारित तकनीकों से की गई.
- शोधकर्ताओं ने देखा कि बहुत कम computational cost पर accuracy में बड़ा सुधार मिलता है. यानी, 1.6 अरब शब्दों वाले डेटा सेट में 10 लाख vocabulary के लिए उच्च-गुणवत्ता वाले 300-dimensional vectors को एक ही CPU पर एक दिन के भीतर निकाला जा सकता है.
- साथ ही, यह भी दिखाया गया कि ये vectors word similarity के विभिन्न प्रकारों को मापने वाले test sets पर state-of-the-art प्रदर्शन देते हैं.
- शोध समुदाय के उपयोग के लिए इस test set को सार्वजनिक करने की योजना है.
राय
- reviewers ने指出 किया कि प्रस्तावित models मौजूदा models से कैसे अलग हैं और वे बेहतर क्यों हैं, इसके लिए स्पष्ट motivation की कमी है.
- model का विवरण बहुत न्यूनतम है, इसलिए यह तय करना कठिन है कि यह पिछले शोध से कैसे अलग है.
- reviewers ने ज़ोर दिया कि paper में अलग-अलग data sets और भिन्न dimensions पर trained models के बीच असंगत तुलना शामिल है, जबकि paper के दावों को विश्वसनीय बनाने के लिए यह आवश्यक है.
GN⁺ की राय
- यह शोध word vectors का कुशल अनुमान लगाने की नई तकनीक प्रस्तावित करता है, जो natural language processing क्षेत्र में एक महत्वपूर्ण प्रगति है.
- प्रस्तावित models मौजूदा जटिल neural network models की तुलना में बहुत तेज़ी से train किए जा सकते हैं, जो बड़े पैमाने के language data पर काम करने वाले शोध के लिए उपयोगी हो सकता है.
- paper word vectors की गुणवत्ता का मूल्यांकन करने का एक नया तरीका प्रस्तुत करता है, जो भविष्य के शोध में word similarity को मापने के मानक के रूप में स्थापित हो सकता है.
1 टिप्पणियां
Hacker News राय
Tomas Mikolov की Facebook पोस्ट में word2vec के बारे में और अधिक विवरण देखे जा सकते हैं.
मुझे लगता है कि reviewers ने अच्छा काम किया.
reviewer f5bf की टिप्पणी दिलचस्प है.
यह भी राय है कि review process नए विचारों के लिए प्रभावी नहीं है.
paper का शुरुआती version reject हुआ था, लेकिन reviews के आधार पर बाद में updates और clarifications किए गए.
"Strong Reject" की चार राय दिख रही हैं, लेकिन लगता है कि वे सब एक ही reviewer से एक साथ आई थीं.
यह जानने की जिज्ञासा है कि peer review के मूल्य पर बहुत मजबूत राय रखने वाले लोगों में से कितनों ने वास्तव में author, reviewer, या editor के रूप में peer review में भाग लिया है.
यह भी कहा गया कि शीर्षक भ्रामक है.
review thread किसी नकारात्मक Show HN thread की तरह पढ़ी जाती है.
विश्वविद्यालय के दिनों में, किसी ने एक साधारण text correction system बनाया और उस पर paper submit किया, लेकिन English grammar की समस्याओं के कारण reject कर दिया गया.