Word2Vec को ICLR2013 में चार बार 'strong reject' मिला

(openreview.net)

1 पॉइंट द्वारा GN⁺ 2023-12-19 | 1 टिप्पणियां | WhatsApp पर शेयर करें

कुशल शब्द प्रतिनिधित्वों का vector space में अनुमान

शोधकर्ताओं ने बहुत बड़े डेटा सेट्स में शब्दों के continuous vector representations की गणना करने के लिए दो नए model architectures प्रस्तावित किए हैं.
इन representations की गुणवत्ता को word similarity tasks पर मापा गया और इसकी तुलना पहले सर्वश्रेष्ठ प्रदर्शन दिखाने वाली विभिन्न प्रकार की neural network-आधारित तकनीकों से की गई.
शोधकर्ताओं ने देखा कि बहुत कम computational cost पर accuracy में बड़ा सुधार मिलता है. यानी, 1.6 अरब शब्दों वाले डेटा सेट में 10 लाख vocabulary के लिए उच्च-गुणवत्ता वाले 300-dimensional vectors को एक ही CPU पर एक दिन के भीतर निकाला जा सकता है.
साथ ही, यह भी दिखाया गया कि ये vectors word similarity के विभिन्न प्रकारों को मापने वाले test sets पर state-of-the-art प्रदर्शन देते हैं.
शोध समुदाय के उपयोग के लिए इस test set को सार्वजनिक करने की योजना है.

राय

reviewers ने指出 किया कि प्रस्तावित models मौजूदा models से कैसे अलग हैं और वे बेहतर क्यों हैं, इसके लिए स्पष्ट motivation की कमी है.
model का विवरण बहुत न्यूनतम है, इसलिए यह तय करना कठिन है कि यह पिछले शोध से कैसे अलग है.
reviewers ने ज़ोर दिया कि paper में अलग-अलग data sets और भिन्न dimensions पर trained models के बीच असंगत तुलना शामिल है, जबकि paper के दावों को विश्वसनीय बनाने के लिए यह आवश्यक है.

GN⁺ की राय

यह शोध word vectors का कुशल अनुमान लगाने की नई तकनीक प्रस्तावित करता है, जो natural language processing क्षेत्र में एक महत्वपूर्ण प्रगति है.
प्रस्तावित models मौजूदा जटिल neural network models की तुलना में बहुत तेज़ी से train किए जा सकते हैं, जो बड़े पैमाने के language data पर काम करने वाले शोध के लिए उपयोगी हो सकता है.
paper word vectors की गुणवत्ता का मूल्यांकन करने का एक नया तरीका प्रस्तुत करता है, जो भविष्य के शोध में word similarity को मापने के मानक के रूप में स्थापित हो सकता है.

1 टिप्पणियां

GN⁺ 2023-12-19

Hacker News की राय

Tomas Mikolov (word2vec के लेखक) की हालिया FB पोस्ट में और ज़्यादा विवरण हैं: https://www.facebook.com/share/p/kXYaYaRvRCr5K2Ze
दिलचस्प और कड़वा पहलू यह है कि विशेषज्ञ भी गलतियां करते हैं। Geoff Hinton जैसी प्रतिक्रिया—“मुझे भी पता था, लेकिन पेश करना भूल गया”—से लेकर उन लोगों तक, जिन्होंने paper पढ़े या खुद आज़माए बिना कह दिया कि “यह पूरी तरह जुगाड़ है, काम कर ही नहीं सकता,” ऐसे लोग भी थे। Ian Goodfellow के बारे में भी Twitter पर गुस्सा होने जैसा जिक्र है
- Tomas का कहना है कि encoder-decoder (seq-to-seq) का idea उन्हें आया था, और उनके Facebook जाने के बाद Ilya और Quoc ने उसे आगे बढ़ाया
  लेकिन Quoc कहते हैं कि यह सच नहीं है: https://twitter.com/quocleix/status/1736523075943125029
  Quoc की तरफ से याद यह है कि Tomas ने idea propose नहीं किया था; बल्कि जब end-to-end translation का idea share किया गया, तो वे काफी skepticial थे, और उस skepticism के बावजूद उसे काम करने लायक बनाने की कोशिश की गई। ऐसा नहीं लगता कि कोई झूठ बोल रहा है; शायद किसी एक की याद गलत है, लेकिन इसका aftertaste अच्छा नहीं है
- निष्पक्ष होकर देखें तो उस समय paper और आसपास की technology काफी कमजोर थी, ऐसी याद भी है। व्यापक रूप से इस्तेमाल implementations असल में paper में लिखी बातों से अलग चलती थीं, और technology भी word-level comparison से आगे बहुत अच्छी नहीं थी
  खास शब्दों को tf-idf weight देने पर थोड़ा असर दिखता था, लेकिन tf-idf-weighted शब्दों का collection भी उतना ही ताकतवर था। कई word vectors के sum पर cosine similarity इस्तेमाल करने का तरीका आज देखें तो सच में बेवकूफी भरा लगता है
- दूसरे thread में पूछा गया कि Goodfellow किस तरह गुस्सा हुए थे, लेकिन मुझे बस यही मिला: https://twitter.com/goodfellow_ian/status/113352818965167718...
  अगर यही बात है, तो ईमानदारी से कहूं तो Mikolov काफी unstable लगते हैं
- वह पोस्ट सच कहें तो कई लोगों पर वार करने वाली expressions से इतनी भरी है कि लंबी भड़ास जैसी लगती है। इसे कहीं ज्यादा गरिमा के साथ लिखा जा सकता था
  हालांकि यह बात विश्वसनीय है कि ज्यादातर researchers भी इंसान हैं, इसलिए shared knowledge की प्रगति को सर्वोपरि रखने के बजाय ego और पैसे से बहुत प्रभावित होते हैं। खांसी OpenAI खांसी
- वह पोस्ट ‘भुलाए जा चुके’ FB की बजाय Twitter पर ज्यादा फिट बैठती। जिन व्यक्तियों और organizations का जिक्र या संकेत था, वे पोस्ट देखकर अपना पक्ष share करने का मौका पा सकते थे
  वरना यह बस शिकायती पोस्ट जैसी लगती है
मुझे लगता है reviewers ने काफी अच्छा किया। Reviews भी काफी reasonable हैं। Review प्रक्रिया को यह नहीं देखना चाहिए कि paper भविष्य में कितना influential होगा, बल्कि paper की quality देखनी चाहिए
हर influential paper सच में अच्छा paper भी हो, ऐसा नहीं है
- सहमत। मेरा सबसे influential paper भी पहली submission पर strong reject हुआ था, और पीछे मुड़कर देखता हूं तो लगता है कि वह जायज़ था
  Motivation कमजोर था, contribution साफ तौर पर पेश नहीं था, और explanation भी बहुत confusing था। Idea का core लगभग नहीं बदला, लेकिन अंत में प्रकाशित paper कहीं बेहतर बना, और इसकी वजह पहली review की harshness थी। Review खुद कोई खास insightful नहीं थी; बस “confusing है, समझ नहीं आता क्या कर रहे हो और क्यों कर रहे हो” जैसी थी, लेकिन कभी-कभी ऐसी बाहरी नजर सच में जरूरी होती है
  मैंने भी ऐसे papers review करके reject किए हैं जिनमें बेहतरीन ideas के seeds दिखते थे, लेकिन लिखित paper खुद अच्छा नहीं होता था। जब ऐसे papers बाद में काफी बेहतर रूप में publish होते देखते हैं, तो हमेशा खुशी होती है
- मैं मानता हूं कि papers को वास्तव में अक्सर इसी तरह evaluate किया जाता है, लेकिन मैं इस बात से strongly असहमत हूं कि ऐसा होना चाहिए। यह reviewers द्वारा खोई हुई चाबी वहां नहीं, बल्कि streetlight के नीचे खोजने जैसी समस्या है
  यह नहीं देखना चाहिए कि “क्या यह paper checkboxes भरता है,” बल्कि यह देखना चाहिए कि “क्या यह paper field को आगे बढ़ाता है, इसलिए इसे और exposure मिलना चाहिए।” अगर पहला दूसरे तक बेहतर तरीके से नहीं ले जाता, तो यह system की failure है
  यह वैसा ही है जैसे साफ haircut और सही buzzwords बोलने वाले candidates को hire करना, और उन लोगों को miss कर देना जो असल revenue पर असर डालते हैं
  बहुत rigorous लेकिन कुछ भी पैदा न करने वाला ‘अच्छा’ paper क्या सच में अच्छा paper है? अगर scientific progress को ऐसे देखें कि rigorous paper high-probability dice हैं और कम rigorous paper low-probability dice, तो फिर बस rigorous papers ही ढूंढने चाहिए। तब निष्कर्ष यह होगा कि कम rigor वाले word2vec ने progress पैदा की, यह “सच में किस्मत अच्छी थी,” और उसे अच्छी rating मिलने की जरूरत नहीं थी
  लेकिन word2vec बहुत innovative भी था, और review में इसे positive factor होना चाहिए था। बल्कि मुझे लगता है कि innovative paper के लिए बहुत rigorous होना मुश्किल होता है, क्योंकि उस field में rigor की definition अभी settled नहीं होती। Extreme boundary पर मैं यह कहना चाहूंगा कि rigor और innovation में negative correlation होता है
- “आठ-पैर वाला निबंध अतीत में imperial examination के उम्मीदवारों के लिए सरकारी पद के लिए जरूरी गुण दिखाने के लिए आवश्यक था… structure और style के लिहाज से आठ-पैर वाला निबंध restricted और rigid था। वाक्यों की संख्या, शब्दों की संख्या, form और structure, rhyme techniques तक कई rules थे।”
  https://en.wikipedia.org/wiki/Eight-legged_essay#Viewpoints
- अगर ऐसा है, तो समझ नहीं आता कि peer-review system पर इतना focus और effort क्यों लगाया जाता है
  Funding करने वालों से पूछें तो संभावना है कि वे प्रभावहीन ‘high-quality’ papers produce करने के बजाय influential ideas में निवेश करना चाहेंगे
- यही सही interpretation है। कोई इसे “reviewers बेवकूफ हैं” वाली दिशा में ले जाना चाहेगा, लेकिन ऐसा नहीं है
बाद में देखा तो reviewer f5bf की टिप्पणी दिलचस्प लगी। उन्होंने कहा कि यह बताना अच्छा होगा कि ये models “river”, “bank”, “bailout” जैसी non-transitive semantic similarity को कैसे handle करते हैं, और Tversky जैसे लोगों ने आलोचना की थी कि semantic space models ऐसी similarity को ठीक से model नहीं कर पाते
नए models (GPT, image diffusion models आदि) में जो चीज़ खास दिखती है, वह है ambiguity होने पर शब्दों से खेलने की क्षमता। पहले यह बहुत मानवीय क्षमता लगती थी, लेकिन अब लगता है कि यह generative models के toolbox में आ गई है। मेरा अनुमान है कि ज़्यादातर models prompt से embedding vector निकालने के लिए word2vec जैसा कुछ इस्तेमाल करते होंगे
मुझे नहीं पता कि word2vec की ambiguity pun बनाने की क्षमता में योगदान देती है या नहीं, लेकिन यह ऐसी feature बनाम bug स्थिति दिखाती है जहाँ ऐसी ambiguity रचनात्मक उद्देश्यों के लिए feature है, और semantic space को सख्त vector space के रूप में model करना हो तो bug बन जाती है
मेरी व्याख्या है कि मौजूदा models की word/prompt embeddings इतनी बड़ी हैं कि redundant dimensions से overstuffed हैं, और वे किसी ऐसे mathematical formalism को satisfy नहीं करेंगी जो ठीक से काम करने वाले vector space जैसा हो
- मुख्य अंतर को context-less embeddings और contextual embeddings कहा जा सकता है। word2vec जैसी approach संरचना के कारण हर वाक्य में “bank” को बिल्कुल वही vector assign करने को मजबूर होती है
  लेकिन बाद के models, जैसे Transformer family, BERT, GPT आदि, उस “bank” के आसपास के शब्दों के context के आधार पर बिल्कुल अलग vector assign करते हैं
- छोटे models (जैसे hidden dimension 32) भी अगर उनमें attention हो तो token ambiguity को handle कर पाने चाहिए। जानकारी token खुद में होने की बजाय context में कहीं ज़्यादा होती है
लगता है paper के शुरुआती versions reject हुए थे, और बाद में reviews के आधार पर updates व explanations जोड़े गए। आखिरकार यह फायदेमंद रहा और review process को जिस तरह काम करना चाहिए वैसा ही दिखता है
खासकर क्योंकि यह paper breakthrough work था, इसलिए सिर्फ अच्छे benchmark results पर निर्भर रहने की बजाय यह समझाने में ज़्यादा मेहनत लगाना उचित था कि यह काम क्यों करता है
अब पीछे मुड़कर देखें तो जो anonymous reviewers चतुर लग रहे थे, वे काफी मूर्ख लगेंगे
peer review नए ideas के लिए अच्छी तरह काम नहीं करता। क्योंकि किसी के पास भी किसी नई चीज़ को समझने के लिए घंटों पर घंटों लगाने का समय या गुंजाइश नहीं होती
- यह बात ध्यान देने लायक है कि बेहतरीन science का बड़ा हिस्सा peer review के dominant होने से पहले आया था
  मैंने पहले एक लेख पढ़ा था, हालांकि अब आसानी से मिलना मुश्किल है, जिसमें मौजूदा peer review system का इतिहास मोटे तौर पर बताया गया था। आज जैसा peer review हम जानते हैं, वह मुख्यतः 1970s में बना और academia में funding crises की प्रतिक्रिया था। बात यह थी कि research को अधिक भरोसेमंद दिखाने की यह एक strategy थी
  peer review की सबसे घातक आलोचना यह है कि यह reproducibility crisis को रोकने में पूरी तरह विफल रहा, और शायद उसने इसमें मदद भी की। academia एक ऐसा system है जिसका मुख्य motivation credibility की image के जरिए funding पाना है, और सिद्धांत रूप में देखें तो यह बड़े पैमाने पर fraud की recipe है
- मैंने पिछले 1 साल में AI PhD पूरी की है, और कह सकता हूँ कि ऐसे reviewers सचमुच मौजूद हैं जो एक review ठीक से करने में घंटों लगाते हैं। यह भी सच है कि आजकल lazy reviewers मिलने की संभावना अधिक है और किस्मत खराब हो सकती है, लेकिन इस paper में मामला ऐसा नहीं लगता
  उदाहरण के लिए f5bf review ने CBOW और skip-gram को summarize किया, और कहा कि model description बहुत minimal है, इसलिए यह आंकना मुश्किल है कि यह existing models से कितना अलग है। graphical representation या mathematical details और जोड़ना अच्छा होगा, और parameters की संख्या पर कुछ हद तक अनावश्यक equation में काफी जगह खर्च हो रही है, इसलिए लगभग एक page बची हुई जगह से यह आसानी से हो सकता था
  ऐसे reviews से paper में काफी revisions हुए, बस शायद वे पर्याप्त बड़े नहीं थे: https://openreview.net/forum?id=idpCdOWtqXd60&noteId=C8Vn84f...
  ये काफी अच्छी quality के reviews थे, और व्यक्तिगत रूप से मुझे लगता है कि इस review process से paper को फायदा हुआ
- पिछले 1 साल में machine learning conference tracks से मैं काफी निराश हुआ हूँ। Papers बहुत ज़्यादा हैं और reviewers बहुत कम, इसलिए PhD student reviewers की संख्या असामान्य रूप से बढ़ गई है
  मुझे सचमुच बेतुके reviews मिले, और उनमें scientific spirit के खिलाफ बातें भी थीं। जैसे एक reviewer ने प्रभावी रूप से ज़िद की कि जब तक नया architecture idea और state-of-the-art results न हों, paper publish करने लायक नहीं है। मानो existing tools को बेहतर समझना और simplify करना बिल्कुल allowed ही नहीं है
- मेरा निष्कर्ष यह नहीं था। Review process ने paper को बेहतर और अधिक rigorous बनाया। मुझे समझ नहीं आता कि यह बुरी बात क्यों है
  बेशक कभी-कभी reviewers “क्या यह A, B, C में क्रांति लाएगा” के बजाय दूसरे मुद्दों पर focus करते हैं
- यहाँ समस्या यह नहीं थी कि reviewers नए idea को संभाल नहीं पाए। वे word embeddings और उन्हें बनाने के तरीकों, दोनों से बहुत अच्छी तरह परिचित थे
  word2vec में बहुत सारे नए concepts नहीं थे; फर्क यह था कि यह simple, fast और high-quality था। Software और pre-trained vectors existing methods की तुलना में access और use करने में आसान थे
“strong reject” चार हैं जरूर, लेकिन लगता है सभी एक ही reviewer ने एक ही समय पर वही content लिखे हैं। क्या यह बस एक rejection नहीं है?
और यह भी सवाल है कि सिर्फ उसी reviewer का score क्यों दिख रहा है
यहाँ peer review की value या uselessness पर जोरदार बातें करने वालों में से कितने लोग वास्तव में author और reviewer दोनों के रूप में शामिल हुए हैं, यह जानने की जिज्ञासा है। और जिन्होंने कई reviews को एक recommendation में integrate और synthesize करने वाले editor की भूमिका निभाई हो, उनके बारे में तो और भी
formal peer review के बिना research या ideas share करने के लिए कई मंच हैं, arXiv/bioRxiv प्रमुख उदाहरण हैं। अगर peer review को ही reject करना है, तो alternatives काफी लगते हैं
- इंटरनेट है, इसलिए किसी भी topic पर strong certainty का बड़ा हिस्सा उन लोगों से आता है जिनके पास उस field में बहुत कम experience या competence होती है
  HN होने से यह average से थोड़ा बेहतर होगा, लेकिन साथ ही यह procrastinate कर रहे लोगों की तरफ भी biased होगा। बस उस बात को ध्यान में रखकर देखना चाहिए
कॉलेज में, एक क्लास असाइनमेंट के लिए मैंने कुछ heuristics के आधार पर टेक्स्ट सुधारने वाला एक सरल सिस्टम बनाया था
उस क्लास के शिक्षक ने गर्मियों में सुझाव दिया कि मैं सिस्टम और नतीजों को समझाने वाला पेपर किसी स्थानीय conference में भेजूं। उनकी मदद से लिखा, लेकिन grammar खराब है जैसे कारण देकर तुरंत reject कर दिया गया। conference ब्राज़ील में थी, लेकिन पेपर English में मांगा गया था। मैं छात्र था और मुझे लगा कि मेरी English वाकई बहुत खराब है
शिक्षक ने कहा कि reviewer को email करके feedback मांगो, revise करके फिर submit करो। इसलिए मैंने खास तौर पर पूछा कि कौन-सा paragraph confusing है, तो उन्होंने साफ़ तौर पर गलत sentence fragments भेज दिए। लेकिन वे मेरे सिस्टम द्वारा correction से पहले/बाद दिखाने वाले examples में से correction से पहले वाले sentences थे
मैंने समझाने की कोशिश की कि उस हिस्से में grammar गलत होना ही चाहिए, लेकिन जवाब था, “English mistakes ठीक करके फिर submit करो।” दो-तीन बार और कोशिश की, फिर आखिरकार हार मान ली
- Feynman के ब्राज़ील वाले किस्से याद आते हैं। खासकर “I was invited to give a talk at the Brazilian Academy of Sciences” खोज सकते हैं, लेकिन अगर नहीं पढ़ा है तो पूरा लेख पढ़ने लायक है
  https://southerncrossreview.org/81/feynman-brazil.html
- बिल्कुल ऐसा ही हुआ होगा, सोचकर आंखें घूम जाती हैं। फिर भी अगर publish करना चाहते हैं, तो arXiv पर डालकर HN की collective intelligence से सही submission venue की सलाह ले सकते हैं
  अगर arXiv access नहीं है, तो endorser ढूंढना होगा: <https://info.arxiv.org/help/endorsement.html>. छोटा और विनम्र email भेजें, और शिष्टाचार से ज्यादा संक्षिप्तता को प्राथमिकता दें। कुछ ऐसा: “yyyy में मैंने university में automatic grammar correction पर paper लिखा था, और figure में grammar errors के कारण Venue ने reject कर दिया। मैं अभी भी इसे publish करना चाहता हूं। क्या आप मेरे arXiv account को endorse कर सकते हैं? और क्या कोई उचित submission venue सुझा सकते हैं?” endorsement request के समय arXiv website के निर्देशों का पालन करें
- मैं reviewer रहा हूं और कभी-कभी ऐसे reviews लिखे भी हैं
  paper, reader तक जानकारी पहुंचाने की एक exercise है। अगर writing reader के लिए उस जानकारी को समझना बहुत मुश्किल बना देती है, तो अंदर के ideas की quality चाहे जो हो, paper ज्यादा उपयोगी नहीं रहता और publication के लिए उपयुक्त नहीं होता
  reviewer का काम paper को फिर से समझने योग्य बनाकर लिखना नहीं है। उनके पास समय भी नहीं होता, और यह उनका काम भी नहीं है
  writing आसान नहीं है, और technical paper writing सचमुच सीखने में कठिन skill है। लेकिन research को उपयोगी बनाने के लिए यह जरूरी है
  ईमानदारी से कहूं तो जिस शिक्षक ने paper लिखने का सुझाव दिया, लगता है उन्होंने अपनी भूमिका ठीक से नहीं निभाई और आपका समय बर्बाद कराया। अगर वह काम publish करने लायक था, तो उसे publishable form में ठीक करने में समय लगाना चाहिए था; और अगर ऐसा नहीं था, तो शुरू में सुझाव ही नहीं देना चाहिए था
title misleading है, इसलिए flag किया। चार strong rejects एक ही author से आए थे
किसी अज्ञात कारण से वे चार बार list हुए, लेकिन यह OpenReview का अजीब behavior हो सकता है। page जो actual status दिखा रहा है, वह है लंबे text के साथ 2 unknown, 1 weak reject, और 1 strong reject
review thread नीचे से शुरू करके ऊपर पढ़ें तो यह negatively drift हुए Show HN thread जैसा लगता है
paper को शुरुआत में सवाल और negative feedback मिले, तो authors ने update करते हुए reviewers को हल्का-सा छेड़ा। उन्होंने जवाब दिया, “discussion का स्वागत है… कुछ reviews में शायद छूट गया मुख्य contribution यह है कि बहुत shallow model से भी अच्छे word vector representations compute किए जा सकते हैं”
उस update का जवाब था, “revisions और rebuttal reviewers द्वारा उठाए गए issues को solve नहीं करते। मौजूदा रूप में मुझे नहीं लगता कि paper accept किया जाना चाहिए। Quality assessment: Strong reject. Confidence: reviewer is knowledgeable”

Word2Vec को ICLR2013 में चार बार 'strong reject' मिला

कुशल शब्द प्रतिनिधित्वों का vector space में अनुमान

राय

GN⁺ की राय

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय