अत्यधिक दक्षता के दुष्प्रभाव (2022)

(sohl-dickstein.github.io)

6 पॉइंट द्वारा GN⁺ 2024-09-30 | 2 टिप्पणियां | WhatsApp पर शेयर करें

दक्षता तभी प्रदर्शन बढ़ाती है जब लक्ष्य और मेट्रिक्स अच्छी तरह मेल खाते हों, और proxy metrics को हद से ज़्यादा optimize करने पर वह चीज़ खराब हो सकती है जो वास्तव में महत्वपूर्ण थी
मशीन लर्निंग में overfitting इस संरचना को अच्छी तरह दिखाता है; training data और proxy objective function बेहतर हो सकते हैं, फिर भी वास्तविक प्रदर्शन रुक सकता है या बिगड़ सकता है
standardized exams, पेपर बोनस, reward circuit maximization, जनमत समर्थन, information sharing, capitalism, और paperclip maximizer के उदाहरण दिखाते हैं कि लक्ष्यों और proxy metrics का mismatch सामाजिक प्रणालियों में भी बार-बार होता है
बचाव के उपाय हैं proxy goals का alignment, regularization, noise injection, early stopping, capacity limitation, और capacity expansion; ये मशीन लर्निंग में overfitting से निपटने के तरीकों को सामाजिक प्रणालियों पर उपमा की तरह लागू करते हैं
अगर AI लगभग हर काम की दक्षता तेजी से बढ़ा सकता है, तो गलत तरह से aligned goals को और बेहतर तरीके से pursue करवाने वाली संस्थागत सुधार की पद्धति जोखिमपूर्ण हो सकती है

दक्षता और Goodhart के नियम का मजबूत संस्करण

दक्षता में वृद्धि, intuition के उलट, बदतर परिणाम पैदा कर सकती है, और इस घटना को Goodhart के नियम का मजबूत संस्करण कहा जाता है
standardized exams के जरिए छात्रों की प्रगति track करना केंद्रीकृत और efficient measurement जैसा दिखता है, लेकिन यह स्कूलों को व्यापक रूप से उपयोगी कौशलों के बजाय परीक्षा में अच्छा करने के तरीकों पर ध्यान देने के लिए प्रेरित कर सकता है
Goodhart का नियम कहता है कि “जब कोई measurement लक्ष्य बन जाता है, तो वह अच्छा measurement नहीं रह जाता”
- मूल रूप से यह monetary policy के संदर्भ से आया था, लेकिन इसे कहीं व्यापक क्षेत्रों पर लागू किया जा सकता है
- मशीन लर्निंग में यह उस स्थिति से जुड़ता है जहाँ optimize किया जा रहा proxy objective function उस उद्देश्य का अच्छा measurement नहीं रह जाता जिसकी हमें वास्तव में परवाह है

मशीन लर्निंग overfitting से संबंध

मशीन लर्निंग में सीधे वांछित लक्ष्य को optimize नहीं कर पाने के कारण proxy dataset और proxy objective function का उपयोग किया जाता है
- image classification के उदाहरण में वास्तविक लक्ष्य test dataset पर classification accuracy है
- मॉडल test dataset पर train नहीं हो सकता, इसलिए training dataset का उपयोग करता है
- accuracy differentiable नहीं होती, इसलिए उसे naive gradient descent training का सीधा लक्ष्य बनाना कठिन है, और आम तौर पर उसे softmax-cross-entropy loss जैसे differentiable proxy से बदला जाता है
शुरुआत में proxy metric सुधरता है और वास्तविक लक्ष्य भी साथ में बेहतर होता है
optimization जारी रहने पर लक्ष्य और proxy metric के बीच उपयोगी समानता खत्म हो जाती है, और proxy metric सुधरता रहता है फिर भी लक्ष्य आगे बेहतर नहीं होता
अत्यधिक optimization वास्तविक लक्ष्य को absolute sense में खराब कर सकता है, और कई बार लक्ष्य infinity की ओर diverge भी कर जाता है

मजबूत संस्करण सामान्य Goodhart नियम से कैसे अलग है

सामान्य Goodhart नियम मानता है कि proxy metric को optimize करने पर अंततः वास्तविक लक्ष्य में सुधार बंद हो जाता है
मजबूत संस्करण मानता है कि प्रभावी ढंग से optimize किया गया measurement उल्टा उसी चीज़ को खराब कर देता है जिसे मापना था
एक वाक्य में यह इस तरह है
- “जब measurement लक्ष्य बन जाता है, और उसे प्रभावी ढंग से optimize किया जाता है, तो जिसे मापना था वह और खराब हो जाता है”
यह घटना साधारण overfitting जैसी नहीं है
- overfitting proxy metric के लक्ष्य से बेहतर हो जाने की relative घटना को बताता है
- यहाँ जोर इस बात पर है कि लक्ष्य absolute अर्थ में खराब हो जाता है
संबंधित concepts के रूप में perverse incentives, Campbell’s law, Streisand effect, unintended consequences, Jevons paradox, negative externalities, और Goodhart’s curse पर साथ में चर्चा की गई है
- Goodhart’s curse में optimizer’s curse को causal mechanism के रूप में शामिल माना जाता है, लेकिन इसे अलग करके बताया गया है कि केवल वही वास्तविक लक्ष्य के absolute रूप से खराब होने की वजह नहीं समझा पाता

सामाजिक प्रणालियों में बार-बार होने वाला overfitting

दक्षता में वृद्धि समाज के लगभग हर पहलू में फैल रही है
- जो चीज़ अधिक efficient बन रही है अगर वह सचमुच लाभकारी है, तो दुनिया को बेहतर बना सकती है
- अगर सामाजिक रूप से हानिकारक चीज़ को अधिक efficient बनाया जाए, तो mass surveillance या robot weapons जैसे डरावने या निराशाजनक परिणाम आ सकते हैं
- सबसे आम स्थिति यह है कि ऐसी चीज़ को अधिक efficient बनाया जाता है जो लाभकारी परिणामों से संबंधित तो है, लेकिन वही नहीं है
जब लक्ष्य और proxy metric में mismatch हो, तो सामाजिक प्रणालियाँ भी मशीन लर्निंग की तरह overfit हो सकती हैं
- लक्ष्य: बच्चों को अच्छी शिक्षा देना proxy metric: standardized exams से छात्रों और स्कूलों के प्रदर्शन को मापना परिणाम: स्कूल उन मूल क्षमताओं से ज़्यादा, जिन्हें परीक्षा मापना चाहती थी, परीक्षा के प्रश्न-प्रकारों के हिसाब से पढ़ाने पर ध्यान देते हैं
- लक्ष्य: विज्ञान की तेज प्रगति proxy metric: हर पेपर पर cash bonus देना परिणाम: गलत या incremental results का प्रकाशन, reviewers और authors की मिलीभगत, paper mills का जन्म
- लक्ष्य: अच्छी तरह जिया गया जीवन proxy metric: मस्तिष्क के reward pathways को maximize करना परिणाम: drug addiction, gambling addiction, Twitter doomscrolling में गंवाया गया समय
- लक्ष्य: स्वस्थ आबादी proxy metric: पोषक भोजन तक पहुंच परिणाम: obesity epidemic
- लक्ष्य: आबादी के हितों के अनुसार काम करने वाले नेता proxy metric: आबादी का सबसे अधिक समर्थन पाने वाला नेता परिणाम: सामाजिक परिणामों से ज़्यादा जनमत को manipulate करने में विशेषज्ञता और ऊर्जा लगाने वाले नेता
- लक्ष्य: जानकारीपूर्ण, विचारशील और सहभागी नागरिक proxy metric: लोगों की ideas को आसानी से share और find करने की क्षमता परिणाम: filter bubbles, conspiracy theories, parasitic memes, मजबूत हुआ tribalism
- लक्ष्य: समाज की जरूरतों पर आधारित श्रम और संसाधनों का allocation proxy metric: capitalism परिणाम: सालाना कुछ सौ डॉलर से लेकर प्रति सेकंड सैकड़ों डॉलर तक की भारी wealth inequality और 1 अरब से अधिक लोग गरीबी में
- लक्ष्य: Paperclips Unlimited, LLC के मालिकों की संपत्ति proxy metric: AI द्वारा संचालित manufacturing plant से बने clips की संख्या परिणाम: paperclip maximizer scenario, जिसमें कंपनी के मालिकों समेत पूरा solar system clips में बदल जाता है

वे क्षेत्र जहाँ अत्यधिक efficiency खतरनाक हो सकती है

निम्न क्षेत्रों को ऐसे उदाहरणों के रूप में लिया गया है जहाँ शुरुआती सुधार व्यापक रूप से उपयोगी रहे होंगे, लेकिन इनमें बहुत ज़्यादा अच्छा हो जाना बड़े नकारात्मक परिणाम ला सकता है
- telepresence और virtual reality
- personalized medicine
- gene therapy
- individual consumers या voters के लिए tailor किए गए marketing messages
- election results prediction
- code writing
- artificial intelligence
- supply chain से slack हटाना
- ideas का तेज प्रसार
- entertainment generation
- लोगों द्वारा खरीदे जाने वाले नए products की पहचान
- livestock breeding
- securities trading
- समुद्र से मछलियाँ निकालना
- automobile manufacturing

बचाव 1: proxy goal alignment और regularization

proxy goal को वांछित परिणाम से बेहतर मिलाना पहला बचाव है
- मशीन लर्निंग में अक्सर test-time situation से जितना हो सके मिलते-जुलते training examples को सावधानी से collect करने का तरीका इस्तेमाल होता है
- मशीन लर्निंग के बाहर, laws, incentives, social norms जैसे controllable proxy metrics बदलकर लक्ष्य से बेहतर मेल खाते व्यवहार को सीधे encourage किया जाता है
regularization penalty भी अत्यधिक optimization को कम कर सकती है
- मशीन लर्निंग में parameters के squared magnitude पर penalty लगाकर values को छोटा बनाए रखने का तरीका आम है
- regularization को undesirable behavior को सीधे target करने की जरूरत नहीं होती, और मॉडल के typicality से दूर जाने पर penalty लगाने का लगभग कोई भी तरीका अच्छा काम कर सकता है
सामाजिक प्रणालियों में regularization को complexity, friction, और additional costs जोड़ने के रूप में उपमा दी गई है
- SMTP में charging mechanism जोड़कर हर email पर छोटी cost लगाना
- progressive tax के जरिए असाधारण सफलता को असंतुलित रूप से बड़ी cost से जोड़ना
- किसी organization द्वारा दायर lawsuits की संख्या के square या exponential के proportional court fees लगाना
- user के बारे में stored information के bits की संख्या पर tax लगाना

बचाव 2: noise injection और early stopping

noise injection inputs, parameters, या मॉडल की internal state में random perturbations जोड़कर overfitting को कठिन बनाने का तरीका है
सामाजिक प्रणालियों में भी randomness डालकर proxy metric के प्रति अत्यधिक tuning वाले व्यवहार को घटाया जा सकता है
- अत्यधिक competitive schools या jobs के candidates को rank करने के बाद top k लोगों को निश्चित offers देने के बजाय, rank के proportional probability से offer देना
  - accepted candidates की diversity बढ़ सकती है
  - applicants द्वारा applications को fine-tune करने या reviewers द्वारा छोटे ranking differences की जांच में खर्च होने वाले resources घट सकते हैं
  - failure की संभावना अधिक रखने वाला long-shot candidate चुना जा सकता है, लेकिन conventional से अलग तरीके से बहुत valuable सफलता पाने की संभावना भी हो सकती है
- exam dates पहले से बताने के बजाय randomly तय करना, ताकि cramming के बजाय understanding-based learning को बढ़ावा मिले
- securities exchanges से trading processing time में लगभग 1 second standard deviation का random jitter जोड़ने की मांग करना
- election day पर voting method की details को randomize करना, ताकि candidates मौजूदा election system की accidental details पर overfit न करें
early stopping को मशीन लर्निंग में catastrophic overfitting रोकने का सबसे प्रभावी tool माना गया है
- training loss और test performance के अलावा validation loss को monitor किया जाता है
- training loss लगातार बेहतर हो रहा हो, फिर भी validation loss खराब होना शुरू हो जाए तो training रोक दी जाती है
सामाजिक प्रणालियों में अत्यधिक तैयारी, analysis, और optimization को रोकने वाले mechanisms से इसका जवाब दिया जा सकता है
- request for proposal और submission deadline के बीच का समय बहुत सीमित करना, ताकि existing preparedness बेहतर reflect हो
- stock volatility threshold पार करे तो सभी market activities रोकना
- competition रोकने वाली companies को antitrust laws से break up करना
- decision के importance को monetary amount में estimate करना, और analysis में लगाए गए time की value उस amount के करीब पहुंचते ही तुरंत decision लेना
- चुनाव से 48 घंटे पहले media coverage restrictions की तरह, agents जिन information का उपयोग लक्ष्य हासिल करने में कर सकते हैं उसे freeze करना

मॉडल capacity और overfitting का संबंध

extreme overfitting के अच्छी तरह समझे गए कारणों में से एक वह स्थिति है जहाँ मॉडल की expressiveness proxy task की complexity से बहुत करीबी मेल खाती है
अगर मॉडल बहुत weak है तो वह task में थोड़ी ही प्रगति कर सकता है, इसलिए लक्ष्य और proxy metric की समानता को खत्म नहीं करता
अगर मॉडल बहुत strong और expressive है, तो वह proxy objective को independently optimize करते हुए अन्य objectives में extreme behavior पैदा नहीं कर सकता
जब expressiveness task complexity से roughly match करती है, जैसे parameters की संख्या training examples की संख्या से कई orders of magnitude अधिक या कम न हो, तब proxy task को अच्छी तरह करने के लिए कहीं और extreme behavior करना पड़ सकता है
Figure 1 का toy experiment 1-dimensional input x को 1-dimensional output y में map करने वाले models को समान 10 data points पर train करता है
- 4-parameter model data points को बिल्कुल fit करने के लिए बहुत weak है, लेकिन smoothly approximate करता है
- 10,000-parameter model सभी data points को आसानी से fit करता है और उनके बीच भी smoothly interpolate करता है
- 10-parameter model data points को fit करने लायक ठीक-ठाक strong है, लेकिन training data के बाहर extreme तरीके से मुड़ जाता है और नए x values की prediction में बहुत खराब हो सकता है
- विस्तृत experiment colab notebook में है

बचाव 3: capacity limitation और capacity expansion

capability या capacity limitation उस मशीन लर्निंग technique के समान है जिसमें मॉडल को इतना छोटा बनाया जाता है कि वह overfit न कर सके
- campaign finance limits
- किसी खास प्रकार की company में काम कर सकने वाले लोगों की संख्या पर cap लगाना, उदाहरण के लिए lobbying group में केवल 10 लोगों की अनुमति
- AI systems द्वारा इस्तेमाल किए जा सकने वाले parameters की संख्या या training compute पर cap लगाना
capability या capacity expansion उस observation से जुड़ता है कि मॉडल बहुत बड़ा हो जाए तो training data पर overfit करने के बावजूद test data performance को और खराब नहीं कर सकता
- यह क्षमता को इतना बड़ा करने का तरीका है कि लक्ष्य और proxy metric के बीच performance tradeoff की जरूरत न रहे
- सभी databases को publicly accessible बनाना और हर building में cameras लगाकर हर व्यक्ति, सरकार और organization से जुड़ी information हर समय सबके लिए public करना एक example scenario के रूप में दिया गया है
  - यह scenario लेखक के value system में स्पष्ट रूप से dystopia बताया गया है
- clean energy basic research में investment
- अलग-अलग maturity horizons में जितने संभव हों उतने complex, opaque, और diverse market trading products विकसित करना
- हर scenario में सबसे बड़े, compute- और data-intensive AI models का उपयोग करना
capacity को लगातार बढ़ाते रहना मशीन लर्निंग में आश्चर्यजनक रूप से अच्छा काम करता है और कम resistance वाला रास्ता है
misaligned goals को pursue करने वाली institutions को blindly और बेहतर बनाते हुए systems को सुधारने की कोशिश को बेहद खराब idea माना गया है

AI और research agenda

Goodhart के नियम का मजबूत संस्करण AI को लेकर प्रमुख व्यक्तिगत fears की नींव के रूप में प्रस्तुत किया गया है
AI जो मुख्य बदलाव संभव करेगा, वह लगभग हर काम में बहुत कम समय में efficiency increase पैदा करना है
कई तरह के unwanted side effects को एक साथ handle करना होगा, और solutions के लिए collaborate करने की क्षमता भी साथ-साथ disrupted हो सकती है
मशीन लर्निंग overfitting results और economics, political science, management science, operations research जैसी problems के बीच formal और mathematical bridges बनाने के बड़े research opportunities हैं
- PAC Bayes bound का उपयोग करके workers’ wealth maximize करने के लिए union power की optimal amount predict करने का उदाहरण दिया गया है
- political competition में candidates द्वारा control किए जा सकने वाले और control न किए जा सकने वाले variables के spectrum को estimate करके political collapse points predict करने का उदाहरण भी दिया गया है
सामाजिक प्रणालियाँ Goodhart के नियम के मजबूत संस्करण की वजह से जितना अधिक बिगड़ेंगी, उसे ठीक करने के लिए जरूरी सामूहिक rational action उतना ही कठिन हो जाएगा

2 टिप्पणियां

gguimoon 2024-10-02

मैंने सुना है कि हमारे देश की CSAT परीक्षा गणितीय क्षमता मापने के अपने शुरुआती उद्देश्य से हटकर, सिर्फ़ grade cutoffs के वितरण को अधिक कुशल बनाने वाली एक system में बदल गई है। यह Goodhart's law से आगे न बढ़ पाने का एक उदाहरण लगता है।

GN⁺ 2024-09-30

Hacker News की राय

मैं Jascha को पहले Google Brain में रहे और अब Anthropic में काम कर रहे बेहद प्रतिभाशाली मशीन लर्निंग रिसर्चर के रूप में जानता हूँ
उन्होंने अपने सह-लेखकों के साथ मिलकर भौतिकी और सांख्यिकी की तकनीकों—mean field theory और free probability theory—का उपयोग करके गहरे neural networks में signal propagation को गणितीय रूप से characterize किया था। मेरे हिसाब से यह पिछले 10 सालों में मशीन लर्निंग के सबसे गहरे, लेकिन कम आंके गए theoretical और experimental results में से एक है। उदाहरण के लिए, dynamical isometry [1] और उस विचार के आगे के विकास ने बहुत गहरे transformer models की convergence हासिल करने में अहम भूमिका निभाई [2]
यह लेख और उदाहरण पढ़ने के बाद, साफ लगता है कि इस व्यक्ति के पास मशीन लर्निंग से आगे, आधुनिक समाज में optimization को लेकर असाधारण intuition है। उसकी technical background को मान्यता देकर, अर्थ या परिभाषाओं पर होने वाली बहस से चर्चा को ऊपर उठाना चाहिए
असल बात तेज़ technical progress की छाया में रखी गई एक बहुत मानवीय और सहानुभूतिपूर्ण call to action है: “अगर कोई scientist prosocial और बिल्कुल नए field बना सकने वाले research ideas खोज रहा है, तो उसे machine learning में overfitting के परिणामों और economics, political science, management science, operations research जैसे कई क्षेत्रों की समस्याओं के बीच formal और mathematical bridges बनाने पर विचार करना चाहिए”
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- संयोग से timing दिलचस्प है। कुछ दिन पहले ही मुझे biologist Olivier Hamant के काम के बारे में पता चला, और वे बिल्कुल यही मुद्दा उठा रहे थे
  उनका मुख्य तर्क यह है कि बहुत उच्च performance—यानी किसी ज्ञात goal के लिए effectiveness और efficiency—और बड़े system fluctuations को झेलने वाली high robustness, भौतिक रूप से साथ-साथ नहीं चल सकतीं। प्रकृति में इसके कई उदाहरण हैं, और आम धारणा के विपरीत evolution उच्च performance को नहीं, बल्कि high robustness को optimize करती है। संसाधनों से भरपूर दुनिया में performance-first सोच शायद समझ में आती थी, लेकिन अब हम एक बिल्कुल अलग दौर में प्रवेश कर चुके हैं, जहाँ instability ही norm है। robust बनने के लिए performance का कुछ हिस्सा वापस छोड़ना ही पड़ेगा, और अंततः हमें ऐसा करने के लिए मजबूर होना पड़ेगा। लंबे समय बाद polycrisis की यह सबसे ताज़ा और दिलचस्प व्याख्या लगी
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- आम पाठकों के लिए अनुवाद: यहाँ machine learning की तुलना समाज में व्यक्तियों और संस्थानों के बीच signal transmission की mathematical structure से की जा रही है
  यानी एक mathematician यह मान रहा है कि एक तरफ की समस्या—machine learning में overfitting, जहाँ excessive training से neural network की generalization क्षमता घटती है और वह जिन functions की नकल कर सकता है वे training data से बहुत मजबूती से बंध जाते हैं—दूसरी तरफ भी परेशान करेगी
  सार यह है कि social systems या उनके बीच signal transmission अगर जरूरत से ज्यादा विकसित हो जाए, तो किसी बिंदु के बाद एक collapse point जरूर होगा जहाँ चीजें बस और खराब होने लगेंगी। व्यक्तिगत रूप से, अगर देखें कि हर system का perfectly पालन करने पर क्या होता है, तो मुझे लगता है कि कई industries में हम शायद उस collapse point से काफी आगे निकल चुके हैं
- मुझे ReZero idea पसंद है। मूल रूप से यह residual layer में learnable parameter α जोड़ने का तरीका है
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  हालांकि मैंने इसे असल में इस्तेमाल होते नहीं देखा है। Gemma और Llama papers भी अभी तक layer normalization ही इस्तेमाल करते दिखते हैं। क्या मैं कुछ miss कर रहा हूँ?
- यह idea इसलिए दिलचस्प है, क्योंकि अगर, उदाहरण के लिए, economics और machine learning के काम करने के तरीकों को जोड़ा जा सके, तो executable, modifiable और transformable computer programs complex system interactions के बारे में directly measurable data दे सकते हैं
  वास्तविकता इतनी nuanced और multi-layered है कि concepts को formally verify करना मुश्किल होता है, इसलिए इस तरह की interactions अब तक ज्यादातर Platonic ideas जैसी ही मौजूद रही हैं। economics के नीचे provable और exact logic का एक subset मौजूद है—यह विचार बहुत powerful है और इसे pursue करना worthwhile है
- इस तरह आपत्ति की बातों को असल में address किए बिना पूरी category को ही किनारे कर देना काफी manipulative तरीका है
  इसमें भावनाओं की अपील या authority पर भरोसा करने जैसी कई logical fallacies भी हैं, और यह HN जिस intellectual curiosity की भावना को बढ़ावा देता है, उससे मेल नहीं खाता
यह दावा जाने-माने Goodhart के नियम पर टिका है: जब कोई माप लक्ष्य बन जाता है, तो वह अच्छा माप नहीं रह जाता।
हालांकि यह समस्या को सिर्फ़ मापन की समस्या की तरह समझाता है—मानो हम जिस चीज़ की सच में परवाह करते हैं उसे माप नहीं सकते, इसलिए किसी proxy metric को optimize करते हैं। मेरी नज़र में यह बहुत ज़्यादा reductive दृष्टिकोण है। समस्या सिर्फ़ मापन में नहीं, मानव व्यवहार में भी है। कणों के विपरीत, मनुष्य हमारे बनाए किसी भी control system का सक्रिय रूप से दुरुपयोग करने की कोशिश करते हैं।
यह समस्या “शांति, प्रेम, पिल्ले” जैसी चीज़ों को ठीक से माप न पाने के स्तर से कहीं गहरी है। मुझे लगता है कि classic Goodhart के नियम की तुलना में Campbell का नियम [0] इसे बेहतर पकड़ता है: “किसी quantitative social indicator का जितना अधिक उपयोग social decision-making में किया जाता है, वह उतना ही corruption pressure के संपर्क में आता है, और जिस social process की निगरानी करनी थी उसे distort और corrupt करने की संभावना उतनी ही बढ़ जाती है।”
सुझाए गए mitigation—normalization और early stopping—ज़्यादा से ज़्यादा अप्रत्यक्ष रूप से ही इसे संबोधित करते हैं, और सबसे बुरे मामले में वे unwanted behavior द्वारा exploit किए जाने वाले नए singularities बना सकते हैं।
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- “मनुष्य हमारे बनाए किसी भी control system का सक्रिय रूप से दुरुपयोग करने की कोशिश करते हैं” यह बात सही है, लेकिन ऐसा इसलिए संभव है क्योंकि control system ठीक-ठीक सिर्फ़ उसी चीज़ को control नहीं कर पाता जिसे हम control करना चाहते हैं।
  Control system असल में हमारी वास्तविक इच्छा का एक imperfect proxy भर होता है, और यह Goodhart के नियम में measurement की भूमिका से काफ़ी मिलता-जुलता है। एक और variant unintended consequences का नियम [0] भी है। शायद इसका कोई और अधिक generalized computational या complex-systems version हो, जिसे हमने अभी खोजा नहीं है।
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- यह सिर्फ़ मनुष्यों तक सीमित नहीं; कोई भी agent ऐसा करेगा।
  अगर दिल्ली में मरे हुए कोबरा ज़्यादा लाने पर reward देने वाले AI agent पर genetic algorithm चलाया जाए, तो मुझे लगता है कि जल्द ही कोबरा पालना शुरू करने वाला agent सबसे अच्छा प्रदर्शन करेगा। मनुष्यों और AI दोनों मामलों में reward function hack हो गया। AI में हम कहेंगे कि reward function design खराब था, लेकिन मनुष्यों के मामले में हम कहेंगे कि agents चालाक और कम नैतिक थे, इसलिए उन्होंने system का “दुरुपयोग” किया।
- मनुष्य यह पसंद नहीं करते कि उनका मूल्यांकन सिर्फ़ संख्याओं से हो, और वे ऐसे system के खिलाफ़ विद्रोह करते हैं और उसे manipulate करने की कोशिश करते हैं जो उन्हें स्क्रू की तरह कसता है।
  इसलिए वह quote बहुत सटीक बैठता है, और उसके बहुत गलत होने की गुंजाइश कम लगती है।
- ऐसे “नियम” approximations हैं और imperfect reductions हैं।
  कौन-सा उपयोगी है या explanatory power रखता है, यह specific case पर निर्भर करता है। Machine learning optimization, social media algorithm optimization, और standardized tests के ज़रिए education system optimize करना—ये सब अलग-अलग चीज़ें हैं।
  इन अलग-अलग स्थितियों पर बिल्कुल फिट बैठने वाला कोई perfect abstraction नहीं है, और वैसी precision की ज़रूरत भी नहीं। यह समझने के लिए intuition मिल जाए कि समस्या कहाँ पैदा होगी, वही काफ़ी है।
स्वीडन में पिछले लगभग 20 वर्षों में यह एक सामाजिक समस्या बन गया है।
1: Healthcare efficiency को primary care doctors के “completed tasks” से मापा गया, तो system बहुत से आसान cases निपटाने के लिए optimize हो गया। इसलिए डॉक्टर अक्सर सिर्फ़ सतही check करके statistically सही दवा—जैसे aspirin या antibiotics—देकर मरीज को घर भेज देते हैं, या मामला complex लगे तो specialist को refer कर देते हैं।
समस्या यह है कि efficiency बढ़ाने के चक्कर में primary care doctors कम होते गए और वे लगभग assembly-line workers जैसे बन गए; मरीजों से व्यक्तिगत संपर्क खत्म हो गया, जिससे यह संकेत पकड़ना मुश्किल हो गया कि कुछ गलत है। इसलिए cancer जैसी चीज़ें अक्सर बहुत देर से diagnose होती हैं, और specialized cancer treatment बेहतर हो जाने के बावजूद कई मामलों में तब तक कुछ किया नहीं जा सकता।
2: Railway system privatize हो गया, और transported freight volume देखें तो शायद यह बड़ी सफलता थी। लेकिन system में delayed trains को delay recover करने की गुंजाइश, या basic maintenance से अधिक कुछ करने का समय लगभग नहीं है; इसलिए delays आम हैं और अंततः बड़ी समस्याओं में बदल जाते हैं।
- Steve Jobs के शब्दों में, examples हर जगह हैं।
  “जब कोई company काफी बड़ी हो जाती है, तो वह अपनी शुरुआती सफलता को replicate करना चाहती है। हर कोई सोचता है कि पहली सफलता किस process से बनी थी। इसलिए वे उस process को पूरी company में replicate कर देते हैं। ज़्यादा समय नहीं लगता कि लोग process को ही content समझने लगते हैं।”
  यह छोटी companies से लेकर दुनिया की सबसे बड़ी governments तक पर लागू होता है। ज़्यादातर ने अपना content भुला दिया है।
- काश अमेरिकी railroads और healthcare industry के सामने सबसे बड़ी समस्या बस इतनी ही होती।
Queueing theory में भी इससे जुड़ा एक नियम है। Utilization 100% के करीब जाते ही waiting time अनंत की ओर diverge करता है।
Process, machine या engineer में कुछ slack न हो तो कुछ tasks हमेशा इंतज़ार ही करते रह जाते हैं।
- मुझे याद है, पहले मैंने एक लेख पढ़ा था कि cities suburbs या rural areas की तुलना में resources का बहुत efficient इस्तेमाल करती हैं।
  Waiting time वाली यह बात याद आते ही अब समझ आता है कि cities इतनी unpleasant क्यों लगती हैं। वजह है लगातार resource contention।
- मैं पहले एक factory में काम करता था, और planning stage में target utilization 80% था।
  Utilization को overestimate करें तो पैसे बर्बाद होते हैं, और underestimate करें तो “important नहीं” कामों की विशाल queues बनने लगती हैं।
- Optimization criteria में robustness metric शामिल किया जा सकता है।
  Unexpected situations संभालने लायक utilization slack रखने के लिए explicitly optimize किया जा सकता है। उदाहरण के लिए, system load को priority दें तो idle time में system को बेकार बैठाने की ज़रूरत नहीं; emergency में low-priority load drop करके slack बनाया जा सकता है।
  लेख क्या कहना चाहता है, यह समझ आता है, लेकिन इसका मतलब यह नहीं कि optimization को इतनी आसानी से छोड़ देना चाहिए।
- मुझे लगता है कि 100% efficient system में resilience नहीं होती।
  Subsystems में छोटी-सी disruption भी बड़े collapse में बदल जाती है। COVID-19 के कारण supply chain collapse में हमने इसका extreme version देखा। Car manufacturers ने लगभग 100% just-in-time production system बना लिया था, इसलिए chip shortage absorb नहीं कर पाए, और recover करने में सालों लग गए।
  Experiment करने की गुंजाइश भी खत्म हो जाती है। कोई भी experiment system के अंदर नहीं, सिर्फ़ बाहर ही संभव रह जाता है।
- सही बात है। मैंने कई workplaces और teams में काम किया है, और P0 नहीं होने वाले काम practically हमेशा के लिए अनसुलझे रह गए।
exercise physiology में भी इस approximate rule के उदाहरण मिलते हैं
आम लोगों के लिए fitness के कई अच्छे proxy indicators होते हैं। sprinting, standing jump, squat, clean and jerk वगैरह की training की जा सकती है। ज्यादा तेज दौड़ना, ज्यादा ऊँचा कूदना, ज्यादा भारी squat करना—ये सब fitness बढ़ने और training सफल होने के संकेत हैं
पहला, training method जितना ज्यादा general होगा, indicator उतना ही ज्यादा meaningful होगा। मसलन fitness का scale अगर “क्या आप कार को पहाड़ी पर धकेल सकते हैं” हो और training method sprinting व swimming हों, तो ज्यादा भारी कार धकेल पाना सफलता का मजबूत indicator है। उल्टा, अगर training method ही “कार धकेलने की practice” हो, तो वही सुधार fitness में उतने ही स्तर की बढ़ोतरी नहीं दिखाता
दूसरा, clean and jerk athlete की तरह athlete जितना ज्यादा specialized होगा, performance improvement उतना ही कम general fitness को दर्शाएगा। शून्य से hobby weightlifting level तक जाने की प्रक्रिया में overall strength और muscle mass बढ़ना शामिल होता है, लेकिन college athlete से Olympic level तक जाने की प्रक्रिया में आम तौर पर highly specialized fitness traits चाहिए होते हैं जो दूसरी activities में अच्छी तरह transfer नहीं होते
sports में कही जाने वाली base fitness और peak fitness भी शायद इसी तरह का metaphor हो सकती है। अस्थायी peak performance को गलती से train करना भी over-optimization का trap है। “line ऊपर जा रही है” को आँख मूँदकर follow करने से ऐसा हो सकता है, और fantastic optimization असल में आपको local maximum में फँसा सकती है। मुझे लगता है कि biology ही नहीं, machine learning optimization और social phenomena में भी इसके कई analogies हैं
- clean and jerk को लगभग “complete” movements में से एक माना जा सकता है
  खासकर अगर squat variations भी मिला दिए जाएँ। इसलिए यह शायद सबसे अच्छा example नहीं है। कोई व्यक्ति अपने body weight से ज्यादा weight के साथ कई बार clean and jerk कर सके और human fitness के ज्यादातर meaningful aspects में beast न हो—ऐसे किसी को मैं नहीं जानता
  human body एक machine है, और hormonal response पूरे शरीर में होता है। endurance और strength एक spectrum हैं, लेकिन पूरा शरीर साथ-साथ adapt करता है
- यह इस बात का ज्यादा संकेत है कि “general fitness” कोई strict metric नहीं है
  एक हद तक “physical ability” जैसा धुंधला concept ठीक है, लेकिन उसके बाद ability gains task-specific हो जाते हैं और दूसरे tasks में transfer नहीं होते, इसलिए उसका मतलब खोने लगता है
इसलिए GDP पर focus करना मुझे पसंद नहीं। मुझे लगता है quarterly life satisfaction और optimism surveys बेहतर metrics हैं
अगर GDP की बात करें, मेरी कार खराब हो जाए और मैं उसे repair कराऊँ तो GDP बढ़ता है। माता-पिता घर पर रहकर बच्चे पालें तो GDP घटता है। मैं अपना घर खुद साफ करूँ तो भी GDP घटता है
unemployment rate भी एक crude indicator है। इससे यह पता नहीं चलता कि वे jobs लोगों की desired jobs हैं, या वे महसूस करते हैं कि उन्हें मजबूरी में खराब काम करना पड़ रहा है
- मैं इस बात से बहुत असहमत नहीं हूँ कि GDP crude metric है; बस अपने विचार सुलझा रहा हूँ
  मुझे नहीं लगता कि किसी व्यक्ति की life satisfaction और optimism nation-state economy से—और वह भी इतना कि government उसे optimization target बना ले—इतनी strongly determined होनी चाहिए। government का काम security, prosperity और opportunity की conditions बनाना है, बिना बाकी दुनिया को oppress किए या पृथ्वी को destroy किए
  उन conditions के भीतर satisfying life ढूँढना मेरा काम है, और ऐसी life बहुत अलग-अलग economic और social structures में संभव है। इसी तरह शायद ऐसी कोई condition नहीं होगी जो हर citizen को universal satisfaction दे; तो फिर life satisfaction और optimism की कौन-सी summary statistic optimize करनी चाहिए?
- असली बात यह है कि आप क्या measure करते हैं, इससे फर्क नहीं पड़ता
- machine learning में हम हजारों quantities के vectors से deal करते हैं, लेकिन society और economy measure करते समय सिर्फ एक या कुछ numbers इस्तेमाल करते हैं—यह ironic है
  news, politicians, forums जैसी general discourse कुछ metrics तक सीमित रहकर हमेशा बहुत simplify हो जाती है। हजारों metrics वाली discourse आसानी से communicate करने के लिए बहुत complex है
  उम्मीद है कि किसी दिन ज्यादातर लोग implicitly मानेंगे कि metrics जितने कम हों, उतनी ज्यादा संभावना है कि वह कुछ छिपाने वाली simplification है। जैसे “X billionaire है, इसलिए smart है”, “X देश का GDP high है, इसलिए वह low GDP वाले Y देश से बेहतर है” वगैरह
- सहमत हूँ, और यह capitalism overall पर भी लागू होता है
  capitalism की जगह एक proposal और अतीत के failed central-planning alternatives का rough outline यहाँ है:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  संबंधित हिस्से को देखें तो, socialism की cornerstone planning और worker control हैं, लेकिन बहुत ambitious planning Soviet-style में fail हुई, और बहुत autonomous workplaces Yugoslavia-style में fail हुए। comprehensive planning न effective है न desirable, और workplace collectives तक decentralization social interests पहचानने के लिए economically बहुत fragmented है और planning पर असर डालने के लिए politically भी बहुत fragmented है। इसलिए core सवाल यह है कि state, planning, workplaces और उनके relationships को कैसे बदला जाए ताकि इस मुश्किल को हल किया जा सके
  capitalism और socialism दोनों की operating unit workplace है। capitalism में यह competing capital units का हिस्सा बनता है, और socialism में self-expansion के लिए private units बाहर कर दी जाती हैं, इसलिए workplace collectives common technologies, outputs, services, past history वगैरह के आधार पर practically organized “sectors” में आते हैं। ये sectors economic planning की key units बनते हैं, और traditionally mining, machinery, healthcare, education, transport जैसे state ministries के भीतर रहे हैं
  यहाँ radical innovation यह है कि ministries की planning authority और capacity को state के बाहर civil society में transfer किया जाए। पुरानी ministries constitutionally authorized होंगी लेकिन state के बाहर खड़ी रहेंगी, और हर sector के workplace representatives द्वारा elected और run किए जाने वाले sector councils के रूप में reorganize होंगी। central planning commission फिर भी national priorities के अनुसार हर sector को funds allocate करेगा, लेकिन जब workplace power sector level पर consolidate होगी तो state और workers के बीच power balance बदलेगा, और market problems को socialism के लिए ज्यादा उपयुक्त तरीके से handle किया जा सकेगा
  core बात inequality बढ़ाने वाले incentives और egalitarian investment bias के बीच balance है। हर workplace collective द्वारा कमाया गया surplus common या individual consumption बढ़ाने में इस्तेमाल हो सकता है, लेकिन reinvestment में नहीं। national priorities democratic processes और pressure के जरिए central planning level पर तय होती हैं, और sectoral investment allocations में translate होती हैं। sector councils अपने assigned workplace collectives में investment funds बाँटती हैं, लेकिन market-style decisions के विपरीत सबसे productive workplaces को और ज्यादा favor करके permanent gaps reproduce करने के बजाय, कमजोर collectives की productivity को बेहतर collectives के करीब लाना मुख्य criterion बनता है
  Hayek के दावे के विपरीत, information को systematically share होने से रोकने वाली चीज दरअसल capitalism है। private property और profit maximization का नतीजा यह है कि information competitive asset है, इसलिए उसे छिपाना चाहिए। इसके उलट socialism में information की active sharing operation की necessary condition है, और इसे sector councils की responsibility के रूप में institutionalize किया जाता है
मैं याद करने की कोशिश कर रहा था कि इस लेखक का नाम कहाँ सुना था
ये वही व्यक्ति हैं जिन्होंने 2015 में पहला generative diffusion model बनाया था
https://arxiv.org/abs/1503.03585
- मुझे ये Stephan Hoyer और Sam Greydanus के साथ 2019 में लिखे एक चतुर पेपर से याद हैं
  इसमें structural optimization करने की बात थी, जहाँ जिस structure को optimize करना है उसका वर्णन करने वाले physics model के repository, modifier और tuner के रूप में constrained neural networks का उपयोग किया गया था: https://arxiv.org/abs/1909.04240
  बहुत दिलचस्प approach है और पेपर भी बहुत अच्छी तरह लिखा गया है
chain restaurant में जाने की बात याद आती है
सब कुछ focus group से गुज़रकर optimize किया हुआ होता है, और अच्छे भोजन के लिए किसी overfitted proxy metric जैसा लगता है। ऐसा लगता है जैसे मैं एक खुली-खुली मशीन के अंदर हूँ जिसे इस तरह optimize किया गया है कि मेरे आने से मुनाफा निकले, और उसका restaurant होना लगभग गौण लगता है
जैसे कोई कहे, “नमस्ते! मेरा नाम Tracy है! आज शाम मैं आपकी server हूँ!” और कागज़ के tablecloth पर crayon से अपना नाम उल्टा बिल्कुल सही लिख दे। लगता है इस जगह को staff की individuality थोड़ी फिर से calibrate करनी चाहिए
मुझे लगता है यह तब भी लागू होता है जब managers work processes को over-optimize करने की कोशिश करते हैं
आखिरकार creative लोग interest खो देते हैं और काम असहनीय हो जाता है। मुझे लगता है workplace और जीवन में थोड़ी chaos ज़रूरी है
- मैं अक्सर जिन हिस्सों को करना नहीं चाहता, उन्हें हद से ज़्यादा optimize करने की कोशिश में कई side projects करने की अपनी इच्छा खुद ही खत्म कर देता हूँ
  बस अप्रिय हिस्सों को निपटाकर आगे बढ़ जाना चाहिए। फिर भी कम से कम कोई मुझे पैसे देकर भंवर में तो नहीं डाल रहा
अपने इलाके के बड़े hardware store में इस नियम का उदाहरण देखा
करीब 10 साल पहले उस store ने चोरी रोकने के लिए lock cages लगाए थे। शुरुआत में केवल महंगे सामान रखे जाते थे, और यह थोड़ा असुविधाजनक था लेकिन बहुत ज्यादा नहीं। अगर कोई customer 200 डॉलर से ज्यादा का high-end power tool खरीद रहा है, तो आम तौर पर 5 मिनट इंतज़ार करना स्वीकार कर सकता है
लेकिन कुछ साल बाद एक बदलाव आया जो लगभग निश्चित रूप से data-driven लगता था। अचानक यह समझ आने वाली कोई logic नहीं रह गई कि कौन-सी चीज़ locked है और कौन-सी खुली रखी गई है। अब 500 डॉलर का diagnostic tool shelf पर खुला पड़ा हो सकता है, जबकि 5 डॉलर का bulb ताले के पीछे हो सकता है
शायद यह database को चोरी से हुए cumulative loss के घटते क्रम में sort करने का नतीजा था। यानी उन चीज़ों को lock करना जो hardware store को सबसे ज्यादा पैसा खोवा रही थीं
नतीजा यह हुआ कि store का माहौल ऐसा पढ़ा जाने लगा जैसे “यह जगह मुनाफे पर इतनी केंद्रित है कि customers पर एक डिब्बा toothpick भी न चुराने का भरोसा नहीं कर सकती,” और customer के लिए अक्सर कर्मचारी का इंतज़ार करके cage खुलवाने लायक नहीं रह जाता
3 डॉलर के कुछ soap की चोरी रोक भी ली हो, तो भी संदेह है कि उस optimization से net profit में मदद मिली होगी
- pharmacy में glass display cabinet खोलने वाले किसी व्यक्ति को ढूँढने की तुलना में Amazon से खरीदना कहीं ज्यादा सुविधाजनक है
  basic items तक को glass cabinet में रखने वाली pharmacies में आम तौर पर staff भी कम होता है
- “चोरी के कारण hardware store को cumulative loss सबसे ज्यादा पहुँचाने वाली चीज़ों को lock करना” और “संदेह है कि उस optimization से net profit में मदद मिली होगी” — ये बातें सीधे विरोधाभासी लगती हैं
  जब तक आप सच में यह नहीं सोचते कि इसी वजह से लोगों ने उस store पर जाना छोड़ दिया और वह नुकसान चोरी में आई कमी से ज्यादा हो गया। ऊपर से, अगर लोग न भी जाएँ, तो competing local big-box hardware store भी शायद यही कर रहा होगा। यह भी याद रखना चाहिए कि retail margins आम तौर पर बड़े नहीं होते। अगर एक item चोरी हो जाए, तो नुकसान की भरपाई के लिए कितने और बेचने पड़ेंगे? भले ही कुछ customers Amazon पर चले जाएँ, चोरी से बचना फिर भी फायदे का हो सकता है
  असल में इसकी संभावना कहीं ज्यादा है कि इसका सबसे बड़ा असर चोरी कम करने पर पड़ा। “समझ आने वाली logic” न दिखना शायद इसलिए हो सकता है कि ऐसे मामलों का अनुभव नहीं है। चोरी अक्सर item की कीमत से ज्यादा उसकी resaleability पर निर्भर करती है। कोई महंगा niche power tool दोबारा बेचने में समय ले सकता है, लेकिन detergent और razor blades उसी दिन bulk में निकाले जा सकते हैं। लोग bulbs की तुलना में detergent और razor blades कहीं ज्यादा बार इस्तेमाल करते हैं
  असुविधा पसंद न आना समझ में आता है। लेकिन मेरे हिसाब से दोष store को नहीं, चोरों या चोरी को जन्म देने वाले कारणों को दिया जाना चाहिए