- AlphaEvolve एक Gemini-आधारित कोडिंग एजेंट है, जो उन्नत algorithm design से शुरू होकर गणित और computer science की open problems, Google infrastructure optimization, और science व industry की चुनौतियों तक अपना दायरा बढ़ा रहा है
- जीनोमिक्स में इसने DeepConsensus को बेहतर बनाकर variant detection errors को 30% कम किया, और power grid में AC Optimal Power Flow समस्या के लिए feasible solutions खोजने की दर को 14% से 88%+ तक बढ़ाने में योगदान दिया
- पृथ्वी विज्ञान में इसने Earth AI model optimization को automate करके wildfire, flood, tornado सहित 20 श्रेणियों की natural hazard risk prediction की overall accuracy को 5% बेहतर किया, और quantum physics में Willow quantum processor पर मौजूदा baseline से 10 गुना कम error वाले quantum circuits प्रस्तावित किए
- गणित में इसने Terence Tao के साथ Erdős समस्या के समाधान में योगदान दिया, Traveling Salesman Problem और Ramsey Numbers की lower bounds में सुधार किया, और interpretable neuroscience models, microeconomics, cryptography, synthetic data, तथा AI safety mitigations में भी उपयोग हुआ
- Google infrastructure में इसका उपयोग अगली पीढ़ी के TPU design, cache replacement policy, Google Spanner की LSM-tree compaction heuristics, और compiler optimization में हुआ; commercial deployment में इसने Klarna की training speed को 2x, FM Logistic की route efficiency को 10.4%, और Schrödinger की MLFF training व inference speed को लगभग 4x बढ़ाया
सामाजिक प्रभाव और स्थिरता
-
जीनोमिक्स
- AlphaEvolve का उपयोग Google Research द्वारा विकसित DNA sequencing error-correction model DeepConsensus को बेहतर बनाने में किया गया, जिससे variant detection errors में 30% कमी आई
- इस सुधार से PacBio के वैज्ञानिकों को genetic data का अधिक सटीक और कम लागत पर विश्लेषण करने में मदद मिलती है
- PacBio के Aaron Wenger ने कहा कि AlphaEvolve द्वारा खोजा गया समाधान sequencing उपकरणों की accuracy को अर्थपूर्ण रूप से बढ़ाता है, जिससे शोधकर्ता उच्च गुणवत्ता वाले data के साथ पहले छिपे हुए disease-causing mutations खोज सकेंगे
-
पावर ग्रिड optimization
- AlphaEvolve को AC Optimal Power Flow problem पर लागू किया गया
- प्रशिक्षित Graph Neural Network(GNN) model ने इस समस्या के लिए feasible solutions खोजने की दर को 14% से 88%+ तक बढ़ाने में योगदान दिया
- इससे power grid में महंगे post-processing चरणों की आवश्यकता काफी कम हो गई
-
पृथ्वी विज्ञान
शोध की अग्रिम पंक्ति में प्रगति
-
quantum physics
- AlphaEvolve की optimization ने Google के Willow quantum processor पर complex molecular simulations चलाना संभव बनाया
- इसने conventional optimization baseline की तुलना में 10 गुना कम error वाले quantum circuits प्रस्तावित किए, जिससे अपनी तरह के पहले quantum computing experimental demonstration में तुरंत योगदान मिला
- यह उपलब्धि दिखाती है कि AlphaEvolve भविष्य में classical computers की क्षमता से आगे जाने वाले algorithms खोजने की दिशा खोल सकता है
-
गणित
- AlphaEvolve ने Terence Tao जैसे गणितज्ञों के साथ Erdős समस्या के समाधान में योगदान दिया
- Terence Tao ने कहा कि AlphaEvolve जैसे tools, खासकर optimization problems में, संभावित inequalities के counterexamples को तेजी से test करने या extremal objects के बारे में विश्वास की पुष्टि करने में मदद करते हैं, जिससे intuition बेहतर होती है और rigorous proofs ढूँढना आसान हो जाता है
- AlphaEvolve ने Traveling Salesman Problem और Ramsey Numbers जैसे classical mathematical challenges की lower bounds में सुधार कर नए records बनाए
-
अन्य शोध क्षेत्र
AI infrastructure में सुधार
- AlphaEvolve pilot tests से आगे बढ़कर Google infrastructure का एक मुख्य घटक बन गया है
- इसका उपयोग अगली पीढ़ी के TPU design को optimize करने के लिए एक नियमित tool के रूप में किया जा रहा है
- इसने अधिक कुशल cache replacement policy खोजी, जिससे वह काम जिसे पहले महीनों की गहन मानवीय मेहनत चाहिए थी, केवल दो दिनों में पूरा हो गया
- Jeff Dean ने कहा कि AlphaEvolve ने AI stack को चलाने वाले hardware के सबसे निचले स्तर को optimize करना शुरू कर दिया है, और इसने ऐसे circuit designs सुझाए जो intuitive नहीं थे लेकिन अधिक efficient थे, और उन्हें सीधे अगली पीढ़ी के TPU silicon में integrate किया गया
- AlphaEvolve ने Google Spanner की Log-Structured Merge-tree compaction heuristics में सुधार कर efficiency बढ़ाई
- इस optimization ने write amplification — यानी मूल request की तुलना में storage पर लिखे जाने वाले data के अनुपात — को 20% कम किया
- AlphaEvolve ने नई compiler optimization strategy के लिए भी insight दिया, जिसने software की storage usage को लगभग 9% कम किया
commercial deployment का विस्तार
- Google Cloud के साथ AlphaEvolve को कई industries की commercial companies तक पहुँचाया जा रहा है
- financial services में Klarna ने AlphaEvolve का उपयोग अपने एक large transformer model को optimize करने के लिए किया, जिससे model quality बेहतर हुई और training speed 2x हो गई
- semiconductor manufacturing में Substrate ने AlphaEvolve को अपने computational lithography framework में लागू किया, जिससे runtime कई गुना तेज हुआ और अधिक बड़े पैमाने की advanced semiconductor simulations चलाना संभव हुआ
- logistics में FM Logistic ने Traveling Salesman Problem जैसे complex routing problems को optimize किया, जिससे पहले से काफी optimized solution की तुलना में route efficiency 10.4% बेहतर हुई और सालाना 15,000km+ यात्रा दूरी बची
- advertising और marketing में WPP ने AlphaEvolve से AI model components को refine किया और complex high-dimensional campaign data को संभाला, जिससे competitive manual model optimization की तुलना में accuracy 10% बेहतर हुई
- computational materials और life sciences में Schrödinger ने AlphaEvolve को लागू कर Machine Learned Force Fields(MLFF) की training और inference, दोनों में लगभग 4x speedup हासिल किया
- Schrödinger के Gabriel Marques ने कहा कि तेज MLFF inference drug discovery, catalyst design, और materials development की R&D cycle को कम कर सकती है, जिससे कंपनियाँ molecular candidates को महीनों के बजाय दिनों में shortlist कर सकती हैं और वास्तविक business impact पैदा कर सकती हैं
आगे की दिशा
- पिछले एक वर्ष में AlphaEvolve तेज़ी से एक multi-purpose general system के रूप में स्थापित हुआ है
- यह दिखाता है कि अगला breakthrough ऐसे algorithms द्वारा संचालित हो सकता है जो स्वयं सीखें, evolve करें और optimize करें
- Google DeepMind AlphaEvolve की capabilities का विस्तार कर उसे और व्यापक बाहरी चुनौतियों पर लागू करना चाहता है
1 टिप्पणियां
Hacker News की राय
Antirez का "Don't fall into the anti-AI hype" [0] याद आता है
एक लाइन में कहें तो, ऐसे foundation models वास्तव में उन problem spaces को optimize करने में बहुत मजबूत हैं जो बहुत high-level होने के साथ-साथ बहुत अच्छी तरह defined भी हों, जैसे “matrix multiplication को और तेज़ करो”. Antirez के मामले में यह “Redis को और तेज़ करो” था
प्रतिक्रिया “मेरे काम में यह कभी काम नहीं करेगा” और “जिस काम में महीनों लगते, वह एक घंटे में हो गया” के बीच बंटी हुई थी, और मुझे लगता है दोनों ही सही हैं. यह खुशी की बात है कि Antirez बाद में भी परिणाम दे रहे हैं [1], लेकिन ज़्यादातर लोगों का काम, जिसमें बहुत-सा tacit knowledge होता है, जो human systems पर केंद्रित होता है, और जो अस्पष्ट रूप से defined होता है, उसे LLM संभालने में कठिनाई होती है, या शायद वे शुरू से उस काम के लिए बने ही नहीं थे
[0] https://antirez.com/news/158
[1] https://antirez.com/news/164
जल्द ही सभी meetings रिकॉर्ड और transcribe की जाएँगी, और उन्हें ऐसी अच्छी तरह indexed जगहों पर रखा जाएगा जहाँ agent अस्पष्टता मिलने पर खोज सकेगा. अगर वह आज सवाल पूछ सकता है, तो ऐसे माहौल में वह खुद जवाब भी खोज सकेगा. दरअसल, अगर आपके पास अच्छी तरह documented Notion/Confluence है, to वह यह अभी भी करता है, बस ऐसे संगठन बहुत कम हैं
“ambiguity की पहचान” के लिए reinforcement learning करना performance algorithms के लिए RL करने से कठिन होगा, लेकिन असंभव नहीं, और मुझे लगता है यह पहले से चल रहा है. अब बस समय की बात है
mainstream से हटकर नए algorithms invent करने में वे कमज़ोर हैं, और अक्सर हैरान कर देने वाले short-term shortcuts घुसा देते हैं. अभी वे एक tool हैं, tool को निपुणता से चलाने वाले कारीगर नहीं. यह धीरे-धीरे बदलेगा, और rare algorithms के जीतने की जगह भी कम होती जाएगी
औसतन कौन-सी चीज़ जीतेगी, यह तय करना सच में मुश्किल है
AI CEOs को यह कहने का शौक है कि AI cancer ठीक कर देगा, लेकिन वास्तव में ऐसे research problems पर गंभीरता से जुटा हुआ मुझे DeepMind ही दिखता है
OpenAI और Anthropic ज़्यादातर enterprise revenue और coding revenue के पीछे भागते दिखते हैं
क्या Googlers, Claude Code या Codex की जगह Gemini coding agent इस्तेमाल करके संतुष्ट हैं? तंज नहीं कर रहा, सच में जानना चाहता हूँ
अभी भी UI/UX/tools की तरफ़ कुछ चीज़ें दुरुस्त की जा रही हैं, version control system integration, और कुछ गहरे मुद्दे हैं जिन पर खुलकर बात करना कठिन है, लेकिन मुझे लगता है ज़्यादातर शिकायतें असली capability से ज़्यादा change velocity से जुड़ी हैं
दिलचस्प बात यह है कि अंदर कई प्रभावशाली लोग Pro model से ज़्यादा Flash model को पसंद करने की बात ज़ोर देकर कहते हैं. यह सही है या नहीं, उससे अलग, यह देखना दिलचस्प है कि अब “बेहतर” model ज़रूरी नहीं कि ज़्यादा उपयोगी भी हो; शायद तेज़ model और बेहतर harness का combination ज़्यादा अच्छा tradeoff हो सकता है
लगातार timeouts, अजीब failure modes, mode बदलने के लिए नया chat शुरू करने की मजबूरी जैसी समस्याएँ हैं. हालाँकि यह Gemini model की समस्या कम और extension की समस्या ज़्यादा लगती है
VS Code extension वाली बात छोड़ दें, to असली problem-solving के लिहाज़ से तीनों premier models मेरे उपयोग के लिए शानदार coding agents हैं
Gemini शायद सबसे अच्छा coding agent न हो, लेकिन दूसरे कामों में बहुत अच्छा हो सकता है
जैसे यह tools को call करने का तरीका पूरी तरह भूल जाता है, बहुत समय बर्बाद करता है और अंत में हार मान लेता है, या AGENTS.md जैसी किसी file में दिए code style guidelines को पूरी तरह नज़रअंदाज़ कर देता है
Gemma 4 को local में चलाने का मेरा अनुभव भी ऐसा ही था. एक-दो बार tool call करने के बाद यह मनमाने तरीके से call करने लगता है. कल ही मैंने इसे
read_file(start, end)जैसे tool कोread_file(start, number_of_bytes)के रूप में फिर से define करते देखा, और यह अपनी गलती की संभावना मानने को भी तैयार नहीं थाअगर AI खुद, या कम-से-कम जिस architecture पर वह चल रहा है, उसे बेहतर बनाता है, to लोग जैसे कहते हैं वैसा singularity क़रीब माना जा सकता है
synthetic data generation या model testing के अलावा, क्या AI को LLM सुधारने के लिए इस्तेमाल करने के और उदाहरण हैं?
ज़्यादा efficient transformer केवल run cost घटाता है
“AI AI को सुधार रही है” कहने के लिए, एक पीढ़ी की AI को अपने से मूल रूप से अधिक सक्षम अगली पीढ़ी की AI design करनी होगी. केवल उसे तेज़ या सस्ता बनाना काफ़ी नहीं; यह ऐसा होना चाहिए जैसे reptilian brain, autonomously mammalian brain design कर दे
AlphaEvolve जैसे smart harness से जोड़ देने पर भी, मुझे नहीं लगता LLM में ऐसी creativity है. हाँ, अपवाद तब हो सकता है जब अगली पीढ़ी की architecture ऐसी component combinations में छिपी हो जिन्हें LLM predict कर सके
ज़्यादा संभावित रास्ता यह लगता है कि AGI की दिशा में कुछ और चरणों की human innovation के बाद, prompt-based combinatorial generation नहीं बल्कि autonomous innovation करने वाली AI सामने आए
क्या ऐसा नहीं हो सकता कि बहुत कड़े constraints हों जो singularity को असंभव बना दें, या समय-सीमा इतनी लंबी हो कि वह व्यावहारिक न रहे?
सभी बड़े AI labs research agents, खासकर AI improvement agents पर बड़े projects चला रहे हैं, और मुझे उम्मीद है कि इस साल उनमें से कई experimental stage से बाहर निकल जाएँगे
अगले साल वे सच में बहुत-सा काम करेंगे, और मुझे लगता है AI द्वारा सह-आविष्कृत पहली बड़ी valid architectural change सामने आएगी
Erdős problem की बात और कितनी बार सुननी पड़ेगी :) पहले यह मानवता की महान उपलब्धि जैसा लगता है, लेकिन समय के साथ यह बार-बार लौट आती है
इस बीच Gemini CLI महीनों से टूटा हुआ है
https://github.com/google-gemini/gemini-cli/issues/22141
काश Google, Gemini 3.x models को general availability में लाने पर ध्यान दे, और इतनी capacity दे कि 429 errors से लगातार लड़ना न पड़े
कई बार ऐसा लगता है जैसे वे Vertex API पर enterprise ग्राहकों के लिए applications बनाना ही हतोत्साहित कर रहे हों. यह और भी खलता है क्योंकि document analysis जैसी चीज़ों में model सच में शानदार रहा है
सभी *Evolve papers के results बहुत प्रभावशाली हैं, लेकिन सार्वजनिक जानकारी देखते हुए मुझे यह लगा कि ध्यान LLM और AI पर चला जाता है
जबकि reported achievements लगभग हमेशा ऐसे environments का नतीजा होती हैं जो LLM और evolutionary algorithms के अच्छे प्रदर्शन के लिए बहुत सावधानी से design किए गए होते हैं
यह paper उसका अच्छा उदाहरण है और पढ़ने लायक है
Magellan: Autonomous Discovery of Novel Compiler Optimization Heuristics with AlphaEvolve
https://arxiv.org/abs/2601.21096
algorithms को बेहतर करने का यह बहुत simple solution है. काश activation engineering करते समय कुछ साल पहले यह मौजूद होता: https://blog.n.ichol.ai/llm-activation-engineering-an-easy-f...
AlphaEvolve तक पहुँचा कैसे जा सकता है?
Claude के साथ मेरी समस्या यह रही कि वह simple tasks में भी code और output को बेवजह फुला देता है, और कभी-कभी वह चलता भी नहीं
Gemini अक्सर ठीक उतने code और न्यूनतम complexity के साथ working solution देता है जितनी ज़रूरत हो, इसलिए उसे maintain करना आसान रहता है
इन दिनों मैं Claude को मुख्यतः frontend code, खासकर HTML के लिए ढूँढता हूँ. यहाँ भी CSS code बहुत ज़्यादा होता है और file size का लगभग 60% ले लेता है, लेकिन फिर भी वह थोड़ी अधिक polished feeling देता है, इसलिए file size बढ़ना मैं बर्दाश्त कर लेता हूँ