AlphaGenome: जीनोम को बेहतर समझने के लिए AI

(deepmind.google)

1 पॉइंट द्वारा GN⁺ 2025-06-27 | 2 टिप्पणियां | WhatsApp पर शेयर करें

Google DeepMind ने AlphaGenome नाम का एक नया DNA sequence AI model पेश किया है
यह model gene regulatory variants के प्रभाव की भविष्यवाणी में अधिक सटीकता देता है और विभिन्न gene regulation प्रक्रियाओं का अनुमान लगा सकता है
इसकी खासियत यह है कि यह DNA sequence के 10 लाख base pairs तक इनपुट लेकर विभिन्न जैविक घटनाओं की high-resolution भविष्यवाणी कर सकता है
मौजूदा models से अलग, यह विभिन्न जैविक ऊतकों और cell types में variants के प्रभाव का एक साथ आकलन कर सकता है
उम्मीद है कि AlphaGenome शोधकर्ताओं को gene function और disease biology समझने में मदद करेगा और नई therapies की खोज को तेज करेगा

AlphaGenome का परिचय

Google DeepMind ने AlphaGenome नाम का एक नया DNA sequence AI model पेश किया है
यह model gene regulation को प्रभावित करने वाले single variants या mutations के प्रभाव की सटीक भविष्यवाणी करके genome function research और disease understanding में एक महत्वपूर्ण मोड़ प्रदान करता है
यह research purpose के लिए API के माध्यम से पहले से उपलब्ध है, और आगे चलकर model को भी सार्वजनिक करने की योजना है

AlphaGenome कैसे काम करता है

AlphaGenome अधिकतम 10 लाख base pairs तक के लंबे DNA sequence को input के रूप में लेकर विभिन्न molecular properties की भविष्यवाणी करता है
जिन properties की भविष्यवाणी की जा सकती है, उनमें gene positions, RNA production, DNA accessibility, protein binding sites सहित हजारों विशेषताएँ शामिल हैं
model को ENCODE, GTEx, 4D Nucleome, FANTOM5 जैसे बड़े public datasets पर प्रशिक्षित किया गया है
अंदरूनी तौर पर यह पहले convolution layers से छोटे patterns पहचानता है, फिर transformer के जरिए पूरे sequence की जानकारी को जोड़ता है, और उसके बाद विभिन्न predictions निकालता है
distributed TPU environment में बड़े पैमाने की computation संभालकर training efficiency बढ़ाई जाती है
यह पहले के Enformer model से आगे बढ़ा हुआ है, और protein-coding regions पर केंद्रित AlphaMissense से अलग non-coding regions (पूरे genome का 98%) तक व्यापक विश्लेषण करता है

AlphaGenome की विशेषताएँ

अल्ट्रा-हाई-रिज़ॉल्यूशन, long-range sequence analysis : यह 10 लाख base pairs के स्तर पर विश्लेषण करता है और single-base स्तर की precision के साथ परिणाम देता है
मौजूदा models की तुलना में इसकी training efficiency अधिक है और यह कम resources में तेजी से train होता है
integrated multimodal prediction : gene regulation के विभिन्न चरणों की जानकारी एक ही model में साथ-साथ predict की जाती है
efficient variant scoring : mutated sequence और normal sequence की तुरंत तुलना करके विभिन्न जैविक घटनाओं पर variant impact को तेजी से गणना करता है
innovative splice junction modeling : यह gene splicing positions और expression levels की सीधे भविष्यवाणी करता है, जिससे rare disease research में भी मदद मिलती है

उन्नत प्रदर्शन और benchmark परिणाम

AlphaGenome ने genome prediction benchmarks के 24 में से 22 और variant regulatory effect evaluation के 26 में से 24 में बाहरी सर्वोत्तम models से बेहतर या समान प्रदर्शन हासिल किया
यह ऐसा एकमात्र model है जो अलग-अलग tasks के लिए specialized models की तुलना में विभिन्न प्रकार की जैविक विशेषताओं को एक ही API call से साथ-साथ predict कर सकता है

integrated model के फायदे

कई modalities को एक साथ संभालने की क्षमता के कारण वैज्ञानिक विभिन्न hypotheses और experiments को तेज़ी से दोहरा सकते हैं
यह DNA sequence की सामान्य representation सीखता है, जिससे community के लिए आगे training और optimization करना आसान हो जाता है
अतिरिक्त data या application scope जोड़कर बढ़ाए जा सकने वाली flexibility और scalability प्रदान करता है

एक शक्तिशाली research tool के रूप में महत्व

disease understanding : rare variants जैसे कारणों की पहचान और therapeutic targets की खोज में उपयोग की संभावना
synthetic biology : विशेष कार्यों वाले synthetic DNA design में उपयोग संभव
basic research : genome के मुख्य functional elements की mapping और cell-specific regulatory elements की खोज में समर्थन
वास्तव में AlphaGenome ने T-ALL (acute lymphoblastic leukemia) से जुड़े एक variant के MYB DNA binding motif बनाने के कारण पास के TAL1 gene को सक्रिय करने की भविष्यवाणी की, और इस तरह disease gene पर उसके प्रभाव के mechanism को सफलतापूर्वक दोहराया

वर्तमान सीमाएँ

1 लाख base pairs से अधिक दूर स्थित बहुत दूर के regulatory elements के प्रभाव को समझना अभी भी चुनौती है
cell और tissue-specific pattern recognition पर भी अतिरिक्त research की जरूरत है
personal genome prediction (व्यक्तिगत diagnosis/prediction) के उपयोग पर अभी विचार नहीं किया जा रहा है
यह केवल molecular स्तर की prediction कर सकता है और सभी diseases के जटिल कारणों को पूरी तरह नहीं समझा सकता
फिलहाल यह research announcement के चरण में है, इसलिए सीधे clinical suitability assessment या treatment application अभी संभव नहीं है

community support और आगे की दिशा

API को non-commercial research purpose के लिए तुरंत इस्तेमाल किया जा सकता है, और research community के साथ व्यापक सहयोग के जरिए AlphaGenome की उपयोगिता बढ़ाने की योजना है
community forum आदि के माध्यम से feedback और use cases प्राप्त किए जा रहे हैं
आगे चलकर अधिक data, species और modalities जोड़कर expanded versions लाए जाने की योजना है
genome interpretation से जुड़ी नई medical और life science research innovations को बढ़ावा मिलने की उम्मीद है

निष्कर्ष

AlphaGenome एक नया AI-आधारित genome analysis tool है जो एक साथ कई दृष्टिकोणों से genetic variants के अर्थ की व्याख्या करता है और basic व clinical research को तेज़ कर सकता है
बाहरी विशेषज्ञ समूहों के साथ सहयोग करके, अधिक से अधिक लोगों तक genome data-आधारित innovation पहुँचाने की योजना है

2 टिप्पणियां

galadbran 2025-06-27

जीन prediction को संभालने वाले AI model की मल्टीमोडैलिटी में आखिर कौन-कौन सी modalities शामिल होती हैं? यह जिज्ञासा हुई, तो मैंने o3 से पूछा। उसने बताया कि transcription level, transcription start/end positions, splicing वगैरह को modalities कहा जाता है.

GN⁺ 2025-06-27

Hacker News राय

यह इस बात का संकेत लगता है कि कॉरपोरेट दबाव बढ़ रहा है: मॉडल इतना छोटा है कि एक single A100 पर चल सकता है, फिर भी न code public किया गया है, न parameters; इसे सिर्फ API के पीछे चलाया जा रहा है, और paper के page 31 पर पूरे मॉडल को pseudo-code के रूप में लगभग copy-paste करके डाल दिया गया है। Google/Demis/Sergei से कम-से-कम parameters ही public करने की इच्छा जताई गई। ऐसा छोटा मॉडल अगर सिर्फ API के पीछे ही रहे, तो इससे cancer तक का इलाज हो पाएगा, ऐसा नहीं लगता, और न ही GCloud revenue बहुत बड़ा बनने वाला है।
cell simulation क्षेत्र में breakthrough आने से ऐसी simulations की उम्मीद है जो molecular dynamics जितनी उपयोगी हों, लेकिन आधुनिक supercomputers पर चलाने लायक भी हों। यह महसूस किया गया कि अंदर वास्तव में क्या हो रहा है, इसे देख न पाना life science research की सबसे बड़ी बाधाओं में से एक है।
- Arc वास्तव में इसी काम को करने की कोशिश कर रहा है; अधिक जानकारी arcinstitute.org की संबंधित खबर में देखी जा सकती है।
- यह भी राय है कि इस हिस्से को शायद quantum computing हल कर सके, लेकिन इसमें अभी लगभग 10 साल लग सकते हैं। AI acceleration का अनुमान लगाना कठिन है।
- इच्छा जताई गई कि सचमुच deterministic simulations बनाने की कोशिशें और बढ़ें। सिर्फ result दिखाने वाले black box की तुलना में, अंदर की प्रक्रिया को उजागर करने वाला तरीका अधिक महत्वपूर्ण माना गया।
सिर्फ DeepMind ही high-impact AI application research नहीं कर रहा, फिर भी इस क्षेत्र में वह इतना अलग क्यों दिखता है, इस पर सवाल उठा—क्या यह शानदार tech marketing है, या कोई और वजह?
- राय यह रही कि यह paper अच्छी तरह किया गया research है, लेकिन इसे revolutionary breakthrough कहना मुश्किल है, क्योंकि इसी तरह के प्रयास लंबे समय से चल रहे हैं।
- DeepMind यह काम लंबे समय से कर रहा है, और Google के विशाल resources उसका सहारा हैं। Perplexity के अनुसार AlphaFold 2 database बनाने में “millions of GPU hours” लगे।
- life science क्षेत्र में Arc Institute बहुत ताज़ा और दिलचस्प research कर रहा है, और pharma कंपनियों में Genentech या GSK के AI groups अच्छे नतीजे दे रहे हैं।
- यह भी माना गया कि Google के अंदर होने के कारण 2 trillion dollar company का support सिर्फ marketing से कहीं ज़्यादा फ़ायदा देता है।
input size को मानव genome के आकार 3.2Gbp तक बढ़ाने की कल्पना दिलचस्प लगी, क्योंकि इससे रोचक interactions सामने आ सकते हैं। यह भी दिलचस्प लगा कि U-net और transformer research के केंद्र में हैं।
- जवाब में कहा गया कि वास्तव में 2 megabase से अधिक की शायद ज़रूरत नहीं है, क्योंकि genome एक single continuous sequence नहीं है; यह chromosome और topologically associated domain units में भौतिक रूप से अलग और व्यवस्थित होता है। लगभग 2 megabase में cis regulatory element और effector gene के बीच होने वाले लगभग सभी प्रमुख interaction ranges आ जाते हैं।
- “सब कुछ U-net और transformer के इर्द-गिर्द घूम रहा है” वाली बात पर “जिसके पास सिर्फ hammer हो” वाला नज़रिया याद दिलाया गया।
यह अनुमान लगाया गया कि कंपनियों के भीतर genome data का उपयोग करके ad efficiency बढ़ाने के ideas भी आएंगे। उदाहरण के लिए, अगर colon cancer risk दिखे तो “colon health supplement” का ad दिखाया जाए; या genetic information से tendency का analysis करके “यह gene black humor पसंद करने की प्रवृत्ति से संबंधित है, तो इस gene वाले लोगों को नई film promote करो” जैसी marketing strategies संभव मानी गईं।
RNA prediction performance में बड़ी छलांग mRNA labs के लिए बड़ा अवसर ला सकती है।
- (उसके तुरंत बाद आए जवाब में कहा गया कि यह प्रभाव अमेरिका के बाहर के क्षेत्रों में और भी स्पष्ट हो सकता है।)
2008 में Google join करने के तुरंत बाद life science में बड़े निवेश की वकालत की गई थी। विश्वास था कि Google data processing और ML capability के आधार पर विश्वस्तरीय परिणाम दे सकता है और ऐसी methods बना सकता है जिन्हें दूसरे biologists भी दोहरा सकें। वास्तव में exacycle के ज़रिए protein folding/design में दिलचस्प परिणाम आए, और बाद में Cloud Genomics लॉन्च करके बड़े datasets के storage/analysis की service भी शुरू हुई। अंततः DeepMind ने उस कल्पित लक्ष्य को कहीं ज़्यादा शानदार तरीके से साकार किया। हालिया paper में देखने लायक चीज़ें इतनी ज़्यादा हैं कि community को उसे पचाने में समय लग सकता है।
- इस राय से सहमति जताई गई कि Sundar, Google CEO के रूप में, प्रेरक leader नहीं माने जा सकते; लेकिन यह भी कहा गया कि 2015 में उनके कार्यभार संभालने से पहले quarterly profit 3B था, जो 2025 Q1 में 35B तक पहुँचा—यानी 10 गुना वृद्धि। उन्होंने ad business को मज़बूती से पकड़े रखा और आज की profitability बनाई। AI transition में थोड़ी देर हुई, लेकिन Gemini आदि के साथ कंपनी प्रतिस्पर्धी लगती है। DeepMind की उपलब्धियाँ भी असाधारण हैं। निष्कर्ष यह रहा: “Sundar hype कम बनाते हैं, लेकिन execution बहुत मज़बूत है।”
- “पुरानी इच्छा पूरी होकर खुशी हो रही है” वाली टिप्पणी कुछ आत्ममुग्ध लगी, ऐसी प्रतिक्रिया भी आई। कहा गया कि ज़्यादातर लोगों के पास भी बड़े ideas होते हैं, लेकिन “आख़िरकार! मेरा idea दुनिया में…” जैसी बात कहना थोड़ा अटपटा लगता है।
- किसी ने पूछा कि क्या पहले Santa Cruz shuttle में इसी विषय पर कभी बातचीत हुई थी; उस समय की चर्चा बहुत दिलचस्प लगी थी और AlphaGenome आने पर अब भी उत्साह बना हुआ है।
- एक मौजूदा Googler के नज़रिए से Sundar को लेकर भावनाएँ काफ़ी मिश्रित हैं। AI क्षेत्र में शुरुआती दौर से infrastructure और tools में निवेश का श्रेय दिया गया, लेकिन Demis की तुलना में Jeff Dean को अधिक credit मिलना चाहिए, ऐसा भी कहा गया।
paper की सबसे बड़ी समस्याओं में से एक यह मानी गई कि उसने highly associated DNA regions के भीतर सचमुच causal variants और non-causal variants को अलग करने वाले काम—जिसे genetics में fine mapping कहा जाता है—को नज़रअंदाज़ कर दिया। effective drug target के लिए core regulatory regions को बहुत सटीक रूप से narrow down करना बेहद महत्वपूर्ण है। हाल की Nature paper में इस समस्या का उदाहरण और autoimmunity में macrophage function regulation के लिए candidate drug तक जुड़ा मामला दिखाया गया है।
- सवाल उठाया गया कि क्या यह परिणाम उस दिशा में एक कदम है। गहरी domain expertise न होने पर भी यह अनुमान लगाया गया कि अगर functional prediction बेहतर होती है, तो वास्तव में महत्वपूर्ण variants और अर्थहीन variants के बीच फ़र्क करना आसान हो सकता है। अगला कदम शायद सही statistical fine mapping methods के साथ integration होगा।