1 पॉइंट द्वारा GN⁺ 2024-07-14 | 1 टिप्पणियां | WhatsApp पर शेयर करें

परिचय

यह लेख किन लोगों के लिए है

  • जो AlphaFold3 के काम करने के तरीके को समझना चाहते हैं
  • जो जटिल संरचनाओं को विज़ुअल तरीके से समझना चाहते हैं
  • जो machine learning से परिचित हैं

आर्किटेक्चर का अवलोकन

  • AlphaFold3 protein, nucleic acid, small molecule आदि की संरचना का पूर्वानुमान करता है
  • जटिल input types को संभालने के लिए यह अधिक जटिल featurization/tokenization तरीका इस्तेमाल करता है

इनपुट तैयारी

टोकनाइज़ेशन

  • मानक amino acid: 1 token
  • मानक nucleotide: 1 token
  • गैर-मानक amino acid/nucleotide: प्रति token 1 atom
  • अन्य molecule: प्रति token 1 atom

खोज (MSA और template निर्माण)

  • समान sequence खोजकर MSA और template बनाए जाते हैं
  • Euclidean distance की गणना के बाद उसे distogram में बदला जाता है

atom-स्तरीय representation बनाना

  • प्रत्येक amino acid, nucleotide, ligand के लिए "reference structure" बनाया जाता है
  • atom-स्तर की single representation (q) और pair representation (p) बनाई जाती है

atom-स्तरीय representation अपडेट (Atom Transformer)

  • बेहतर representation बनाने के लिए q और p को अपडेट किया जाता है
  • Adaptive LayerNorm, Attention with Pair Bias, Conditioned Gating, Conditioned Transition का उपयोग होता है

atom-स्तर -> token-स्तर aggregation

  • atom-स्तर की representation को token-स्तर में बदला जाता है
  • MSA और user द्वारा दी गई जानकारी जोड़ी जाती है

representation learning

template module

  • template का उपयोग करके z को अपडेट किया जाता है

MSA module

  • MSA और z को अपडेट किया जाता है
  • Outer Product Mean, Row-wise Gated Self-Attention Using Only Pair Bias का उपयोग होता है

Pairformer module

  • s और z को अपडेट किया जाता है
  • Triangle Updates, Triangle Attention का उपयोग होता है

संरचना पूर्वानुमान

diffusion के मूल सिद्धांत

  • diffusion model का उपयोग करके संरचना का पूर्वानुमान किया जाता है
  • noise जोड़कर और हटाकर अंतिम संरचना बनाई जाती है

GN⁺ का सार

  • AlphaFold3 protein, nucleic acid, small molecule आदि की जटिल संरचनाओं का पूर्वानुमान करता है
  • विज़ुअल डायग्राम के साथ जटिल model structure को समझाकर समझने में मदद करता है
  • यह machine learning और biotechnology क्षेत्रों में महत्वपूर्ण प्रगति हासिल करने वाला model है
  • समान कार्यक्षमता वाले प्रोजेक्ट्स में RosettaFold आदि शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-07-14
Hacker News राय
  • यह अच्छा लगा कि इस लेख ने पेपर का अनुवाद किया ताकि structural biologists इसे समझ सकें

  • पता चला कि PTM की संख्या सीमित होने के कारण AF3 को सभी atoms को अलग-अलग tokens के रूप में प्रोसेस करना पड़ता है

  • शायद ऐसा इसलिए है क्योंकि PDB में PTM बहुत कम दिखाई देते हैं

  • यह एक ऐसा लेख है जो भविष्य में neural networks और AI तकनीकों को कैसे लागू किया जाएगा, इसकी झलक दिखाता है

  • इसमें बहुत सारी engineering और मौजूदा तकनीकों की चतुर हेरफेर को एक शक्तिशाली और अच्छी तरह प्रशिक्षित model के साथ जोड़ा गया है

  • अभी ChatGPT जैसी चीज़ें data generalization और processing के foundational models बनाने के पहले चरण में हैं

  • input को इस तरह प्रोसेस करने पर अभी बहुत काम नहीं हुआ है कि model उसे सर्वोत्तम रूप से समझ सके

  • इस क्षेत्र पर बुनियादी शोध तो है, लेकिन Alphafold जितना परिष्कृत कुछ अभी नहीं है

  • लोग input processing में मदद के लिए LLMs को जोड़ रहे हैं और system prompts का उपयोग कर रहे हैं

  • जब और अधिक जटिल systems आएँगे, तो संभव है कि हम सच्चे AGI जैसी किसी चीज़ को देखें

  • बहुत जटिल है

  • protein sequences को align करने के लिए इस्तेमाल होने वाले MSA algorithm के बारे में नहीं सुना था

  • शानदार लेख है, धन्यवाद

  • इसे और विस्तार से पढ़ने वाला हूँ