- SimpleFold Apple द्वारा पेश किया गया पहला flow-matching आधारित protein folding prediction model है और यह protein structure prediction के लिए एक open source framework भी है
- मौजूदा जटिल domain-specific design के बजाय, केवल general-purpose Transformer layers और flow-matching generative training से उच्च प्रदर्शन हासिल करता है
- 3B (3 अरब) parameters के साथ trained यह अब तक के सबसे बड़े मॉडलों में से एक है, और सार्वजनिक benchmarks पर SOTA (state-of-the-art) मॉडलों के मुकाबले प्रतिस्पर्धी प्रदर्शन दिखाता है
- जटिल structural modules (triple attention, pair representations आदि) के बिना भी यह कुशल है और बड़े datasets तक scale करने में फायदेमंद है
- user-specific data के साथ model tuning और retraining संभव होने से bioinformatics, pharma आदि में विविध व्यावहारिक उपयोग की संभावना अधिक है
SimpleFold का परिचय और महत्व
- SimpleFold Apple द्वारा घोषित पहला flow-matching आधारित protein folding prediction model है
- मौजूदा प्रमुख मॉडलों से अलग, यह जटिल triangle attention या pair representation bias के बिना केवल general-purpose Transformer layers का उपयोग करता है
- इसे generative flow-matching objective पर train किया गया है, इसलिए यह single configuration के साथ-साथ ensemble prediction में भी मजबूत प्रदर्शन दिखाता है
- इसे अधिकतम 3B parameters तक scale किया गया है, और 86 लाख से अधिक protein data को experimental PDB data के साथ मिलाकर बड़े पैमाने पर train किया गया है
- यह अब तक घोषित सबसे बड़े पैमाने का protein folding model है
मुख्य फीचर्स और फायदे
- सार्वभौमिकता: बिना किसी विशेष प्रतिबंध के विभिन्न domains और datasets पर लागू किया जा सकता है
- कुशलता: जटिल domain-specific components न होने से training, inference speed और model size के लिहाज़ से लाभ मिलता है
- स्केलेबिलिटी: 100M~3B parameters तक कई sizes उपलब्ध, GPU/MLX (PyTorch/Apple hardware) दोनों का समर्थन
- Generative training: एक साथ कई prediction results देने वाली ensemble prediction का समर्थन
- User data support: अपने dataset पर retraining, tuning और custom उपयोग की स्वतंत्रता
उपयोग उदाहरण और समर्थन
- Jupyter Notebook उदाहरण (
sample.ipynb) उपलब्ध है, जिससे वास्तविक protein sequence input देकर तुरंत structure prediction किया जा सकता है
- High-performance inference: command-line interface में model size चुनना, inference backend (MLX, PyTorch) निर्दिष्ट करना, result files और confidence metric (pLDDT) प्राप्त करना संभव है
- Benchmark dataset results: standard evaluation sets (CAMEO22, CASP14 आदि) पर SimpleFold के prediction results उपलब्ध और open किए गए हैं
- Evaluation: OpenStructure और TMscore जैसे मौजूदा tools से जुड़े evaluation scripts उपलब्ध हैं, जिससे विभिन्न structure prediction evaluations किए जा सकते हैं
Training और data preparation
- training data के रूप में PDB experimental data, AFDB SwissProt/AFESM/AFESM-E सहित 86 लाख से अधिक curated protein structures का उपयोग किया गया है
- Data lists (target lists) और sample files भी साथ में जारी किए गए हैं, ताकि शोधकर्ता अपनी ज़रूरत के अनुसार datasets बना सकें
- MMCIF file preprocessing, Redis उपयोग और Hydra-आधारित config files के माध्यम से आसानी से experiment environment तैयार किया जा सकता है
- उदाहरण training scripts (
train.py, train_fsdp.py) और config भी उपलब्ध हैं
Open source और citation
- MIT license के तहत जारी, इसलिए कहीं भी स्वतंत्र रूप से research और commercial उपयोग संभव है
- code और models में कई open source projects और contributors के योगदान शामिल हैं, अधिक जानकारी के लिए ACKNOWLEDGEMENTS देखें
- उपयोग करते समय archive paper (Arxiv:2509.18480) को cite करें
निष्कर्ष
- SimpleFold पारंपरिक protein structure prediction मॉडलों द्वारा उपयोग की जाने वाली जटिल संरचनाओं के बजाय, एक सरल लेकिन शक्तिशाली approach के माध्यम से उद्योग के सामने एक नया paradigm प्रस्तुत करता है
- खास तौर पर general-purpose Transformer architecture और generative training के संयोजन से life sciences, drug discovery और bioinformatics जैसे क्षेत्रों में विविध रचनात्मक अनुप्रयोगों की मजबूत संभावना बनती है
1 टिप्पणियां
Hacker News राय
यहाँ जो बात आसानी से छूट सकती है, वह यह है कि "सरल" मॉडल ने वास्तव में experimental structures से सीधे folding नहीं सीखी। ज़्यादातर training data AlphaFold-style predictions से आया, जो पहले से ही बड़े, MSA-based और जटिल रूप से डिज़ाइन किए गए models द्वारा बनाए गए लाखों protein structures से बना है। यानी आप सारे inductive bias और MSA tools को फेंक नहीं सकते; किसी न किसी को वे models बनाकर चलाने पड़े ताकि training data तैयार हो सके
मुझे यहाँ से जो सीख मिलती है, वह है simplicity और scalability। machine learning में अक्सर performance बढ़ाने के लिए modules लगातार जटिल होते जाते हैं, फिर अचानक कोई simple model आता है जो complex model के बराबर breakthrough दे देता है। यह कि ऐसी "simple" architecture अपने आप इतनी अच्छी तरह काम कर रही है, इसका मतलब यह भी हो सकता है कि अगर फिर से कुछ complexity जोड़ी जाए तो और आगे जाया जा सके। अब मैं सोच रहा हूँ कि क्या MSA को फिर से इसमें जोड़ा जा सकता है, और वहाँ से यह कितना आगे जा सकता है। मेरी समझ से, एक "rough" generative model कई ठीक-ठाक guesses देता है, और फिर ज़्यादा formal "validators" यह सुनिश्चित करते हैं कि वे physics/geometry के नियमों का पालन करें। AI कल्पना से भी बड़े search space को छोटा कर देता है, ताकि महँगी simulations बेकार जगहों पर बर्बाद न हों। जैसे-जैसे guess network बेहतर होता है, पूरी process तेज़ हो जाती है। पीछे मुड़कर देखें तो याद आता है: recurrent networks में लगातार जटिल होती transfer functions, skip-forward layers से पहले की जटिल preprocessing chains, ReLU से पहले के composite normalization objectives, diffusion से पहले के composite-objective GAN networks, fully convolutional networks से पहले के complex multipath models। इस लिहाज़ से, मैं इस research को इसलिए लेकर बहुत उत्साहित हूँ कि यह optimal architecture नहीं है, बल्कि शायद इसलिए कि यह अभी optimal नहीं है
मुझे नहीं पता कि यह इतना अजीब क्यों माना जा रहा है। लगभग हर simple चीज़ को कभी complex समझा गया था। emergence कुछ वैसा ही है, और आम तौर पर generalized और simple formula खोजने से पहले आपको पूरी complexity से गुजरना पड़ता है। यह भी साफ़ है कि प्रकृति की घटनाएँ असल में अपेक्षाकृत simple rules से निकलती हैं। कुछ-कुछ Game of Life में rules और initial values को उल्टा infer करने जैसा। जो कोई कहे कि यह आसान है, वह ज़रूरत से ज़्यादा आत्मविश्वासी है। लेकिन शायद ही कोई सच में P=NP मानता हो
AlphaFold एक ऐसा model है जिसे X-ray से देखे गए folded proteins के experimental observations के खिलाफ validate किया गया है
सही। जो लोग नहीं जानते उनके लिए, MSA का इस्तेमाल मौजूदा PDB structures से नई sequences पर generalize करने के लिए होता है। अगर आप AlphaFold2 outputs पर train करते हैं, तो वह generalization result पहले से data में शामिल हो जाता है, इसलिए अब model को खुद वह capability रखने की ज़रूरत नहीं रहती। यानी वह बस memorize भी कर सकता है। लगता है paper के authors ने इस simple निष्कर्ष को नज़रअंदाज़ कर दिया
कॉलेज हॉस्टल के दिनों में, जब energy लगभग मुफ़्त थी और media servers खाली पड़े रहते थे, तब Folding@Home(https://foldingathome.org) project के ज़रिए मैंने पहली बार protein folding के बारे में जाना था। मैं expert नहीं हूँ, लेकिन सोच रहा हूँ कि क्या आज के hardware पर protein folding पहले से बहुत आसान हो गई है, या यह केवल कुछ खास problems पर लागू होता है। लगता है Folding@Home project अभी भी मौजूद है
जहाँ तक मुझे पता है, Folding@Home एक physics-based simulation solver था, जबकि AlphaFold और उसके descendants, इसमें चर्चित काम भी, statistical methods हैं। statistical methods computationally बहुत सस्ते होते हैं, लेकिन वे पहले से मौजूद protein folds पर निर्भर करते हैं, इसलिए training set से अलग proteins पर उनकी predictive power कमज़ोर हो सकती है। यानी speed और generality के बीच tradeoff है, लेकिन performance इतनी बढ़ गई है कि अब वांछित protein की fold structure काफ़ी हद तक निकाली जा सकती है। जो folding prediction पहले लगभग नामुमकिन था, वह अब सामान्य workflow का हिस्सा बन गया है
मुझे SETI@Home भी पसंद था, और भले ही मैं 100% नहीं जानता था कि नतीजे क्या हैं, उसकी visualization इतनी साफ़ दिखती थी कि अच्छा लगता था
F@H ब्लॉग पोस्ट(लिंक) के मुताबिक, सिर्फ़ अंतिम folded form ही नहीं, folding dynamics को जानना भी अब भी महत्वपूर्ण है। ML से predicted proteins भी simulation की validation और working mechanism को समझने के लिए महत्वपूर्ण targets हैं
Folding@Home अब भी सक्रिय रूप से चल रहा है और इसने वर्षों में कई शानदार discoveries की हैं (paper/results लिंक)
यह paper कहता है, "हमारा तरीका state of the art models से सरल है।" लेकिन यह उतनी ज़ोर से नहीं कहता कि "यह हर metric पर state of the art से काफ़ी पीछे है।" paper publish कराना आसान नहीं होगा, लेकिन अगर किसी बड़ी कंपनी के नाम से preprint आए तो ज़्यादा attention मिलती दिखती है
इस पोस्ट में लिंक किया गया GitHub repo ज़रूर पढ़ने लायक है (arXiv लिंक)
सिर्फ abstract देखकर भी (अगर मैंने सही समझा है), बात यह है: "AI तो उतना ही चाहिए, लेकिन दूसरे तरीकों की तुलना में बहुत कम AI से काम चल सकता है"
जिनकी GitHub लिंक में दिलचस्पी हो, उनके लिए यह भी साझा कर रहा हूँ (apple/ml-simplefold)
मुझे समझ नहीं आता कि Apple protein folding पर काम क्यों कर रहा है
Apple का भी एक ML research group है। वह सिर्फ़ Apple-जैसी research ही नहीं करता, बल्कि general optimization और foundational research जैसे कई themes पर भी काम करता है (Apple Machine Learning Research)
मुझे भी नहीं पता। लेकिन मैं ऐसी R&D roles के लिए apply करना चाहूँगा जहाँ direct revenue की उम्मीद न हो। शायद ऐसे projects उनके AI chips को test/refine करने के लिए भी इस्तेमाल होते हों
मुझे लगता है वजह local inference है। Apple शायद ऐसे state-of-the-art models को छोटा बनाकर desktop पर तेज़ inference के लिए सक्षम करना चाहता है। paper में भी M2 Max 64GB पर inference result Figure 1E में दिखाया गया है। सच कहूँ तो यह idea बहुत बढ़िया है। छोटी pharma companies भी fast local inference की वजह से कई barriers आसानी से पार कर सकती हैं। generated sequences के साथ Bayesian optimization या RL भी आज़माया जा सकता है। तुलना करें तो AlphaFold को काफ़ी resources चाहिए। ऊपर से multiple sequence alignment का उपयोग भी कुछ हद तक मजबूरी जैसा है, similar proteins न हों तो performance गिरती है, और preprocessing भी बहुत करनी पड़ती है। Meta का ESM (कुछ साल पहले) यह पहले ही दिखा चुका था कि alignment के बिना भी अच्छा काम हो सकता है। AlphaFold में कोई जादुई चीज़ नहीं है; यह बस एक seq2seq problem है, इसलिए कई अलग तरीके अच्छी तरह काम कर जाते हैं, attention-free SSMs सहित
कंप्यूटर बेचने के लिए? 20 साल पहले भी Apple WWDC में scientific poster sessions रखता था और Mac पर PyMol port करने की कोशिश कर रहा था। paper में दिखे protein images PyMol से बनाए गए हैं, और पिछले 15 वर्षों में scientific papers की आधे से ज़्यादा images शायद PyMol से ही बनी हैं
यह असली वजह है या नहीं, पता नहीं, लेकिन कई "ai for science" projects दरअसल marketing भी होते हैं। भले ही उनका कंपनी के products को सीधा फ़ायदा न हो या कोई ठोस output न निकले, ऐसे projects "brand prestige" पर काफ़ी सकारात्मक असर डालते हैं
AlphaFold के सार्वजनिक होने के बाद, क्या classical molecular dynamics (MD) simulations अब protein folding में बेकार हो गई हैं? मैं सोच रहा हूँ कि DESRES जैसी जगहों से आने वाली research सीधे protein folding से जुड़ी है या वे पूरी तरह अलग तरह का काम कर रहे हैं
MD atoms की movement को deal करता है, जबकि AlphaFold सिर्फ़ एक result snapshot देता है। यानी AlphaFold dynamics को नहीं संभालता। MD की core value अब भी movement ही है
मैंने जिज्ञासा में देखा कि AlphaFold V3 के parameters सिर्फ़ कुछ संगठनों को दिए जाते हैं (और वह भी non-commercial use तक सीमित), हर किसी को नहीं (V3 parameters), जबकि AlphaFold V2 कोई भी download कर सकता है (V2 parameters)
MD मूल रूप से structure prediction के लिए कभी बहुत उपयुक्त तरीका था ही नहीं। AlphaFold ने उसे बेकार नहीं बनाया; MD शुरू से protein folding itself का अध्ययन करने के लिए ज़्यादा उपयोगी था—यानी final structure बनने से पहले की प्रक्रिया, या fold हो जाने के बाद की systematic motions
मैं यह जानना चाह रहा था कि paper में जो protein figure है वह क्या है: "Figure 1 SimpleFold prediction results… actual result bright emerald color में, prediction dark teal color में।" लेकिन अब मैं ज़्यादा यह सोच रहा हूँ कि उन्होंने यह color combination चुना ही क्यों
अच्छा होगा अगर कोई expert बताए कि इस approach का protein folding research पर क्या मतलब हो सकता है। research काफ़ी cool लगती है, लेकिन इसका असली impact क्या होगा, यह समझ नहीं आ रहा
इस model की representation simple है, इसलिए यह सिर्फ transformer का इस्तेमाल करता है। transformer के लिए बने existing theories और tools को सीधे लगाया जा सकता है, और सबसे बड़ी बात, model को scale करना आसान है। उससे भी महत्वपूर्ण बात यह है कि AlphaFold में कोई magic नहीं था। architecture या training method के details से ज़्यादा अहम बात आखिरकार यही थी कि बड़े dataset पर बड़ा model train किया जाए। AlphaFold को experimentally इस्तेमाल करने वाले कई लोगों ने देखा है कि यह LLM जैसा व्यवहार करता है—training dataset जैसी inputs पर अच्छा फिट बैठता है, लेकिन generalization बहुत सीमित रहती है
आगे चलकर models बदल सकते हैं। किसी की यह राय उपयोगी हो सकती है(SimpleFold और protein structure prediction का भविष्य)। लेकिन research में हमेशा समय लगता है, और असली impact समझने के लिए महीनों या सालों तक देखना पड़ता है। भविष्यवाणी की अपनी सीमाएँ हैं
यह पूरी तरह नया तो नहीं है, लेकिन protein folding models का धीरे-धीरे simple होना देखना बहुत प्रभावशाली है। AF2 से AF3 तक भी model complexity घटी थी, और यह research उस trend को एक कदम और आगे ले जाकर 'bitter lesson' को अमल में ला रही है
paper में लिया गया Flow-matching technique सच में बहुत दिलचस्प है। मैंने इसे generative AI के संदर्भ में पढ़ते हुए जाना था, और यह देखना fascinating है कि thermodynamic concepts और Brownian motion से लिया गया यह तरीका फिर protein folding problem में इतने फिट तरीके से इस्तेमाल हो रहा है