$2,000 से कम में अपना DNA सीक्वेंस करने का तरीका

(maxlangenkamp.substack.com)

1 पॉइंट द्वारा GN⁺ 2025-10-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

DNA sequencing की लागत Moore के नियम से भी तेज़ गिर रही है
Oxford Nanopore MinION की मदद से लगभग $1,100 खर्च करके घर पर भी DNA sequencing की जा सकती है
वास्तविक प्रयोग में रक्त संग्रह, DNA निकासी और नैनोपोअर सीक्वेंसिंग जैसे चरण किए गए
परिणामस्वरूप पूरे जीनोम का केवल करीब 13% ही कवर हो पाया, और contamination, उपकरण त्रुटि आदि के कारण विश्लेषण सीमित रहा
इसके बावजूद कम खर्च में सीधे अपने DNA के कुछ हिस्सों को sequence करने का एक उपयोगी अनुभव हासिल हुआ

परिचय

DNA sequencing की लागत तेजी से गिरने की वजह से, जो मानव जीनोम डिकोडिंग पहले $2.3B और 13 वर्षों में हो पाती थी, वह अब केवल Oxford Nanopore (लगभग $1,000) उपकरण से 48 घंटों के अंदर खुद करके देखी जा सकती है
पहले अस्थिर तीसरे-पक्ष सेवाओं को sample भेजना पड़ता था; इस लेख में बिना अलग प्रयोगशाला वाले वातावरण में sequencing करने की कोशिश की गई है

DNA sequencing प्रक्रिया का अवलोकन

लक्ष्य था 10 ml रक्त से A, C, G, T से बने मानव जीनोम क्रम (लगभग 3 अरब बेस) को निकालना
कुल चरणों का सार
- रक्त संग्रह
- रक्त से मानव DNA अलग करना
- निकाले गए DNA को इलेक्ट्रिकल तरीके से Oxford Nanopore उपकरण में डालकर प्रत्येक न्यूक्लियोटाइड पढ़ना

DNA sequencing का संक्षिप्त इतिहास

Sanger युग (1960~2003): एनालॉग आधारित, मैनुअल ऑपरेशन, अत्यंत धीमी गति
- खराब (faulty) न्यूक्लियोटाइड्स से DNA replication रोकना, फिर प्रत्येक टुकड़े को इलेक्ट्रोफोरेसिस से अलग करके बारकोड की तरह पढ़ना
- मानव जीनोम डिकोडिंग में 13 साल और $2.3B खर्च हुए
Illumina युग (2005~2010 के दशक): समानांतरता और स्वचालन
- synthesis-based sequencing पद्धति से processing speed और efficiency में बड़ा सुधार हुआ
Single-molecule sequencing युग:
- electrical nanopore के जरिए DNA के न्यूक्लियोटाइड सीधे पढ़े जाते हैं, टुकड़े करने की ज़रूरत नहीं पड़ती
- इस प्रयोग में भी यही तरीका इस्तेमाल हुआ

आवश्यक उपकरण और खर्च

Oxford Nanopore MinION स्टार्टर्स किट ($1,000): USB-आधारित sequencer, flow cell और तैयारी रसायन
Zymo DNA extraction किट (मुफ़्त sample)
mini centrifuge (Amazon, $50)
कंज्यूमेबल्स (eppendorf ट्यूब, लैन्जेट, पाइपेट आदि, $50)
कुल खर्च लगभग $1,100

प्रयोग के चरण

Step 1: रक्त संग्रह

लगभग 200µL (0.2ml) रक्त की जरूरत थी, छोटे लैन्जेट से पर्याप्त मात्रा नहीं मिल रही थी, इसलिए बार-बार उंगली चुभाकर खून लिया गया

Step 2: DNA निकालना

रक्त में अधिकांश DNA रहित अशुद्धियाँ, जैसे रेड ब्लड सेल्स, मौजूद होती हैं
सिर्फ़ leukocytes से DNA अलग करना जरूरी था; इसके लिए Zymo किट के enzymes और centrifuge filter का इस्तेमाल किया गया
Nanopore prep किट के adapter attachment चरण का भी पालन किया गया

Step 3: Nanopore से sequencing

तैयार DNA को MinION के छोटे पोर्ट में डालने के बाद USB से जोड़ा गया
MinKNOW software real-time basecalling करता है और electrical signal को neural-network algorithm से A, T, C, G में अनुमानित करता है

परिणाम और सीमाएँ

कुल लगभग 1 gigabase डेटा को दो बार sequence करने में सफलता मिली (मानव जीनोम के 30 करोड़? नहीं, कुल 3 अरब बेस में लगभग 13%)
पहला प्रयास hardware error के कारण रुक गया, flow cell defect भी था (2048 में से सिर्फ 623 pores काम कर रहे थे)
लगभग 25% में bacterial contamination पाई गई
SNP (single nucleotide polymorphism) analysis के लिए कई rounds में sequencing दोहराना जरूरी है, लेकिन अधिकांश न्यूक्लियोटाइड केवल single-pass में ही पढ़े गए
इसके बावजूद $1,100 के कम खर्च में मानव जीनोम के कुछ हिस्से को sequence करने का एक meaningful अनुभव मिला

आभार

इस प्रयोग में साथ देने वाले दोस्तों का धन्यवाद

1 टिप्पणियां

GN⁺ 2025-10-20

Hacker News की राय

अभी यह कहना मुश्किल है कि हम सचमुच "nanopore sequencing era" में प्रवेश कर चुके हैं; sequencing-by-synthesis ही अब भी मुख्यधारा में है
- genome को काटकर छोटे-छोटे टुकड़ों में बदलना पड़ता है और फिर उन्हें reference के आधार पर दोबारा assemble करना होता है, और इस प्रक्रिया में कई समस्याएँ आती हैं
- nanopore sequencing की error rate ज़्यादा है, इसलिए clinical setting में अब भी sequencing-by-synthesis का ही उपयोग होता है (खासतौर पर Illumina पिछले 10 सालों में तकनीकी रूप से बहुत आगे रहा है)
- फिर भी nanopore उपकरण छोटे और सस्ते हैं, इसलिए आकर्षक हैं; error rate को repeated sequencing से कुछ हद तक संभाला जा सकता है
- sequencing-by-synthesis तकनीक में अगर किसी भरोसेमंद provider के पास जाएँ, तो 1000 euro या dollar से कम में 30x coverage के साथ पूरे genome की sequencing हो सकती है; 180 dollar वाले विकल्प भी देखे हैं, लेकिन उनकी विश्वसनीयता संदिग्ध है
- पूरे human genome के लिए nanopore अभी शायद थोड़ा जल्दी है, लेकिन plasmid sequencing जैसे उपयोगों में यह पहले से ही बहुत काम का है
  - मैं उद्योग से जुड़ा व्यक्ति नहीं हूँ, फिर भी विश्वविद्यालय में सिर्फ tube जमा करके अगली सुबह email से 15 dollar में परिणाम पा सकता हूँ; यह सब nanopore-आधारित workflow की वजह से संभव है
- error rate को repeated sequencing से कुछ हद तक सुधारा जा सकता है, लेकिन कभी-कभी errors आपस में correlated भी होते हैं
- कुल मिलाकर short-read sequencing कहीं ज़्यादा cost-effective है; हमारा startup भी Illumina से cell line QC करता है और इसकी लागत सिर्फ 260 dollar आती है
- sequencing का तरीका लक्ष्य पर निर्भर करता है; NAO में wastewater में कई तरह के virus detect करने के लिए Illumina के बड़े flow cell (25B) का सस्ते में उपयोग किया जाता है
  - लेकिन nasal swab जैसे samples में, जहाँ target virus बहुत मात्रा में हो, वहाँ लंबे read length और कम run cost की वजह से nanopore ज़्यादा उपयुक्त है
- short read के लिए clinical sequencing पहले से ही काफ़ी अच्छी है, इसलिए nanopore के पास इसे replace करने की कोई खास वजह नहीं है
- clinical field का भविष्य medium-to-large structural variation detection में है; यह क्षेत्र अभी पूरी तरह स्पष्ट नहीं है, इसलिए nanopore का उपयोग research और rare disease diagnosis में बहुत हो रहा है
- SBS (sequencing-by-synthesis) बेहद भरोसेमंद है, लेकिन market share बड़ा होने का मतलब यह नहीं कि तकनीकी प्रगति रुक गई है
  - sequencing में innovation अब ML, RNA-DNA simultaneous analysis, और long/short read combination जैसे क्षेत्रों में हो रहा है
- वास्तव में diagnostic labs में भी nanopore तकनीक का उपयोग धीरे-धीरे बढ़ रहा है; sample prep की लागत कम है और sensitivity qPCR के स्तर तक पहुँचती है
  - इसके अलावा methylation जैसी अतिरिक्त जानकारी भी मिलती है
  - हाल ही में nanopore का उपयोग करके acute leukemia classification पर एक paper भी आया है paper
  - समय-सीमा शायद कुछ बढ़ा-चढ़ाकर बताई गई हो, लेकिन diagnosis में सबसे महत्वपूर्ण बात यह है कि यह "ठीक से काम करता है"
यह विचार (लेख) दिलचस्प था, लेकिन उपकरण की समस्या और एक बार कोशिश करके तुरंत छोड़ देने की वजह से थोड़ा निराशाजनक भी लगा
- flow cell में शुरुआत से ही सिर्फ 623 working pores थे; जानना चाहता हूँ कि क्या यह आम बात है, और क्या किसी ने इसे ठीक तरह से आज़माया भी है
- मैंने भी वास्तव में ऐसा ही प्रयोग किया था; blood की जगह saliva का उपयोग किया, और Qiagen kit से DNA extract किया
  - मेरे nanopore flow cell में लगभग सभी pores ठीक से काम कर रहे थे; शायद लेख में storage method की समस्या रही होगी
- handling के आधार पर active pores की संख्या बदल सकती है; मेरे अनुभव में sample prep के कारण बहुत से inactive pores बन जाते हैं
  - अगर sample सही तरह तैयार न हो, तो pores block हो सकते हैं या उनकी activity घट सकती है
  - मैंने पहले Oxford Nanopore data का analysis किया था, और sample prep करने वाले व्यक्ति की skill के अनुसार quality इतनी बदलती थी कि सिर्फ data देखकर भी पहचान सकता था कि किस colleague ने sample तैयार किया है
  - मेरा अनुमान है कि लेखकों के ‘garage’ में तैयार किए गए samples की quality खराब रही होगी
  - वैसे, मेरा एक colleague कार से बिजली लेकर चलने वाली mobile sequencing lab भी बना चुका था
  - उसके लिए भी सबसे बड़ा technical bottleneck sample prep ही था; computing वाला हिस्सा इतना कठिन नहीं था
- active pores कम होना "normal" तो नहीं कहा जा सकता, लेकिन यह काफ़ी बार होने वाली समस्या है
  - NGS काम के दौरान मेरे अनुभव में कुल flow cells में से लगभग 1/4 defective थे, और ONT की replacement policy भी थी अगर cell self-test में fail हो जाए
- sample के अनुसार फर्क होता है, लेकिन आम तौर पर 1200 से ज़्यादा active pores सामान्य माने जाते हैं और कम-से-कम 800 की गारंटी होती है
  - इसलिए इस मामले में refund माँगना उचित हो सकता है
- यह मामला इस अर्थ में रोचक था कि इसने दिखाया, "अगर सच में करके देखें तो क्या होगा"
  - मुझे genetic genealogy का थोड़ा अनुभव है, इसलिए पहले से लगा था कि इसमें बहुत तकनीकी दिक्कतें आएँगी
Nebula और Dante जैसी कंपनियाँ लगभग 300 dollar में 30x या 100x coverage के साथ whole-genome sequencing देती हैं
- सच कहें तो 1000-dollar genome sequencing 10 साल पहले ही हासिल हो चुकी थी
- मैंने Nebula को देखा था, लेकिन उस पर Meta, Microsoft, और Google को genomic data देने के आरोप में class action lawsuit चल रहा है
  - subreddit पर ऐसे कई मामले हैं जहाँ लोगों ने kit भेजी लेकिन वर्षों तक result नहीं मिला
  - sequencing quality, DTC (direct-to-consumer) genomic data की false positive rate जैसी समस्याएँ भी हैं, और 23andMe का मामला भी देख चुका हूँ, इसलिए किसी private company को अपना genome भेजने में हिचकिचाहट होती है
- DanteLabs स्तर की whole-genome sequencing की न्यूनतम कीमत 399 euro (466 dollar) है DanteLabs product link
- 2,000 dollar में DNA extraction equipment और sequencer खुद शामिल है; Nebula आदि जिन sequencers का उपयोग करते हैं, वे शायद 1 million dollar से ज़्यादा की मशीनें होती हैं
  - अगर इसे और सस्ता करना हो, तो WGS की जगह exome sequencing या कुछ मामलों में सिर्फ genotyping भी किया जा सकता है
  - यह भी संभव है कि कुछ कंपनियाँ पहले से 100-dollar WGS दे रही हों
- फिर भी मूल समस्या यही है कि कोई न कोई कंपनी आपके genomic data का मालिकाना हक़ पा जाती है
  - "legitimate interest" के नाम पर वे बहुत कुछ कर सकती हैं, और hack हो जाना या company का बिक जाना जैसे जोखिम पहले से वास्तविक साबित हो चुके हैं
- 1000 dollar असल में "economies of scale price" है
  - यह कीमत तभी संभव होती है जब processing पर्याप्त मात्रा में batch में की जाए
mynucleus.com पर सिर्फ cheek swab से 500 dollar में whole-genome sequencing संभव है (discount code savraj10 इस्तेमाल करने पर 10% छूट)
- blood की ज़रूरत नहीं, 2,000 से अधिक बीमारियों का risk score मिलता है, और spouse की testing कराएँ तो भविष्य के बच्चों के बारे में prediction भी संभव है
- जल्द ही नई funding announcement आने वाली है, raw data download support है, और SOC2 तथा HIPAA security compliance का भी दावा है
- लेकिन 23andMe जैसी privacy breach घटना को देखते हुए यह सवाल है कि अगर Nucleus दिवालिया हो जाए, तो genomic data को किसी third party को बेचे जाने से कैसे रोका जाएगा
  - homepage पर data privacy के मामले में बहुत स्पष्ट differentiation नहीं दिखता
  - Nucleus भी कहता है कि वह "data नहीं बेचता", लेकिन 23andMe भी यही कहता था
  - बुनियादी समस्या यह है कि इस मामले में किसी भी company पर पूरी तरह भरोसा करना मुश्किल है
  - सिर्फ 3,000 dollar बचाने के लिए Nucleus को अपना genome सौंपना सोच-समझकर किया जाने वाला फैसला है
- मेरी नज़र में genome sequencing से भी बड़ी बात यह है कि मुझे किसी third party पर भरोसा करना पड़ेगा
  - लेख में बताई गई 13% coverage पर कोई भी genomic analysis उपयोगी नहीं है; शीर्षक बढ़ा-चढ़ाकर लिखा गया है
- यह जानने की जिज्ञासा है कि वास्तव में coverage कितनी मिलती है
- यह देखकर हैरानी होती है कि जो सेवा पहले बहुत महँगी थी या आम लोगों की पहुँच से बाहर थी, वह अब 500 dollar में उपलब्ध है
- क्या Monero से भुगतान किया जा सकता है?
मैंने Nebula (जो अब rebrand होकर और महँगा हो गया है) का उपयोग करके अपने परिवार के genomes भी sequence कराए, और प्रक्रिया काफ़ी आसान थी
- "Lifetime" plan के तहत FASTQ files को R2 bucket में store किया; Nebula 250 dollar लेता है और 50 dollar monthly subscription भी है, लेकिन उसे तुरंत cancel किया जा सकता है
- मेरी VCF file यहाँ देखी जा सकती है
  - किसी खास variant (rs104894396) को LLM में डालकर analysis किया जा सकता है, या SNPedia पर देखा जा सकता है
- मैंने वास्तव में अपनी पत्नी के साथ carrier screening भी कराई, लेकिन Nebula से अलग किसी और तरीके से
  - पता चला कि हम दोनों GJB2 gene से जुड़ी hearing-loss variant के carrier हैं, इसलिए हमने बच्चे के embryo की sequencing कराकर स्वस्थ बच्चा चुनने का निर्णय लिया
- अगर किसी को वास्तविक genomic data sample चाहिए, तो मेरा data test file के रूप में उपयोग किया जा सकता है (मैं पुरुष हूँ, इसलिए chrY variants भी देखे जा सकते हैं)
- मैंने Dante भी इस्तेमाल किया था और दोनों कंपनियों के results की तुलना करना चाहता था
  - Dante में sequence को user से जोड़ने का तरीका अलग था, इसलिए असुविधा हुई (अलग से code संभालकर रखना पड़ता था)
  - पूछताछ पर कोई जवाब नहीं मिला, इसलिए उनकी operational process के बारे में ज़्यादा पता नहीं चला
- nanopore तकनीक वाकई बहुत दिलचस्प है, लेकिन Twitter पर device quality control issues की बातें भी देखी हैं
  - कभी अपनी बेटी के genome के साथ इसकी तुलना करना चाहूँगा
- एक दिलचस्प बात यह है कि आपके पास CYP11B1 rs4541(g;a) है, इसलिए संभव है कि आपको licorice पसंद न हो
  - आपके पास CYP17A1 −34 T>C, rs743572(A;G) भी है
  - genes के पूरे combination के आधार पर शारीरिक या behavioral traits कई तरह से सामने आ सकते हैं
  - उदाहरण के लिए, कम वज़न, anxiety, किशोरावस्था में acne, खड़े होने पर चक्कर, नमक की craving, या sleep disorder जैसी प्रवृत्तियाँ हो सकती हैं
  - vitamin D, magnesium, और B vitamins की कमी की प्रवृत्ति भी हो सकती है, जिससे कई शारीरिक और neurological लक्षण दिख सकते हैं (TMJ, muscle cramps, myopia आदि)
  - कुछ genes के आधार पर strategy board games की रुचि, left-handed होने की संभावना, intelligence, sleep pattern, और visual talent जैसी बातों का अनुमान भी लगाया जा सकता है
  - लेकिन सिर्फ एक-दो genetic variants से पूरी तस्वीर नहीं समझी जा सकती, और आहार या lifestyle में बदलाव से पहले डॉक्टर से सलाह ज़रूर लेनी चाहिए (मैं डॉक्टर नहीं हूँ; biology और genomics को शौक़ से पढ़ने वाला एक programmer हूँ)
- आप अपने पूरे DNA को सार्वजनिक करने को लेकर इतने उदार क्यों हैं, यह जानने में सचमुच दिलचस्पी है
दुर्भाग्य से, मौजूदा 1000-dollar MinION Starter Kit अब बिक्री में नहीं है, और लेख का link भी 404 हो गया है
- अब flow cell सहित MinION products की शुरुआती कीमत 4950 dollar है
अगर DNA sequencing करनी ही हो, तो उपकरण खरीदकर पूरी तरह offline रहकर खुद न संभालें तो बिल्कुल न करें
- इससे सिर्फ मेरे genome पर नहीं, बल्कि मेरे भावी वंशजों और रक्त-संबंधियों पर भी संभावित जोखिम आ सकता है
- सबसे बुरे हालात कितने गंभीर हो सकते हैं, इसकी कल्पना करना भी मुश्किल है
  - ऊपर से health prediction की क्षमता भी epigenetic data के बिना लगभग नहीं के बराबर है
  - उल्टा anxiety या nocebo effect के कारण स्वास्थ्य पर नकारात्मक असर पड़ सकता है
  - व्यवहार में यह सिर्फ डॉक्टर की diagnosis confirm करने के लिए ही उपयोगी है, और वही ज़्यादा सुरक्षित है
electric kettle का उपयोग PCR (thermocycler) के विकल्प के रूप में किया जाना मज़ेदार लगा
- पहले वास्तव में इसी तरह बारी-बारी से गर्म पानी के बर्तनों का उपयोग करके DNA amplify किया जाता था
- अगर blood से सिर्फ white blood cells अलग करके sequencing की जाती, तो शायद result बेहतर आते, लेकिन lancet और छोटे उपकरणों के साथ यह आसान नहीं है
  - 2010 के शुरुआती वर्षों में biology intro lab में मैंने गरम पानी बदल-बदलकर और egg timer से manual PCR किया था
  - बाद में असली thermocycler इस्तेमाल करके उस उपकरण की अहमियत और ज़्यादा समझ में आई
मैं उस graph के बाद का data देखना चाहता हूँ जिसमें दिखाया गया था कि sequencing cost Moore's law से भी तेज़ी से गिर रही थी (2001~2015)
- 2021 तक के charts ही मिले हैं, लेकिन 2015 के बाद प्रगति कुछ धीमी लगती है
- अगर nanopore और विश्वसनीय हो जाए, तो फिर से कोई बड़ा disruptive बदलाव आ सकता है
- graph 2001 से शुरू होता है, लेकिन मैंने 90 के दशक के मध्य में EMBL में thin-film electrophoresis sequencer development पर काम किया था
  - उस समय एक दिन में कुछ सौ bases निकाल पाना ही सबसे अच्छा प्रदर्शन माना जाता था
- लगता है NHGRI ने यह plot update करना 2022 के बाद funding issues के कारण रोक दिया
  - ध्यान से देखें तो ऐसा लगता है कि 5 साल के भीतर 100-dollar genome का दौर आ सकता है
Dante और Nebula की reputation बहुत अच्छी नहीं है, और ySeq में 8 महीने का इंतज़ार है
- इस लेख में आया nanopore उपकरण भी ठीक से काम नहीं कर रहा
- 2025 में यूरोप में अपना genome sequence कराना आसान नहीं लगता

$2,000 से कम में अपना DNA सीक्वेंस करने का तरीका

परिचय

DNA sequencing प्रक्रिया का अवलोकन

DNA sequencing का संक्षिप्त इतिहास

आवश्यक उपकरण और खर्च

प्रयोग के चरण

Step 1: रक्त संग्रह

Step 2: DNA निकालना

Step 3: Nanopore से sequencing

परिणाम और सीमाएँ

आभार

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की राय