- चंद्रमा के लिए मानवयुक्त Orion अंतरिक्षयान का फ्लाइट कंप्यूटर Apollo युग की प्रणालियों की तुलना में कहीं अधिक resilient और automatic control क्षमता वाला है, और life support, power, communication जैसी सभी critical functions को संभालता है
- चंद्र कक्षा से 2.5 लाख मील की दूरी पर भी बिना रुकावट काम करने के लिए, इसे physical और logical redundancy तथा multiple flight computers के साथ इस तरह डिज़ाइन किया गया है कि hardware faults और radiation के प्रभावों को सह सके
- हर Flight Control Module(FCM) अपने self-checking processor pair से बना है, जिससे कुल 8 CPU parallel में चलते हैं, और fail-silent डिज़ाइन तथा priority-based output selection algorithm के जरिए faults को isolate किया जाता है
- सिस्टम time-triggered Ethernet और deterministic architecture के जरिए पूरी तरह synchronized रहता है, और triplicated network तथा memory single-bit errors तक को अपने आप correct कर लेते हैं
- यदि मुख्य सिस्टम पूरी तरह fail हो जाए, तो independent hardware और operating system पर आधारित Backup Flight Software नियंत्रण अपने हाथ में ले लेता है; इस संरचना को भविष्य के autonomous systems के always-on resilience model के रूप में देखा जा रहा है
NASA का Artemis II fault-tolerant कंप्यूटर डिज़ाइन
- Artemis II का फ्लाइट कंप्यूटर Apollo युग के guidance computer की तुलना में कहीं अधिक resilient और automatic control क्षमता वाला है
- Apollo कंप्यूटर 1MHz processor और लगभग 4KB memory का उपयोग करते थे, और मुख्य control manual switches या relay-based था
- Artemis II का Orion capsule life support, power, communication जैसी सभी critical functions को कंप्यूटर से सीधे manage करता है
- चंद्र कक्षा से 2.5 लाख मील दूर किसी mission failure की recovery संभव नहीं होती, इसलिए सिस्टम को space radiation, bit flip, hardware fault के बावजूद बिना रुके काम करना चाहिए
- NASA ने hardware errors के लिए physical redundant wiring, logically redundant network planes, और multiple flight computers का उपयोग किया
-
The Power of Eight
- Orion ने पारंपरिक triple redundancy से आगे की संरचना अपनाई है
- दो Vehicle Management Computer(VMC) में से प्रत्येक में दो Flight Control Module(FCM) लगे हैं, यानी कुल 4 FCM
- हर FCM self-checking processor pair से बना है, जिससे कुल 8 CPU parallel में flight software चलाते हैं
- सिस्टम fail-silent डिज़ाइन पर आधारित है; fault आने पर CPU गलत output भेजने के बजाय तुरंत silent state में चला जाता है
- majority voting की जगह priority-based source selection algorithm का उपयोग करके healthy channel का output चुना जाता है
- NASA का अनुमान है कि Van Allen radiation belts से गुजरते समय temporary faults हो सकते हैं, और अधिकतम 22 सेकंड तक 3 FCM खोने पर भी mission आखिरी FCM के सहारे जारी रह सकता है
- silent state में गया FCM reset होने के बाद दूसरे modules के साथ synchronize होकर उड़ान के दौरान फिर से शामिल हो सकता है
-
Deterministic operation बनाए रखना
- कई independent computers को पूरी तरह synchronized lockstep state में बनाए रखने के लिए deterministic architecture लागू की गई है
- Orion पूरे सिस्टम में समय बाँटने के लिए time-triggered Ethernet network का उपयोग करता है
- flight software, ARINC653 scheduler द्वारा managed major frame और minor frame के भीतर चलता है
- time और space partitioning यह सुनिश्चित करती है कि inputs और outputs network schedule के साथ पूरी तरह aligned रहें
- हर FCM वही inputs प्राप्त करता है, वही code चलाता है, और वही outputs बनाता है
- हर सेकंड FCM clock drift मापकर उन्हें network reference time के अनुसार recalibrate किया जाता है
- जो applications deadline पूरी नहीं कर पातीं, वे अपने आप silent state में चली जाती हैं और फिर resynchronize होती हैं
- hardware triple modular redundant memory(TMR) का उपयोग करता है, जो single-bit errors को अपने आप correct करती है; network interface card भी dual traffic paths की तुलना करके fault होने पर fail-silent व्यवहार अपनाता है
- network को तीन independent planes में triplicate किया गया है, और सभी switches में self-checking capability है
-
अंतिम backup सिस्टम
- NASA ने ऐसे common mode failure के लिए भी तैयारी की है जो एक साथ सभी मुख्य channels को प्रभावित कर सकता है
- इसके लिए अलग से Backup Flight Software(BFS) सिस्टम लगाया गया है
- BFS अलग hardware, अलग operating system, और स्वतंत्र रूप से विकसित simplified flight software से बना है
- मुख्य सिस्टम fail होने पर BFS अपने आप control संभाल सकता है और mission के dynamic phase को पूरा कर सकता है
- इसके बाद crew मुख्य FCM को restore करने की कोशिश कर सकता है
- fail-silent logic जरूरी है, लेकिन faults बिना detect हुए न रह जाएँ, इसके लिए watchdog timers और multi-layer monitoring भी साथ में आवश्यक हैं
- इसे पूरी power loss ("dead bus") की स्थिति में भी survive करने लायक डिज़ाइन किया गया है
- power लौटते ही यह अपने आप safe mode में चला जाता है
- solar panels को सूरज की दिशा में मोड़कर power recover की जाती है, फिर thermal stability के लिए spacecraft को सूरज की ओर tail-first रखा जाता है
- इसके बाद पृथ्वी से communication दोबारा स्थापित करने की कोशिश की जाती है, और ज़रूरत पड़ने पर crew manual रूप से life support system समायोजित कर सकता है
-
विश्वसनीयता का भविष्य
- Apollo से Artemis तक का बदलाव software complexity में बहुत बड़ी छलांग को दिखाता है
- Apollo में mechanical backup मौजूद था, लेकिन Artemis में पूरा control software संभालता है
- NASA full-environment simulation, Monte Carlo stress testing, और large-scale fault injection सहित आधुनिक verification workflow का उपयोग कर रहा है
- supercomputer की मदद से पूरे flight timeline का simulation किया जाता है और यह जाँचा जाता है कि hardware fault की स्थिति में भी software fail-silent तरीके से recover कर सकता है या नहीं
- Orion की zero-tolerance architecture को भविष्य में self-driving cars, industrial control networks जैसे क्षेत्रों में भी लागू किए जा सकने वाले always-on resilience के मॉडल के रूप में देखा जा रहा है
अभी कोई टिप्पणी नहीं है.