1 पॉइंट द्वारा GN⁺ 2025-11-28 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Statistical Process Control (SPC) को Python में लागू करके उत्पाद गुणवत्ता के समय के साथ होने वाले बदलाव और intervention के समय को पहचानने का तरीका परिचित कराया गया है
  • pandas, plotnine, scipy का उपयोग करके डेटा प्रोसेसिंग, visualization और statistical calculation किए जाते हैं
  • जापान के Kagoshima प्रान्त के hot spring डेटा को उदाहरण बनाकर तापमान, pH और sulfur content को quality control indicators के रूप में विश्लेषित किया गया है
  • subgroup statistics, control charts (X-bar, S, moving range chart) के जरिए process stability और outlier detection किया जाता है
  • डेटा-आधारित तरीके से process state को visually diagnose करने और improvement decisions को support करने की प्रक्रिया प्रस्तुत की गई है

Python का उपयोग करके Statistical Process Control का अवलोकन

  • Statistical Process Control (SPC) उत्पाद गुणवत्ता में बदलाव को मापने और intervention के समय का निर्णय लेने के लिए एक statistical approach है
    • Python में plotnine से visualization, pandas से data manipulation, और scipy से statistical calculation किए जाते हैं
  • अभ्यास में hot spring water quality management case के जरिए SPC की अवधारणाएँ लागू की जाती हैं
    • hot spring के तापमान, pH और sulfur content को मुख्य quality indicators के रूप में निर्धारित किया गया है

पैकेज और user-defined functions

  • आवश्यक पैकेज: pandas, plotnine, scipy
  • user-defined functions को GitHub repository की functions/ directory से लाया जाता है
    • functions_distributions.py: reliability और distribution functions
    • functions_process_control.py: process control के लिए functions
  • sys.path.append('functions') से function directory को Python path में जोड़ने के बाद import किया जाता है

केस: जापानी hot spring quality management

  • जापानी hot spring (onsen) क्षेत्रीय अर्थव्यवस्था का एक प्रमुख tourism resource है, और तापमान, pH, sulfur content इसके quality standards हैं
    • तापमान मानक: Extra Hot(>42°C), Hot(41~34°C), Warm(33~25°C)
    • pH मानक: Acidic(pH<3) ~ Alkaline(pH>8.5)
    • sulfur मानक: 1mg/kg या उससे अधिक होने पर sulfur hot spring के रूप में वर्गीकृत
  • Kagoshima प्रान्त के hot spring डेटा का 15 महीनों तक हर महीने 20 बार sampling करके quality variation का विश्लेषण किया गया

डेटा लोड करना और basic statistics

  • onsen.csv फ़ाइल लोड करके तापमान, pH और sulfur content डेटा की जाँच की जाती है
  • describe() function से औसत(mean) और standard deviation(sd) की गणना की जाती है
    • उदाहरण परिणाम: औसत 44.85°C, standard deviation 1.99°C
  • ये statistical values process के center और variability को समझने के बुनियादी indicators हैं

process overview visualization

  • plotnine से समय के अनुसार तापमान वितरण को boxplot और point distribution के रूप में visualize किया जाता है
    • center line कुल औसत को दिखाती है, और हर time point के distribution की तुलना की जा सकती है
  • histogram से कुल तापमान distribution दिखाकर process center और variation range की पुष्टि की जाती है

subgroup statistics calculation

  • हर time point को subgroup के रूप में बाँधकर औसत(xbar), range(r), standard deviation(sd) की गणना की जाती है
    • उदाहरण: पहले group का औसत 44.635°C, range 4.2°C
  • σₛ (subgroup के भीतर standard deviation) और standard error(se) की गणना करके upper और lower limits (±3σ) सेट किए जाते हैं
  • इससे process की समयगत स्थिरता का मूल्यांकन किया जाता है

कुल process statistics

  • सभी groups को मिलाकर grand mean(xbbar), average range(rbar), average standard deviation(sdbar) की गणना की जाती है
    • उदाहरण: xbbar 44.85, rbar 7.26, sdbar 1.94
  • σₜ (कुल standard deviation) से तुलना करके process के भीतर और groups के बीच variability को समझा जाता है

control charts (X-bar और S chart)

  • X-bar chart: हर subgroup के औसत को time axis पर दिखाया जाता है
    • center line: कुल औसत, upper और lower limits: ±3σ
    • shaded area control limit range को दर्शाती है
  • यदि मान control limits से बाहर जाएँ या non-random pattern दिखे, तो process abnormality की संभावना होती है

learning check: pH process visualization

  • उसी ggprocess() function का उपयोग करके pH डेटा का process overview chart बनाया जाता है
    • mean line और हर time point के distribution की visual तुलना की जाती है

moving range chart (n=1)

  • जब केवल individual measurements हों, तब moving range का उपयोग किया जाता है
    • लगातार measurements के बीच absolute difference की गणना करके variability का अनुमान लगाया जाता है
  • average moving range(mrbar), upper limit(upper), lower limit(lower=0) की गणना की जाती है
  • moving range chart individual data-आधारित process variation monitoring में उपयोगी है

निष्कर्ष

  • Python का उपयोग करके process overview, subgroup statistics, moving range chart बनाए जा सकते हैं
  • SPC tools के जरिए process stability और abnormality को visually diagnose किया जा सकता है
  • इस तरह का analysis डेटा-आधारित quality improvement और decision-making में उपयोगी है

1 टिप्पणियां

 
GN⁺ 2025-11-28
Hacker News राय
  • इसने मुझे एक पुराना प्रोजेक्ट याद दिला दिया
    हमने एक FANG कंपनी में हज़ारों जटिल deep learning-आधारित time-series anomaly detector को statistical (non-parametric, semi-parametric) process control models से सफलतापूर्वक बदल दिया था
    नए models में training parameters की संख्या 3–4 orders of magnitude कम थी, और वे इतने simple थे कि 3–4 लोगों की टीम हज़ारों streams संभाल सकती थी
    deep learning models को debug करना और interpret करना बहुत अपारदर्शी था, इसलिए उन्हें manage करना बहुत मुश्किल था
    अगर टीम छोटी हो, तो मैं आज भी statistical approach की ज़ोरदार सिफारिश करूँगा
    लेकिन राजनीतिक कारणों से ऐसा चुनाव करियर के लिए अच्छा फैसला न भी हो सकता है। जिन्होंने बहुत बड़ा दांव लगाया होता है, वे उसके खिलाफ सबूत सामने आना पसंद नहीं करते

    • इतना शानदार अनुभव साझा करने के लिए बहुत धन्यवाद
      इसी वजह से मैं आजकल के AI hype माहौल को लेकर संदेह में रहता हूँ
      कई मामलों में पुराने classical methods कहीं अधिक stable और efficient होते हैं, इसलिए मुझे समझ नहीं आता कि कंपनियाँ ज़बरदस्ती जटिल और unstable तरीके क्यों चुनती हैं
    • मेरा पहला करियर बदलाव भी कुछ ऐसा ही था
      कंपनी conference के लिए आकर्षक ML models दिखाती थी, लेकिन असली operators accuracy और interpretability की कमी से काफ़ी नाखुश थे
      इसलिए मैंने उन सरल mathematical rules के आधार पर नया code लिखा, जिन्हें operators वास्तव में इस्तेमाल कर रहे थे, और उससे कहीं बेहतर नतीजे मिले
    • semiconductor industry में machine vision engineer के रूप में, मैंने deep learning और AI की बहुत ज़्यादा hype देखी है
      OCR के लिए यह अच्छा बैठता है, लेकिन classification tasks में इसका असर कमज़ोर रहता है
      अच्छी lighting और traditional computer vision techniques पर ध्यान देने से अक्सर बेहतर नतीजे मिलते हैं
      तकनीक अपनाने की राजनीति वाली बात से भी मैं सहमत हूँ। इसलिए मैं ज़्यादातर deep learning और traditional vision को मिलाकर hybrid approach का प्रस्ताव देता हूँ
    • deep learning उलझाने वाला इसलिए है, क्योंकि सीखने लायक signal की मात्रा कम होती है लेकिन parameters बहुत ज़्यादा होते हैं
      लगता है कि ज़्यादातर parameters unstable होंगे या एक-दूसरे से correlated होंगे
    • जानना चाहूँगा कि क्या आपने Matrix Profile जैसी किसी चीज़ का भी इस्तेमाल किया था। अगर किया था, तो क्या उसे भी बदला गया?
  • मैंने पहले Lean Six Sigma Green Belt certification लिया था, और Minitab के साथ investment banking back-office processes के लिए statistical process control project किया था
    आजकल लगता है जैसे किसी को Minitab याद ही नहीं है। सब बस Python इस्तेमाल करते हैं

    • मैंने भी लगभग 2018 में Minitab के साथ Six Sigma Green Belt किया था
      यह अब भी update हो रहा है, और इसका Python interface भी है → mtbpy package
    • पुराने Minitab का SPC toolbox वाकई शानदार था
      open source tools आमतौर पर सिर्फ x-bar/S/R तक सीमित रहते थे, और multivariate analysis जैसे advanced features की कमी थी
    • मैंने एक ऐसी कंपनी में काम किया है जहाँ JMP इस्तेमाल होता था। आज भी उसकी गर्मजोशी भरी यादें हैं
    • मुझे बस इतना याद है कि हमारी university library में Minitab manual हुआ करता था
  • SPC beginners के लिए मैंने कुछ साल पहले एक practical guide लिखी थी
    यह मददगार हो सकती है → Statistical Process Control: A Practitioner’s Guide

  • clinical data जैसे छोटे datasets में आज भी classical statistics बहुत महत्वपूर्ण है
    metadata collect करना और उसे align करना मुश्किल होता है, और rare disease research में कई बार machine learning या regression तक करना कठिन होता है

  • real-world data कभी भी पूरी तरह साफ़ नहीं होता
    ज़्यादातर समय data quality management में चला जाता है
    outliers measurement error या process change की वजह से हो सकते हैं, और इसे समझने के लिए process की खुद की intuition चाहिए
    इसलिए तेज़ visualization और exploration की सुविधा देने वाले mature tools महत्वपूर्ण हैं
    सीधे code लिखकर SPC Cpk charts बनाना अलाभकारी है

  • SPC वाकई एक शानदार tool है
    यह दूसरे जटिल toolsets की तुलना में कहीं अधिक simple है और अच्छी तरह काम करता है

  • इसमें बहुत सारे typos हैं

  • मुझे इस page का design और overall feel बहुत पसंद आया