दोस्त दोस्तों को खराब ग्राफ़ बनाने नहीं देते
(github.com/cxli233)डेटा विज़ुअलाइज़ेशन के अच्छे और बुरे उदाहरण
- यह डेटा विज़ुअलाइज़ेशन पर विचारों से भरा एक निबंध है, जिसमें अच्छी और बुरी विज़ुअलाइज़ेशन के उदाहरण और उनकी व्याख्या शामिल है।
औसत अलगाव दिखाने के लिए bar graph न बनाएं
- औसत अलगाव ग्राफ़ वैज्ञानिक प्रकाशनों में अक्सर दिखते हैं, लेकिन यदि वितरण और standard deviation समान हों तो यह बताने के लिए कि दो समूह वास्तव में समान हैं या नहीं, bar graph उपयुक्त नहीं है।
- यह ज़ोर देता है कि bar graph इस्तेमाल करने से पहले कुछ बातों की जाँच करनी चाहिए।
छोटे sample size के लिए violin plot न बनाएं
- छोटे sample में वितरण और quartile काफ़ी बदल सकते हैं, इसलिए violin plot का कोई खास अर्थ नहीं रहता।
- प्रयोगों से पुष्टि की गई कि sample size 50 या उससे अधिक होने पर वितरण स्थिर होने लगता है।
एकदिश डेटा पर द्विदिश color scale का उपयोग न करें
- एकदिश डेटा पर द्विदिश color scale का उपयोग करना डेटा विज़ुअलाइज़ेशन में एक बड़ी गलती है।
- color scale को अर्थपूर्ण विशेष मानों को दर्शाना चाहिए।
multi-factor प्रयोग के परिणामों को bar graph में न दिखाएं
- multi-factor प्रयोग के परिणाम प्रभावी ढंग से बताने के लिए factor-वार grouping और विभाजन की सावधानीपूर्वक डिज़ाइन ज़रूरी है।
rows और columns को पुनर्व्यवस्थित किए बिना heatmap न बनाएं
- heatmap को rows और columns के क्रम को ध्यान में रखकर प्रभावी ढंग से बनाना चाहिए।
- clustering के ज़रिए rows और columns को पुनर्व्यवस्थित किया जा सकता है, लेकिन यही एकमात्र तरीका नहीं है।
outlier जाँचे बिना heatmap न बनाएं
- heatmap में outlier की जाँच न करने से डेटा की व्याख्या पर बड़ा असर पड़ सकता है।
हर factor level पर data range देखना न भूलें
- multi-factor प्रयोगों में response variable की range factor level के अनुसार काफ़ी बदल सकती है।
अलग-अलग layout आज़माए बिना network graph न बनाएं
- network graph का रूप-रंग उसकी प्रभावशीलता तय करने वाला एक महत्वपूर्ण तत्व है।
- layout बदलकर network graph की व्याख्या को आसान बनाया जा सकता है।
position-based और length-based विज़ुअलाइज़ेशन को भ्रमित न करें
- position-based और length-based विज़ुअलाइज़ेशन को गड़बड़ करने से गलतफ़हमी पैदा हो सकती है।
- bar graph में 0-based scale से शुरू न करना डेटा विज़ुअलाइज़ेशन की बड़ी गलतियों में से एक है।
pie chart न बनाएं
- pie chart की आलोचना इसलिए होती है क्योंकि इंसान angle और area को पढ़ने में बहुत कुशल नहीं होते।
- अगर आप डेटा को length के रूप में दिखाना चाहते हैं, तो donut chart को खोलकर stacked bar graph बनाना बेहतर है।
concentric donut chart न बनाएं
- concentric donut chart डेटा को गलत तरह से दिखा सकता है, क्योंकि बाहरी ring की arc length भीतरी ring से काफ़ी लंबी होती है।
- एक सरल और प्रभावी विकल्प है donut chart को खोलकर stacked bar graph बनाना।
red/green और rainbow color scale का उपयोग न करें
- red-green color blindness को ध्यान में रखते हुए colorblind-friendly और grayscale में भी जानकारी सुरक्षित रखने वाली color scale का उपयोग करना चाहिए।
stacked bar graph को पुनर्व्यवस्थित करना न भूलें
- जब sample और class की संख्या अधिक हो, तो stacked bar graph के क्रम को optimize करके उसे अधिक प्रभावी बनाया जाना चाहिए।
GN⁺ की राय
इस लेख की सबसे महत्वपूर्ण बात यह है कि यह डेटा विज़ुअलाइज़ेशन करते समय होने वाली आम गलतियों और उनसे बचने के तरीकों के प्रति जागरूकता बढ़ाता है। डेटा विज़ुअलाइज़ेशन जटिल जानकारी को आसानी से समझाने का एक शक्तिशाली साधन है, लेकिन गलत उपयोग होने पर यह भ्रम पैदा कर सकता है। यह लेख उन सभी लोगों के लिए रोचक और उपयोगी मार्गदर्शन देता है जो डेटा को सटीक और स्पष्ट रूप से प्रस्तुत करना चाहते हैं।
2 टिप्पणियां
लेख का शीर्षक मज़ेदार है। अगर आप मूल लेख देखें, तो उसमें sample graph भी साथ में दिए गए हैं, इसलिए समझना आसान है।
Hacker News राय