हम कितने विकेंद्रीकृत हो चुके हैं?

(arewedecentralizedyet.online)

2 पॉइंट द्वारा GN⁺ 2025-08-31 | 2 टिप्पणियां | WhatsApp पर शेयर करें

यह साइट मापती है कि Fediverse (Mastodon, Pixelfed आदि) और Atmosphere (Bluesky, WhiteWind आदि) में यूज़र डेटा कितना केंद्रित है
सर्वरों के बीच यूज़र वितरण की मात्रा का विश्लेषण करने के लिए Herfindahl–Hirschman Index(HHI) और Shannon Index का उपयोग किया जाता है
HHI अर्थशास्त्र में प्रतिस्पर्धा मापने का एक सूचक है; मान जितना कम होगा, वितरण उतना अधिक होगा, और जितना अधिक होगा, उतना ही एकाधिकार-जनित केंद्रीकरण दर्शाएगा
Shannon Index एक एंट्रॉपी-आधारित विविधता सूचक है; मान जितना अधिक होगा, उतना ही यह दर्शाता है कि सर्वरों के बीच आबादी अधिक समान रूप से वितरित है
यह प्रोजेक्ट डेटा केंद्रीकरण के अलावा नेटवर्क संरचना, कानूनी अधिकार-क्षेत्र, सामाजिक शक्ति का केंद्रीकरण जैसे विकेंद्रीकरण के कई अन्य मापदंडों पर भी विचार करता है, और GitHub पर डेटा व कोड सार्वजनिक करता है

परिचय और मुख्य अवधारणाएँ

Fediverse और Atmosphere प्लेटफ़ॉर्म में यूज़र डेटा कितना केंद्रित है, इसे Herfindahl–Hirschman Index(HHI) की मदद से मापा जाता है
HHI अर्थशास्त्र में प्रतिस्पर्धा के स्तर का आकलन करने वाला एक प्रमुख सूचक है, जिसे हर सर्वर (या PDS) के यूज़र हिस्से के वर्गों को जोड़कर निकाला जाता है
HHI का मान 0 के जितना करीब होगा, उतना ही यह दर्शाता है कि यूज़र कई सर्वरों में समान रूप से वितरित हैं; और 10,000 के जितना करीब होगा, उतना ही यह संकेत देता है कि अधिकांश यूज़र एक ही सर्वर पर केंद्रित एकाधिकार स्थिति में हैं
आमतौर पर HHI 100 से कम हो तो उसे "बहुत प्रतिस्पर्धी", 1,500 से कम हो तो "अकेंद्रित", और 2,500 या उससे अधिक हो तो "उच्च केंद्रीकरण" माना जाता है

मापन विधि और डेटा की परिभाषा

मापन का लक्ष्य Fediverse के सर्वर (इंस्टेंस) और Atmosphere के PDS (Personal Data Server) हैं
Mastodon जैसे प्लेटफ़ॉर्म, जहाँ यूज़र कई इंस्टेंस में फैले होते हैं, उनमें एक ही ऑपरेटर के स्वामित्व वाले इंस्टेंस को एक साथ जोड़ा जाता है
- उदाहरण: mastodon.social और mastodon.online एक ही कंपनी चलाती है, इसलिए उन्हें आँकड़ों में जोड़कर गिना जाता है
- Bluesky Social PBC द्वारा प्रबंधित सभी PDS को भी एक इकाई के रूप में गिना जाता है
इससे किसी एक इकाई द्वारा नियंत्रित यूज़र स्केल अधिक सटीक रूप से प्रतिबिंबित होता है

केंद्रीकरण को मापने के विभिन्न दृष्टिकोण

यूज़र डेटा के भौतिक वितरण के अलावा भी कई पहलुओं से विकेंद्रीकरण का विश्लेषण किया जा सकता है
- नेटवर्क संरचना का दृष्टिकोण (जैसे P2P, relay आदि)
- पहचान प्रबंधन के तरीके
- वास्तविक इन्फ्रास्ट्रक्चर का स्वामित्व और स्थान (क्षेत्र, अधिकार-क्षेत्र आदि)
- सामाजिक और संगठनात्मक शक्ति का केंद्रीकरण (जैसे प्लेटफ़ॉर्म के भीतर प्रभाव का केंद्रित होना)
केवल प्लेटफ़ॉर्म के भीतर डेटा वितरण ही नहीं, बल्कि अधिकार और प्रभाव के वितरण को भी महत्व दिया जाना चाहिए

प्रोजेक्ट में भागीदारी और ओपन सोर्स

मापन में उपयोग किया गया पूरा कोड और डेटा सेट GitHub रिपॉज़िटरी पर सार्वजनिक है
योगदान, टिप्पणियाँ, नए मापन सूचक प्रस्ताव, और resiliency (लचीलापन) सूचक जोड़ने का स्वागत है

2 टिप्पणियां

codject 2025-08-31

'क्या हम अभी भी decentralize नहीं हुए हैं?' कहना पूरी तरह गलत तो नहीं है, लेकिन यह अप्राकृतिक और अटपटा लगता है।
अभी भी आमतौर पर नकारात्मक वाक्य के साथ इस्तेमाल होता है, इसलिए...

मुझे लगता है कि क्या decentralization अभी दूर है? जैसा अनुवाद ज़्यादा स्वाभाविक शीर्षक हो सकता है.

GN⁺ 2025-08-31

Hacker News राय

आज पहली बार Herfindahl–Hirschman Index के बारे में पता चला, इसलिए इसे किसी यादगार और अजीब केस पर आज़माना चाहता था
1980 के दशक के अंत में, एक समय ऐसा था जब Macintosh spreadsheet बाज़ार में Microsoft का share 100% से भी ऊपर चला गया था
यह कैसे संभव हुआ, तो market share निकालने का तरीका यह है कि किसी निश्चित अवधि में हर प्रतिभागी की बिक्री को कुल बाज़ार बिक्री से भाग दिया जाता है, लेकिन उस समय Lotus की Lotus Jazz spreadsheet इतनी बुरी तरह असफल रही कि उसके returns उसकी sales से ज़्यादा हो गए
नतीजतन Lotus का share negative हो गया, और Microsoft Excel की sales कुल बाज़ार बिक्री से ज़्यादा दिखीं, इसलिए उसका share 100% से ऊपर निकल गया
मुझे exact number याद नहीं, लेकिन कुछ Microsoft 102%, Lotus -2% जैसा था
ऐसे मामले में Herfindahl–Hirschman Index 1022 + (-2)2 = 10404 + 4 = 10408 होगा
इस तरह के extreme case में HHI 10,000 से ऊपर भी जा सकता है
(स्पष्टता के लिए "किसी निश्चित अवधि के भीतर" वाली शर्त जोड़ी गई है)
- मैंने इस पर लेख ऑनलाइन बहुत मेहनत से ढूँढे, लेकिन नहीं मिले (शायद कहीं microfiche में हों...)
  लेकिन इसकी जगह एक मज़ेदार किस्सा मिला
  कहा जाता है कि Lotus के एक executive ने मज़ाक में कहा था, “पहले महीने हमने 62,000 copies ship कीं, और अगले महीने 64,000 वापस आ गईं। यहाँ तक कि pirated copies भी लौटा दी गईं।”
  Forbes संबंधित लेख
- HHI वाकई एक उपयोगी metric है
  normalized shares के squares के sum की अवधारणा सिर्फ market share ही नहीं, कई तरह की स्थितियों में अच्छे से लागू होती है
  voting में भी इसके बहुत अच्छे उपयोग के उदाहरण हैं
नतीजा दिलचस्प है, इसलिए हैरानी की बात नहीं
आम user के नज़रिए से BlueSky लगभग Twitter का विकल्प बन चुका है
Mastadon के कुल users कम हैं, लेकिन यह अच्छा लगता है कि Mastadon ecosystem, AT-Proto ecosystem की तरह centralization से बचता दिखता है
निजी तौर पर मुझे लगता है कि AT proto server/relay चलाने की लागत छोटे operators के लिए काफ़ी भारी होगी, हालाँकि यह दोनों ecosystems की internal structure को गहराई से जाने बिना लगाया गया अनुमान है
- अपने और कुछ दोस्तों के लिए PDS server चलाना इतना महँगा नहीं है
  लेकिन इस तरह चलाने में कोई बहुत बड़ा फ़ायदा भी नहीं है; PDS का मकसद अपने data को पूरे network के data से साफ़-साफ़ अलग रखना है
  ATProto में जो चीज़ें महँगी पड़ती हैं वे Relay (पूरा data collect/broadcast करना) और AppView (सभी posts/likes वगैरह को database में रखकर user requests का जवाब देना) हैं
  बेशक छोटे network में, जैसे WhiteWind जैसा long-form posting use case, event volume कम होता है इसलिए यह आसानी से संभव है
  ज़्यादातर चीज़ें इस तरह design की गई हैं कि आपको खुद host करने की ज़रूरत न पड़े
  आप अपना algorithmic feed या frontend, Bluesky द्वारा चलाए जा रहे Relay या AppView से data लेकर बना सकते हैं
- मुझे लगता है BlueSky के सफल होने की एक वजह यह है कि वह Mastodon की तरह users को 'decentralization' बेचने की कोशिश नहीं करता
  ज़्यादातर users न तो जानते हैं कि decentralization क्या है, न ही जानना चाहते हैं
  decentralization से ज़्यादा मेहनत अच्छे operations और moderation tools पर लगनी चाहिए
- ATProto को अलग-अलग पृष्ठभूमि वाली कंपनियों और investors का समर्थन मिला हुआ है
  किसी न किसी दिन वे भी return चाहेंगे, और यह किस रूप में आएगा, इसका अंदाज़ा लगाना मुश्किल है
- operating costs की चर्चा पर, ATProto की architecture अपने आप में काफ़ी अलग है
  Mastodon कई अलग-अलग Twitter-जैसे servers का समूह है जो email की तरह आपस में जानकारी साझा करते हैं, इसलिए छोटे जान-पहचान वाले servers सस्ते पड़ते हैं
  लेकिन इस संरचना में global network से connectivity कमज़ोर होती है, और मेरा server ही मेरी identity बन जाता है
  अगर मैं किसी दूसरे server के user को follow करता हूँ, तो मेरा server उस server से जानकारी fetch करता है, लेकिन मूल रूप से पूरे network का view fragmented रहता है
  ATProto को शुरू से ही centralized services से compete करने के लिए अलग तरह से partition किया गया है, जहाँ data origin और application aggregation अलग हैं
  यह कुछ-कुछ ऐसा है जैसे हर user अपनी website (url) पर JSON publish करे और apps उस data को aggregate करें
  नतीजतन सबको एक जैसा view मिलता है (सभी comments, likes, replies शामिल होते हैं)
  Mastodon में एक 'instance' अपने आप में एक स्वतंत्र Twitter webapp है, जबकि ATProto में कई distributed primitives हैं
  - PDS app-agnostic data store है, इसे खुद चलाने की लागत बहुत कम है (लगभग $1/माह प्रति user से कम), इसका open source implementation भी है, और यह Git hosting जैसा है
  - AppView असल application backend की भूमिका निभाता है; पूरे network data को ingest करने वाला Bluesky AppView चलाने में लगभग $300/माह लगते हैं
    Mastodon की तरह network के सिर्फ एक हिस्से को देखने वाला AppView इससे कहीं सस्ता है, लेकिन वह ज़्यादा आकर्षक नहीं होने के कारण लगभग इस्तेमाल नहीं होता
  - Relay कई PDS और AppView के बीच data broadcast optimization के लिए है; Sync 1.1 के बाद इसकी लागत काफ़ी घटकर लगभग $30/माह रह गई है
    संक्षेप में, PDS और Relay चलाना सस्ता है, और पूरा AppView चलाना महँगा है, क्योंकि Mastodon में इसका कोई सीधा समकक्ष है ही नहीं
    Mastodon के fragmented experience और ATProto के consistent experience की साधारण price comparison करना ठीक नहीं होगा
    Mastodon-जैसा partial AppView चलाना सस्ता है, लेकिन व्यावहारिक आकर्षण कम है
    इसके अलावा Mastodon on-demand fetching लाकर कुछ समस्या कम करने की कोशिश कर रहा है, लेकिन pull-based distributed systems की अपनी सीमाएँ हैं
    संबंधित प्रश्न
आख़िरकार distributed systems में भी स्वाभाविक रूप से centralization दिखाई देता है
Git भी decentralization की कोशिश थी, लेकिन व्यवहार में चीज़ें GitHub या GitLab जैसे platforms पर केंद्रित हो गईं
BitTorrent भी distributed है, लेकिन tracker sites स्वाभाविक केंद्र की तरह काम करती हैं
Bitcoin में भी Coinbase जैसी कुछ services केंद्र की भूमिका निभाने लगती हैं
email (SMTP) में भी spam की समस्या के कारण व्यवहारिक centralization है
- email (SMTP) के मामले में यह कहना कि "केवल बड़े providers ही spam filtering कर सकते हैं" सही नहीं है
  distributed spam filtering lists बहुत पहले से मौजूद हैं, और spam filtering में बड़े providers के पास कोई विशेष बढ़त भी नहीं है
  हाँ, बड़े providers छोटे mail servers को spam मानने की तरफ झुकते हैं, और यह भी हो सकता है कि वे वास्तव में प्रतिस्पर्धियों को दबाना चाहते हों
  लेकिन mail server पर reverse DNS और DKIM ठीक से सेट होने के बाद भी हर बार spam में ही जाना तय नहीं है, और बड़े services भी एक-दूसरे को spam मान सकती हैं, इसलिए यह कोई absolute नियम नहीं है
- tracker sites कई तरह की हैं, और अगर एक गायब हो जाए तो दूसरी जल्दी ही आ जाती है
  इसलिए ecosystem को नियंत्रित करने वाला कोई एकल player नहीं है, और इस अर्थ में इसे अब भी distributed कहा जा सकता है
- Coinbase जैसी service कोई भी बना सकता है
  वास्तव में कई समान sites मौजूद हैं, और अब PayPal भी उपलब्ध है
  किसी एक service पर निर्भर रहने की ज़रूरत नहीं है; उदाहरण के लिए आप PayPal पर bitcoin खरीदकर Coinbase पर बेच सकते हैं
  मुझे नहीं लगता कि ऐसी स्थिति को centralization कहना ठीक है
- यह भी सही है कि Git खुद decentralization को लक्ष्य बनाकर बनाया गया tool नहीं था
- लेकिन जिन सभी उदाहरणों का ज़िक्र हुआ, उनमें किसी न किसी रूप में centralizing element मौजूद है
fedi में ज़्यादा decentralization है, लेकिन consistency की कमी है
यही वह चीज़ है जिसकी शिकायत fedi में आने वाले users सबसे ज़्यादा करते हैं
व्यक्तिगत रूप से मुझे यह एक बड़ा leap लगता है और मैं इससे ठीक हूँ, लेकिन ज़्यादा ज़रूरी है कि realistic expectations तय की जाएँ
- मैं जानना चाहता हूँ कि consistency से आपका सटीक मतलब क्या है (मैंने fediverse इस्तेमाल नहीं किया है, इसलिए context नहीं है)
मुझे जिज्ञासा है कि IRC, NNTP जैसे पुराने federated systems को HHI जैसी पद्धति से कैसे मापा जा सकता है
यह जानने की इच्छा है कि पुराने systems ऐसे metrics पर क्या नतीजे दिखाएँगे
- एक उदाहरण है कि freenode का मालिक बदलते ही लगभग एक हफ़्ते के भीतर लगभग सभी लोग migrate कर गए
  यह दिलचस्प है कि यह migration इतना आसान और संभव था
- छोटे, semi-private माहौल में खासकर web frontend के साथ scroll-back देने वाला IRC अब भी शानदार है
  लेकिन जैसे-जैसे scale बहुत बड़ा होता है, politics और cultural differences के कारण चीज़ें टूटने लगती हैं
  एक जैसे सोच वाले लोग हों तो यह बहुत अच्छी तरह काम करता है, लेकिन पूरी तरह public होते ही disagreements, trolls और AI bots जैसी समस्याएँ आती हैं
  web interface को semi-private रखकर, simple authentication और referrer blocking जैसी चीज़ों से security threats, disruption और third-party bots को रोका जा सकता है
  NNTP भी ठीक है, लेकिन पूरे binary groups को अलग-अलग mirror करना आसान नहीं है, और ISP अब इसका support नहीं करते, इसलिए ज़्यादातर लोग commercial news feeds या free Usenet providers का उपयोग करते हैं
  censorship के जोखिम को कम करने के लिए कुछ free providers के साथ peering करना अच्छा रहता है
  IRC और NNTP दोनों में लोग अपने private या semi-private linked servers बना सकते हैं
  संबंधित जानकारी
- इसका गणितीय हिसाब लगाना आसान है, और संबंधित network statistics netsplit.de पर देखे जा सकते हैं
अगर Nostr को भी ऐसे HHI distribution में जोड़ा जाए तो दिलचस्प होगा
Nostr में user-base concentration को fedi model की एक मुख्य कमजोरी माना जाता है, लेकिन Nostr में user identity किसी एक relay पर नहीं रहती, इसलिए यह थोड़ा अजीब तरीके से लागू होगा
- क्योंकि ज़्यादातर Nostr clients data को कई relays पर भेजते हैं, और account खुद user device के public key pair पर आधारित होता है
मुझे लगता है यह centralization/decentralization का सवाल अक्सर marketing और UX का ही सवाल होता है
अगर Threads Fediverse में शामिल हो जाए तो दिलचस्प बदलाव देखने को मिल सकते हैं
- Threads भी अपने स्तर पर मज़बूत privacy controls opt-in रूप में देता है, लेकिन अंततः उसे भी Fediverse में "user data का मालिक server" मानकर देखा जा सकता है
सही balance बनाए रखना ज़रूरी है
बहुत ज़्यादा decentralization हो जाए तो किसी को कुछ मिल ही नहीं पाता, और बहुत ज़्यादा centralization हो जाए तो censorship के कारण आज़ादी खत्म हो जाती है
- निजी तौर पर मैं सोचता हूँ कि distributed माहौल में discoverability क्या सचमुच असंभव है
  अगर indexing में पर्याप्त resources (पैसा/लोग आदि) लगाए जाएँ, तो middle ground को शायद उल्टे खड़े pendulum जैसी अस्थिर अवस्था में बनाए रखा जा सकता है
  blog के golden age में search engines (केंद्रीय) और blogs/forums (व्यक्तिगत) के बीच एक संतुलन था, लेकिन समय के साथ spam और बड़े platforms में समेकन ने उसे कमज़ोर कर दिया
- मैं इस धारणा पर सवाल उठाना चाहता हूँ कि 'discovery' के लिए centralizing element अनिवार्य ही है
- economics के हिसाब से HHI 100 से कम हो तो 'बहुत प्रतिस्पर्धी', 1500 से कम हो तो 'unconcentrated', और 2500 से ऊपर हो तो 'highly concentrated' माना जाता है
  Fediverse लगभग सबसे बाएँ सिरे के क़रीब होते हुए भी पहले से 690 पर है
  पूरी तरह centralized स्थिति (ऊपर तक सीधी रेखा) 5000 है
  असल में इसे nonlinear scale को linear तरीके से दिखाना कहा जा सकता है
- मैं artificial choice नहीं बल्कि वास्तविक विकल्प चाहता हूँ
  ऐसा setup हो जहाँ user खुद centralization, decentralization, hybrid जैसे options चुन सके
- अगर आलोचना यह है कि यह 'बहुत ज़्यादा distributed' है, तो कोई non-profit सार्वजनिक hosts की स्वैच्छिक registry वाला index बना सकता है ताकि सारा distributed content खोजा जा सके
  इस तरह search की समस्या भी हल हो सकती है
  अंततः हो सकता है Facebook Threads के ज़रिए ऐसे data को अपनी ओर खींचने की कोशिश करे
HHI metric खुद में नया और समझने में आसान लगता है
अगर इसे 0~100 scale पर लाया जाए (100 से divide करके), तो number ज़्यादा intuitive लग सकते हैं
और इसे उलटकर 0 = centralization, 100 = पूर्ण decentralization कर देना भी विचार करने लायक है
homepage के title से ऐसा लगता है जैसे यह decentralization की दिशा में 'progress' माप रहा हो, इसलिए ऐसा करना शायद ज़्यादा सहज लगे
- लेकिन 0~100 में normalize न करने की एक वजह यह भी हो सकती है कि लोग इसे linear scale की तरह महसूस न करें
  2500 जैसा score देखकर लोग पूछते हैं कि इसका मतलब क्या है, लेकिन अगर 25/100 दिखे तो 'high concentration' की गंभीरता उतनी महसूस नहीं होगी