4 पॉइंट द्वारा GN⁺ 2024-12-16 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GitHub प्रोजेक्ट मानचित्र

  • 400,000 से अधिक GitHub प्रोजेक्ट्स को विज़ुअलाइज़ करने वाला एक मानचित्र। हर बिंदु एक प्रोजेक्ट को दर्शाता है, और जिन प्रोजेक्ट्स के common stargazers ज़्यादा हैं वे एक-दूसरे के अधिक करीब स्थित हैं.

  • यह कैसे बनाया गया?

    • पहले चरण में GitHub activity events के public dataset का उपयोग करके यह डेटा इकट्ठा किया गया कि किस उपयोगकर्ता ने किस repository को star दिया। जनवरी 2020 से मार्च 2023 तक के events को ध्यान में रखकर 350 मिलियन से अधिक stars का डेटा प्राप्त किया गया.

    • दूसरे चरण में हर repository pair के बीच exact Jaccard similarity की गणना की गई। 24GB RAM वाले personal computer पर इसे प्रोसेस करना कठिन था, लेकिन 512GB RAM वाले AWS EC2 instance का उपयोग करके इसे कुछ घंटों में प्रोसेस किया गया.

    • तीसरे चरण में कुछ clustering algorithms का उपयोग करके repositories को समूहित किया गया। Leiden clustering को सबसे अधिक पसंद किया गया, और इससे 1000 से अधिक clusters बनाए गए.

    • चौथे चरण में ngraph.forcelayout का उपयोग करके clusters के भीतर nodes का layout निकाला गया, और अलग configuration के साथ clusters का global layout प्राप्त किया गया.

    • पाँचवें चरण में मानचित्र को render किया गया। पिछले प्रोजेक्ट्स के विपरीत, maplibre का उपयोग करके डेटा को GeoJSON फ़ॉर्मैट में बदला गया, और tippecanoe से tiles बनाकर browsing environment तैयार किया गया.

  • देशों के नाम

    • कई country labels ChatGPT की मदद से बनाए गए। अगर कहीं कोई गलती हो, तो right click करके उसे सुधारें और pull request भेजें, तो आभारी रहूँगा.
  • Geocoding?

    • search box को लागू करने के लिए सभी repositories को बस dump करके पहले अक्षर (या author के नाम) के आधार पर index किया गया। अगर search box में 'a' टाइप किया जाए, तो 'a' से शुरू होने वाली सभी repositories खोजी जाती हैं और client पर fuzzy matcher के जरिए दिखाई जाती हैं.
  • डिज़ाइन

    • इस प्रोजेक्ट में data representation को map design से अधिक महत्व दिया गया है। अगर आपको map design का अनुभव है या आपके पास कोई शानदार design vision है, तो बेझिझक साझा करें। डेटा के अनुरूप style की तलाश है.
  • समर्थन

    • अगर आपको यह प्रोजेक्ट उपयोगी लगता है, तो support group में शामिल हों। प्रोजेक्ट के बारे में मदद चाहिए या कोई सवाल हो, तो issue खोलें या Twitter पर संपर्क करें.

    • प्रोजेक्ट शुरू करने में मदद करने वाले दोस्तों और समर्थकों का धन्यवाद: Ryan, Andrey, Alex, Dmytro। आप शानदार हैं!

    • इस प्रोजेक्ट का logo बनाने वाली मेरी प्यारी बेटी Louise का धन्यवाद। प्यार!

    • इस प्रोजेक्ट को संभव बनाने वाले सभी open source contributors को अनंत धन्यवाद। मैं दिग्गजों के कंधों पर खड़ा हूँ.

  • लाइसेंस

    • यह repository MIT license के तहत प्रकाशित है। अगर आप इस डेटा को अपने काम में उपयोग करें, तो कृपया इस प्रोजेक्ट को attribution दें.

1 टिप्पणियां

 
GN⁺ 2024-12-16
Hacker News राय
  • कुछ लोगों ने हैरानी जताई कि Rustland छोटा है और Clouderra के सिर्फ़ एक हफ़्ते जितना ही है

    • यह दिलचस्प है कि Bevy और Veloren, Rustland में हैं
    • लगता है कि Rust कम्युनिटी, game development कम्युनिटी से ज़्यादा stars देती है
    • ऐसा महसूस होता है कि Rust ecosystem अभी भी छोटा है और बहुत से लोग Rust में कुछ न कुछ कर रहे हैं
  • search फीचर के बिना सिर्फ़ map के सहारे किसी खास project को ढूंढने वाला mini-game मज़ेदार है

  • torvalds/linux का Fronterra में होना दिलचस्प है, और वह JS projects, awesome-X lists, और frontend checklist के बगल में है

    • यह सोचने वाली बात है कि क्या kernel hackers frontend पसंद करते हैं, या फिर GitHub projects को stars देने वाले लोग और code लिखने वाले लोग काफ़ी हद तक अलग हैं
  • Among Us सेक्शन का नाम "Sussex" होना मज़ेदार लगा

  • यह बात थोड़ी उलझाऊ लगी कि क्या देश/map वाला रूपक सबसे अच्छा विकल्प है

    • नाम अक्सर इतने स्पष्ट नहीं हैं कि बिना zoom किए समझ आ जाएँ
    • hierarchical clustering के ज़रिए (super)clusters के बीच औसत connectivity को lines से दिखाना शायद ज़्यादा दिलचस्प हो सकता है
    • हर cluster के लिए ज़्यादा व्याख्यात्मक और सटीक LLM-generated labels का इस्तेमाल बेहतर हो सकता है
  • "Homelabia" जैसा अनोखा नाम चुनना मज़ेदार है

  • इस पर पहले भी चर्चा हो चुकी है

    • 2023 की चर्चा का link दिया गया है
  • यह जानने की जिज्ञासा है कि repositories के बीच connections कैसे तय किए जाते हैं

    • जब उन्होंने अपनी repository देखी, तो connection के references दोनों दिशाओं में दिखाई नहीं दिए