8 पॉइंट द्वारा GN⁺ 2026-02-21 | 3 टिप्पणियां | WhatsApp पर शेयर करें
  • Letterboxd जैसा साफ़-सुथरा और व्यावहारिक book logging app बनाने की कोशिश में, ISBN सिस्टम की संरचनात्मक समस्या सबसे बड़ा अवरोध निकली
  • किताब खोज सुविधा के लिए Google Books API इस्तेमाल करते समय पता चला कि वही रचना कई ISBN versions में अलग-अलग items के रूप में लौटती है
  • इसकी वजह bibliographic structure (FRBR model) में ‘work’, ‘expression’ और ‘manifestation’ का अलग-अलग होना है; यानी उपयोगकर्ता सिर्फ़ ‘मैंने यह किताब पढ़ी’ दर्ज करना चाहे, तब भी डेटा बहुत बारीक हिस्सों में बँटा होता है
  • OpenLibrary ‘work’-केंद्रित data structure देता है, लेकिन उसमें भी duplication और incompleteness बनी रहती है, इसलिए वह पूरी तरह उपयुक्त विकल्प नहीं बन पाता
  • फ़िल्म database TMDB जैसी high-quality public metadata infrastructure किताबों की दुनिया में नहीं है, और यही book-centric social platform development की एक बड़ी बाधा है

Letterboxd और book platforms की तुलना

  • Letterboxd अपने clean interface और non-intrusive social features की वजह से फ़िल्म देखने के रिकॉर्ड को आसानी से मैनेज करने देता है
    • उपयोगकर्ता कौन-सी फ़िल्म देखी और कब देखी, इसे आसानी से दर्ज कर सकते हैं
  • इसके विपरीत GoodReads का जटिल UI और multi-step click structure किताबों का रिकॉर्ड रखना असुविधाजनक बनाता है
    • ‘पढ़ी गई किताबें’ और ‘पढ़नी हैं’ एक ही स्क्रीन पर मिली होती हैं, और reading challenges, newsletters जैसे अतिरिक्त elements जगह घेरते हैं
    • GoodReads के असुविधाजनक होने की एक वजह यह भी है कि वह Amazon के book-selling business की कम प्राथमिकता वाला derivative product है
  • Storygraph में भी मिलती-जुलती समस्याएँ हैं, इसलिए उपयोगकर्ता अंततः Obsidian files में अपने निजी रिकॉर्ड मैनेज करने लगते हैं

Google Books API और ISBN की समस्या

  • किताब खोज सुविधा बनाने के लिए Google Books API का उपयोग किया गया, लेकिन वही रचना कई ISBN के साथ duplicate results में दिखाई दी
    • उदाहरण के लिए “The Last Unicorn” खोजने पर hardcover, paperback, eBook, revised editions आदि अलग-अलग ISBN के साथ लौटते हैं
  • हर ISBN एक अलग format या edition को दर्शाता है, लेकिन उपयोगकर्ता तो बस इतना दर्ज करना चाहता है कि ‘उसने यह किताब पढ़ी’
  • यह संरचना search और data integration को कठिन बनाती है, इसलिए single-work unit पर आधारित रिकॉर्ड सिस्टम बनाने के लिए उपयुक्त नहीं है

FRBR model और ‘work’ इकाई वाला दृष्टिकोण

  • library science में इस्तेमाल होने वाला FRBR model book data को चार स्तरों में बाँटता है
    • Work (कृति): स्वयं अमूर्त रचना (उदाहरण: उपन्यास "The Last Unicorn")
    • Expression (अभिव्यक्ति): किसी रचना का विशिष्ट संस्करण
    • Manifestation (रूप): उस संस्करण का भौतिक format (paperback, hardcover आदि)
    • Item (वस्तु): किसी collection में मौजूद व्यक्तिगत भौतिक प्रति
  • Google Books मुख्यतः ‘expression’ या ‘manifestation’ स्तर का डेटा लौटाता है, जबकि उपयोगकर्ता को ‘work’ स्तर की अमूर्त इकाई चाहिए
  • OpenLibrary ‘work’-केंद्रित data structure देता है, लेकिन उसमें अब भी duplicate entries मौजूद हैं
    • उदाहरण: Yoko Ogawa की Hotel Iris खोजने पर वही कृति चार बार duplicate दिखती है

data quality और ecosystem की सीमाएँ

  • Letterboxd की बुनियाद The Movie Database (TMDB) पर है, और TMDB के पास लगभग 10 लाख फ़िल्मों का डेटा है
  • दूसरी ओर OpenLibrary में 4 करोड़ से अधिक works शामिल हैं, लेकिन उनमें अधूरा और बिना refinement वाला data बहुत है
  • फ़िल्म data में commercial platforms और community contributions का संयोजन होने से quality बेहतर है, जबकि book data का scale बहुत बड़ा है और funding कम है
  • इसी कारण किताबों के लिए Letterboxd जैसी सेवा बनाने हेतु ज़रूरी foundational data मौजूद नहीं है

निष्कर्ष और आगे की कोशिश

  • पूरी तरह open source book metadata infrastructure मौजूद न होने के कारण, book logging platform बनाना फ़िल्मों की तुलना में कहीं अधिक कठिन काम है
  • लेखक अब भी स्वतंत्र book logging system बनाने की कोशिश जारी रखने वाला है
  • फ़िल्मों में अपनी पसंद खोजने के अनुभव की तरह किताबों के रिकॉर्ड में भी personalized approach की ज़रूरत है

3 टिप्पणियां

 
nemorize 2026-02-21

हाँ... ISBN तो प्रकाशन की पहचान के लिए होता है, कंटेंट की पहचान के लिए नहीं...
टाइटल बहुत ज़्यादा clickbait है lol

 
roxie 2026-02-27

लगता है कि कंटेंट के identifier वाली जगह खाली है :(

 
yeobi222 2026-02-22

यह भी सच है कि ISBN सिस्टम में व्यवस्थित वर्गीकरण पर बहुत ज़्यादा विचार नहीं किया गया है...
नियमों के मुताबिक हर पुनर्मुद्रण को अलग नंबर दिया जाना चाहिए, लेकिन सबसे निचली श्रेणी प्रकाशक होने की वजह से, कृतियों के हिसाब से वर्गीकरण की ज़रूरत होने के बावजूद उसका प्रबंधन आसान नहीं है।