Semantic Web पहले से ही व्यापक रूप से अपनाया जा चुका है और उपयोग में है

(csvbase.com)

14 पॉइंट द्वारा GN⁺ 2024-08-22 | 4 टिप्पणियां | WhatsApp पर शेयर करें

Semantic Web पहले के Web 3.0 का नाम था। "Web 3.0" का मतलब "crypto जैसी चीज़ें" होने से पहले इसका अर्थ "machine-readable वेबसाइटें" था
मुझे लगा था कि Semantic Web की अवधारणा अब इस्तेमाल नहीं होती, लेकिन पता चला कि Semantic Web अब इतना व्यापक रूप से अपनाया जा चुका है कि यह कहना गलत नहीं होगा कि हम पहले से ही Web 3.0 इस्तेमाल कर रहे हैं
अगर Web 3.0 पहले से मौजूद है, तो वह कहाँ है? ज़्यादातर यह markup में छिपा हुआ है

JSON-LD का उपयोग करने वाली ब्लॉग पोस्टिंग

HTML पेज के <head> में <script type="application/ld+json"> एलिमेंट जोड़कर JSON-LD metadata शामिल किया जा सकता है
JSON-LD, Semantic Web metadata को encode करने का प्रमुख फ़ॉर्मैट है
उदाहरण: BlogPosting type का उपयोग करने वाला विवरण

{  
  "@context": "https://schema.org";,  
  "@type": "BlogPosting",  
  "headline": "From Shell to Excel - with a little bit of HTTPS",  
  "url": "https://csvbase.com/blog/10";,  
  "description": "Write once, read everywhere",  
  "author": {  
    "@type": "Person",  
    "name": "Cal Paterson",  
    "email": "cal@calpaterson.com",  
    "url": "https://calpaterson.com/about.html";  
  },  
  "image": "https://csvbase.com/blog-static/excel.png";,  
  "datePublished": "2024-08-12",  
  "dateCreated": "2024-08-12",  
  "dateModified": "2024-08-12"  
}

@ से शुरू होने वाली keys metadata हैं (meta-metadata?)
- @context namespace को और @type class type को दर्शाता है
- बाकी keys, BlogPosting type में अनुमत आइटम हैं
key की value किसी अन्य type की भी हो सकती है (जैसे author key में Person)

इससे मुझे क्या फ़ायदा होगा?

इसे कौन पढ़ता है? बहुत से bots JSON-LD metadata को parse करते हैं
Semantic Web metadata वाले ब्लॉग पोस्ट social media sites पर link preview दिखा सकते हैं, जिससे click-through rate बढ़ता है
search engine crawlers इस metadata का उपयोग करके search results में अधिक जानकारी दिखाते हैं
automated link aggregators इस data का उपयोग करके पोस्ट को users तक पहुँचाते हैं (जैसे Android कई sites की news स्क्रीन पर दिखाता है)
Semantic Web metadata permissionless है और vendor-neutral भी

क्या यह मुश्किल है?

नहीं, JSON-LD बहुत सरल है
- JSON-LD पेज पर पहले से मौजूद जानकारी को इस तरह व्यवस्थित करता है कि कंप्यूटर उसे पढ़ सके
अगर आप frontend app लिख सकते हैं, तो JSON-LD को भी आसानी से समझ सकते हैं

JSON-LD के अन्य प्रकार

BlogPosting के अलावा Event, LocalBusiness, JobPosting, Product, Recipe जैसे types भी हैं
csvbase table data का वर्णन करने के लिए Dataset type का उपयोग करता है

{  
  "@context": ["https://schema.org";, {"csvw": "https://www.w3.org/ns/csvw#";}],  
  "@type": "Dataset",  
  "name": "stock-exchanges",  
  "url": "https://csvbase.com/meripaterson/stock-exchanges";,  
  "isAccessibleForFree": true,  
  "distribution": [  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv";,  
      "encodingFormat": "text/csv",  
      "contentSize": "16222"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet";,  
      "encodingFormat": "application/parquet",  
      "contentSize": "10751"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx";,  
      "encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",  
      "contentSize": "15500"  
    },  
    {  
      "@type": "DataDownload",  
      "contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl";,  
      "encodingFormat": "application/x-jsonlines",  
      "contentSize": "38627"  
    }  
  ],  
  "dateCreated": "2022-04-25T13:43:24.746075+01:00",  
  "dateModified": "2023-04-02T20:27:33.255648+01:00",  
  "maintainer": {  
    "@type": "Person",  
    "name": "meripaterson",  
    "url": "https://csvbase.com/meripaterson";  
  },  
  "description": "The world's stock exchanges...",  
  "mainEntity": {  
    "@type": "csvw:Table",  
    "csvw:tableSchema": {  
      "csvw:columns": [  
        {"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},  
        {"csvw:name": "Continent", "csvw:datatype": "string"},  
        {"csvw:name": "Country", "csvw:datatype": "string"},  
        {"csvw:name": "Name", "csvw:datatype": "string"},  
        {"csvw:name": "MIC", "csvw:datatype": "string"},  
        {"csvw:name": "Last changed", "csvw:datatype": "date"}  
      ]  
    }  
  }  
}

क्या यह सब सच में ज़रूरी है? क्या AI सब संभाल नहीं लेगा?

बड़े language models (LLM) अक्सर गलतियाँ करते हैं
सटीकता सुनिश्चित करने के लिए metadata देना महत्वपूर्ण है
LLM का उपयोग महँगा पड़ता है, और web page पढ़ने के लिए GPU की ज़रूरत होती है

विकल्प

Open Graph Protocol: Facebook द्वारा बनाया गया standard, जो मुख्यतः content का वर्णन करता है
Microdata: सरल है, लेकिन parse करना कठिन है
Twitter Cards: Twitter पर content कैसे दिखेगा, यह बताता है
XML आधारित पुराने standards: library और archive systems में गहराई से supported हैं

Boring technology

यह काफ़ी आश्चर्यजनक है कि Semantic Web इतना Low-Key है। बहुत-सी sites पहले से ही इस तरह का metadata सेट कर चुकी हैं
"Semantic Web पहले से ही व्यापक है; बस उसके पास जीत का कोई बड़ा क्षण नहीं था"

GN⁺ का सार

Semantic Web मशीन द्वारा पढ़ी जा सकने वाली वेबसाइटें बनाने की तकनीक है, और यह पहले से ही व्यापक रूप से उपयोग में है.
JSON-LD, Semantic Web metadata को encode करने का प्रमुख फ़ॉर्मैट है और ब्लॉग पोस्टिंग, इवेंट, प्रोडक्ट आदि जैसे कई types को support करता है.
Semantic Web metadata social media और search engines में link preview और बेहतर search results देने में मदद करता है.
AI का उपयोग करके metadata को अपने-आप extract करना महँगा हो सकता है और हमेशा सटीक नहीं होता.
Open Graph Protocol, Microdata, Twitter Cards आदि जैसे कई विकल्प मौजूद हैं.

4 टिप्पणियां

cometkim 2024-08-22

Semantic Web के इतिहास और आज की स्थिति के बारे में जानने की जिज्ञासा रखने वालों के लिए मैं इस निबंध की सिफारिश करता हूँ.

https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…

2024-08-22

[यह टिप्पणी छिपाई गई है.]

ipuris 2024-08-22

मुझे नहीं लगता कि JSON-LD semantic web का core या कोई key technology है, लेकिन "semantic web पहले से ही व्यापक रूप से फैल चुका है, बस उसके पास जीत का कोई खास पल नहीं था" — यह बात काफ़ी सहमत होने लायक लगती है..!

GN⁺ 2024-08-22

Hacker News राय

Semantic वेब standards की समस्याएँ
- कई दशकों तक killer application की कमी रही
- वेब की गुणवत्ता खराब हुई और Wikipedia जैसा कोई turning point नहीं आया
- vision की अपूर्णता: SPARQL query और reasoners उपयोगी हैं, लेकिन औसत उपयोगकर्ता के लिए इनकी cognitive cost अधिक है
- बेहतर वेब के लिए अब भी Semantic वेब की दिशा ज़रूरी है
प्रयास विफल होने का अनुभव
- जिस साइट को आज़माया गया उसमें "Poem" category नहीं थी
- 9 साल पहले से अनुरोध किया गया था, लेकिन अब तक हल नहीं हुआ
JSON-LD और RSS की तुलना
- "Googlers, JSON-LD को RSS जितनी पहचान मिल सकती है"
- apps या services लॉन्च करके फिर बंद कर देने पर तंज़ जैसा मत
LLM और Semantic वेब का अर्थ
- अर्थ को publisher द्वारा परिभाषित नहीं किया जाना चाहिए
- क्या औसत publisher, LLM से ज़्यादा सटीक classification कर सकता है, इस पर संदेह है
- SEO hacking और blog spam इसलिए पनपे क्योंकि publisher को ही truth का एकमात्र source माना गया
- meaning को define करने की समस्या हल करनी होगी
Semantic वेब की वर्तमान स्थिति
- Facebook integration के आधार पर जीत घोषित करना, Semantic वेब की मौत के बराबर है
- OWL और अन्य standards का उद्देश्य page content पर annotation करना था
- author, title, photo, publication date जैसी जानकारी लगभग अर्थहीन है
महत्वपूर्ण अवधारणाओं की कमी
- linked data, RDF, federation और web query का कोई उल्लेख नहीं है
- JSON-LD सिर्फ एक serialization format है
- linked data तकनीकें data interoperability और reusability बढ़ाती हैं
- LLM और linked data एक-दूसरे के पूरक हैं
PDF का metadata
- PDF का metadata भी Semantic वेब standards पर आधारित है
- JSON-LD की जगह RDF को XML में लिखा जाता है
HTML का महत्व
- लगता है HTML कठिन होने के कारण उससे बचा जा रहा है
- अर्थ markup में छिपा नहीं होता, बल्कि markup स्वयं ही अर्थ है
AI और metadata
- AI metadata को replace नहीं कर सकता, इसके दो कारण हैं
  - LLM अक्सर गलत होता है
  - GPU time महंगा है
- LLM पहले ही 99% accuracy दिखा रहा है
- भविष्य में text को LLM से pass कराना कोई बड़ी समस्या नहीं रहेगा
JSON-LD और SEO
- Google, SEO सुधार के लिए 5 साल से अधिक समय से JSON-LD को आगे बढ़ा रहा है
- Open Graph protocol के ज़रिए ज़्यादातर प्रासंगिक page metadata पहले ही capture हो चुका है
- अतिरिक्त काम करके JSON-LD generate करने की ज़रूरत नहीं है