- Semantic Web पहले के Web 3.0 का नाम था। "Web 3.0" का मतलब "crypto जैसी चीज़ें" होने से पहले इसका अर्थ "machine-readable वेबसाइटें" था
- मुझे लगा था कि Semantic Web की अवधारणा अब इस्तेमाल नहीं होती, लेकिन पता चला कि Semantic Web अब इतना व्यापक रूप से अपनाया जा चुका है कि यह कहना गलत नहीं होगा कि हम पहले से ही Web 3.0 इस्तेमाल कर रहे हैं
- अगर Web 3.0 पहले से मौजूद है, तो वह कहाँ है? ज़्यादातर यह markup में छिपा हुआ है
JSON-LD का उपयोग करने वाली ब्लॉग पोस्टिंग
- HTML पेज के
<head> में <script type="application/ld+json"> एलिमेंट जोड़कर JSON-LD metadata शामिल किया जा सकता है
- JSON-LD, Semantic Web metadata को encode करने का प्रमुख फ़ॉर्मैट है
- उदाहरण: BlogPosting type का उपयोग करने वाला विवरण
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "From Shell to Excel - with a little bit of HTTPS",
"url": "https://csvbase.com/blog/10",
"description": "Write once, read everywhere",
"author": {
"@type": "Person",
"name": "Cal Paterson",
"email": "cal@calpaterson.com",
"url": "https://calpaterson.com/about.html"
},
"image": "https://csvbase.com/blog-static/excel.png",
"datePublished": "2024-08-12",
"dateCreated": "2024-08-12",
"dateModified": "2024-08-12"
}
@ से शुरू होने वाली keys metadata हैं (meta-metadata?)
@context namespace को और @type class type को दर्शाता है
- बाकी keys, BlogPosting type में अनुमत आइटम हैं
- key की value किसी अन्य type की भी हो सकती है (जैसे author key में Person)
इससे मुझे क्या फ़ायदा होगा?
- इसे कौन पढ़ता है? बहुत से bots JSON-LD metadata को parse करते हैं
- Semantic Web metadata वाले ब्लॉग पोस्ट social media sites पर link preview दिखा सकते हैं, जिससे click-through rate बढ़ता है
- search engine crawlers इस metadata का उपयोग करके search results में अधिक जानकारी दिखाते हैं
- automated link aggregators इस data का उपयोग करके पोस्ट को users तक पहुँचाते हैं (जैसे Android कई sites की news स्क्रीन पर दिखाता है)
- Semantic Web metadata permissionless है और vendor-neutral भी
क्या यह मुश्किल है?
- नहीं, JSON-LD बहुत सरल है
- JSON-LD पेज पर पहले से मौजूद जानकारी को इस तरह व्यवस्थित करता है कि कंप्यूटर उसे पढ़ सके
- अगर आप frontend app लिख सकते हैं, तो JSON-LD को भी आसानी से समझ सकते हैं
JSON-LD के अन्य प्रकार
- BlogPosting के अलावा Event, LocalBusiness, JobPosting, Product, Recipe जैसे types भी हैं
- csvbase table data का वर्णन करने के लिए Dataset type का उपयोग करता है
{
"@context": ["https://schema.org", {"csvw": "https://www.w3.org/ns/csvw#"}],
"@type": "Dataset",
"name": "stock-exchanges",
"url": "https://csvbase.com/meripaterson/stock-exchanges",
"isAccessibleForFree": true,
"distribution": [
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.csv",
"encodingFormat": "text/csv",
"contentSize": "16222"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.parquet",
"encodingFormat": "application/parquet",
"contentSize": "10751"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.xlsx",
"encodingFormat": "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
"contentSize": "15500"
},
{
"@type": "DataDownload",
"contentUrl": "https://csvbase.com/meripaterson/stock-exchanges.jsonl",
"encodingFormat": "application/x-jsonlines",
"contentSize": "38627"
}
],
"dateCreated": "2022-04-25T13:43:24.746075+01:00",
"dateModified": "2023-04-02T20:27:33.255648+01:00",
"maintainer": {
"@type": "Person",
"name": "meripaterson",
"url": "https://csvbase.com/meripaterson"
},
"description": "The world's stock exchanges...",
"mainEntity": {
"@type": "csvw:Table",
"csvw:tableSchema": {
"csvw:columns": [
{"csvw:name": "csvbase_row_id", "csvw:datatype": "integer"},
{"csvw:name": "Continent", "csvw:datatype": "string"},
{"csvw:name": "Country", "csvw:datatype": "string"},
{"csvw:name": "Name", "csvw:datatype": "string"},
{"csvw:name": "MIC", "csvw:datatype": "string"},
{"csvw:name": "Last changed", "csvw:datatype": "date"}
]
}
}
}
क्या यह सब सच में ज़रूरी है? क्या AI सब संभाल नहीं लेगा?
- बड़े language models (LLM) अक्सर गलतियाँ करते हैं
- सटीकता सुनिश्चित करने के लिए metadata देना महत्वपूर्ण है
- LLM का उपयोग महँगा पड़ता है, और web page पढ़ने के लिए GPU की ज़रूरत होती है
विकल्प
- Open Graph Protocol: Facebook द्वारा बनाया गया standard, जो मुख्यतः content का वर्णन करता है
- Microdata: सरल है, लेकिन parse करना कठिन है
- Twitter Cards: Twitter पर content कैसे दिखेगा, यह बताता है
- XML आधारित पुराने standards: library और archive systems में गहराई से supported हैं
Boring technology
- यह काफ़ी आश्चर्यजनक है कि Semantic Web इतना Low-Key है। बहुत-सी sites पहले से ही इस तरह का metadata सेट कर चुकी हैं
- "Semantic Web पहले से ही व्यापक है; बस उसके पास जीत का कोई बड़ा क्षण नहीं था"
GN⁺ का सार
- Semantic Web मशीन द्वारा पढ़ी जा सकने वाली वेबसाइटें बनाने की तकनीक है, और यह पहले से ही व्यापक रूप से उपयोग में है.
- JSON-LD, Semantic Web metadata को encode करने का प्रमुख फ़ॉर्मैट है और ब्लॉग पोस्टिंग, इवेंट, प्रोडक्ट आदि जैसे कई types को support करता है.
- Semantic Web metadata social media और search engines में link preview और बेहतर search results देने में मदद करता है.
- AI का उपयोग करके metadata को अपने-आप extract करना महँगा हो सकता है और हमेशा सटीक नहीं होता.
- Open Graph Protocol, Microdata, Twitter Cards आदि जैसे कई विकल्प मौजूद हैं.
4 टिप्पणियां
Semantic Web के इतिहास और आज की स्थिति के बारे में जानने की जिज्ञासा रखने वालों के लिए मैं इस निबंध की सिफारिश करता हूँ.
https://lespetitescases.net/why-I-dont-use-semantic-web-technologies-a…
मुझे नहीं लगता कि JSON-LD semantic web का core या कोई key technology है, लेकिन "semantic web पहले से ही व्यापक रूप से फैल चुका है, बस उसके पास जीत का कोई खास पल नहीं था" — यह बात काफ़ी सहमत होने लायक लगती है..!
Hacker News राय
Semantic वेब standards की समस्याएँ
प्रयास विफल होने का अनुभव
JSON-LD और RSS की तुलना
LLM और Semantic वेब का अर्थ
Semantic वेब की वर्तमान स्थिति
महत्वपूर्ण अवधारणाओं की कमी
PDF का metadata
HTML का महत्व
AI और metadata
JSON-LD और SEO