6 पॉइंट द्वारा xguru 2024-09-09 | 4 टिप्पणियां | WhatsApp पर शेयर करें
  • वेबसाइटें केवल लोगों को जानकारी देने के लिए ही नहीं, बल्कि LLM को जानकारी देने के लिए भी उपयोग की जाती हैं
  • LLM का उपयोग उन development environments को बेहतर बनाने में किया जाता है जिन्हें coder इस्तेमाल करते हैं, जिसमें programming library और API की जानकारी वेबसाइट documentation से एकत्र करने का विकल्प भी शामिल है
  • LLM के लिए जानकारी उपलब्ध कराना, लोगों के लिए जानकारी उपलब्ध कराने से थोड़ा अलग है, लेकिन कई हिस्सों में समान भी है
    • आम तौर पर यह अधिक संक्षिप्त format में जानकारी पसंद करता है
    • यह बहुत-सी जानकारी तेज़ी से एकत्र कर सकता है, इसलिए सभी प्रमुख जानकारी को एक ही जगह इकट्ठा करना मददगार होता है
    • LLM का context window पूरे वेबसाइट को संसाधित करने के लिए बहुत छोटा होता है, और जटिल HTML pages को LLM-friendly plain text documents में बदलना कठिन होता है
  • इसलिए AI assistant को देने के लिए सबसे महत्वपूर्ण जानकारी की पहचान करने और उसे सबसे उपयुक्त format में उपलब्ध कराने का तरीका आवश्यक है

Proposal

  • जो लोग LLM-friendly content उपलब्ध कराना चाहते हैं, उनके लिए साइट में /llms.txt फ़ाइल जोड़ने का प्रस्ताव है
    • यह एक Markdown फ़ाइल है जो संक्षिप्त background information और instructions देती है, और अधिक विस्तृत जानकारी देने वाली Markdown files के links शामिल करती है
    • इसका उपयोग library के उपयोग के लिए आवश्यक जानकारी देने या किसी व्यक्ति या संगठन के बारे में सीखने के लिए research के हिस्से के रूप में किया जा सकता है
  • llms.txt Markdown को लोग और LLM दोनों पढ़ सकते हैं, लेकिन यह सटीक format-आधारित processing की भी अनुमति देता है
  • llms.txt फ़ाइल का उपयोग विभिन्न scenarios में किया जा सकता है
    • software library के मामले में, यह documentation का structured overview देती है ताकि LLM किसी खास feature या usage example को आसानी से ढूँढ सके
    • corporate websites पर यह organizational structure और मुख्य information sources का खाका दे सकती है
    • नए विधेयक तथा आवश्यक background और context की जानकारी को llms.txt फ़ाइल में curate करके stakeholders की समझ में मदद की जा सकती है
    • personal portfolio या CV websites किसी व्यक्ति से जुड़े सवालों के जवाब देने में मदद कर सकती हैं
    • e-commerce में यह product categories और policies का संक्षिप्त परिचय दे सकती है
    • educational institutions इसे course offerings और resources का सार देने के लिए उपयोग कर सकते हैं

llms.txt फ़ाइल format

  • llms.txt फ़ाइल format, language models के लिए समझने में आसान Markdown का उपयोग करके जानकारी की संरचना प्रदान करता है
  • यह फ़ाइल पारंपरिक structured formats (जैसे XML) के बजाय Markdown का उपयोग करती है, क्योंकि फ़ाइल के मुख्य पाठक language models और agents हैं
  • llms.txt फ़ाइल को standard programming tools के माध्यम से पढ़ा जा सकता है, और यह एक विशेष format के अनुसार संगठित होती है
    • H1 header: इसमें project या site का नाम होता है, और यही एकमात्र अनिवार्य section है.
    • Blockquote: इसमें project का संक्षिप्त सार होता है, जो फ़ाइल के बाकी हिस्से को समझने के लिए आवश्यक मुख्य जानकारी देता है.
    • Markdown sections: ये विस्तृत जानकारी देती हैं, और इनमें paragraph, list आदि जैसे कई प्रकार के sections हो सकते हैं, लेकिन अतिरिक्त headings शामिल नहीं होते.
    • H2 headers से अलग किए गए file list sections: इनमें अतिरिक्त जानकारी देने वाले URLs की सूची होती है, और हर item Markdown link format [नाम](URL) में लिखा जाता है, जिसमें वैकल्पिक रूप से description जोड़ा जा सकता है.
  • फ़ाइल का उदाहरण
# 프로젝트 제목  
  
> 프로젝트에 대한 선택적 설명이 여기에 들어감  
  
선택적 세부 정보가 여기에 들어감  
  
## 섹션 이름  
  
- [링크 제목](https://링크_URL): 선택적 링크 설명  
  
## Optional  
  
- [링크 제목](https://링크_URL)  
  • "Optional" section: इसका एक विशेष अर्थ है; यदि केवल छोटा context चाहिए, तो इस URL को छोड़ा जा सकता है. इसमें अक्सर ऐसी secondary information शामिल होती है जिसे छोड़ा जा सकता है.

मौजूदा standards के साथ सह-अस्तित्व

  • llms.txt को मौजूदा web standards के साथ काम करने के लिए डिज़ाइन किया गया है
  • जहाँ sitemaps search engines के लिए सभी pages की सूची देते हैं, वहीं llms.txt LLMs (large language models) के लिए एक curated overview देता है
  • llms.txt, robots.txt के पूरक के रूप में काम करता है और allowed content के बारे में context दे सकता है
  • यह साइट में उपयोग किए गए structured data markup का भी संदर्भ दे सकता है, जिससे LLM उसे समझने और interpret करने में मदद पा सकता है
  • /robots.txt और /sitemap.xml की तरह, इस फ़ाइल के path को भी standardize किया जाता है
    • robots.txt और llms.txt के उद्देश्य अलग हैं
      • robots.txt: इसका उपयोग automated tools (जैसे search indexing bots) यह समझने के लिए करते हैं कि साइट तक पहुँच की अनुमति किस सीमा तक है
      • llms.txt: इसका उपयोग मुख्य रूप से तब होता है जब user किसी विशेष विषय पर जानकारी स्पष्ट रूप से माँगता है. उदाहरण के लिए, coding library के documentation को project में शामिल करना, या search feature वाले chatbot से जानकारी माँगना
    • उम्मीद है कि llms.txt मुख्य रूप से inference के लिए उपयोगी होगा. इसका उपयोग उस समय किया जाएगा जब users को मदद की आवश्यकता होगी, और अनुमान है कि इसका उपयोग training में नहीं होगा. हालांकि, यदि llms.txt का उपयोग व्यापक हो जाता है, तो भविष्य में training process में भी इस जानकारी का उपयोग संभव हो सकता है
  • sitemap.xml से अंतर
    • sitemap.xml: यह साइट की सभी indexable, human-readable जानकारी की सूची देता है
    • llms.txt, sitemap.xml का विकल्प नहीं है:
      • इसमें LLM-readable page versions शामिल नहीं हो सकते.
      • इसमें ऐसे external sites के URL शामिल नहीं होते जो जानकारी समझने में उपयोगी हो सकते हैं.
      • इसमें आम तौर पर ऐसे बहुत बड़े documents शामिल होते हैं जो LLM के context window में फिट नहीं बैठते, और साइट को समझने के लिए अनावश्यक जानकारी भी बहुत होती है.
    • llms.txt एक ऐसे tool के रूप में काम कर सकता है जो language models के लिए विशेष जानकारी तक पहुँचने और context समझने के लिए optimize किया गया हो

4 टिप्पणियां

 
iolothebard 2025-02-27

robots.txt को ही expand कर दें तो भी शायद काम चल सकता है… क्या LLM के लिए crawler को कोई खास दर्जा देने की ज़रूरत है?
उससे ज़्यादा तो अच्छा होता अगर LLM crawlers के user-agent थोड़े व्यवस्थित होते… लेकिन user-agent खुद ही आजकल अनिश्चित स्थिति में है, तो बात थोड़ी धुंधली लगती है.

परिशिष्ट 1. txt कहकर भी यह markdown क्यों है? मुझे भी Markdown बहुत पसंद है, लेकिन फिर भी…

 
kwj9211 2024-09-09

llms जैसा naming किसी खास तकनीक के लिए interface की तरह दिखता है, इसलिए थोड़ा असहज लगता है...

 
ilotoki0804 2024-09-10

सही कहा। एक और अजीब और बहुत कम सामान्य उपयोग वाला standard बनाने के बजाय, शायद JSON-LD जैसे पहले से मौजूद standards का इस्तेमाल करना या उन्हें विस्तार देना बेहतर होगा।

 
regentag 2024-09-09

अगर यह व्यापक रूप से फैल गया, तो उचित llms.txt फ़ाइल के ज़रिए LLM को मेरी साइट इस्तेमाल करने से रोका जा सकेगा।
या फिर पूरी तरह अलग और बेकार जानकारी दी जा सकती है,
या इतनी बड़ी जानकारी दी जा सकती है कि LLM का पूरा context ही खर्च हो जाए।