- वेबसाइटें केवल लोगों को जानकारी देने के लिए ही नहीं, बल्कि LLM को जानकारी देने के लिए भी उपयोग की जाती हैं
- LLM का उपयोग उन development environments को बेहतर बनाने में किया जाता है जिन्हें coder इस्तेमाल करते हैं, जिसमें programming library और API की जानकारी वेबसाइट documentation से एकत्र करने का विकल्प भी शामिल है
- LLM के लिए जानकारी उपलब्ध कराना, लोगों के लिए जानकारी उपलब्ध कराने से थोड़ा अलग है, लेकिन कई हिस्सों में समान भी है
- आम तौर पर यह अधिक संक्षिप्त format में जानकारी पसंद करता है
- यह बहुत-सी जानकारी तेज़ी से एकत्र कर सकता है, इसलिए सभी प्रमुख जानकारी को एक ही जगह इकट्ठा करना मददगार होता है
- LLM का context window पूरे वेबसाइट को संसाधित करने के लिए बहुत छोटा होता है, और जटिल HTML pages को LLM-friendly plain text documents में बदलना कठिन होता है
- इसलिए AI assistant को देने के लिए सबसे महत्वपूर्ण जानकारी की पहचान करने और उसे सबसे उपयुक्त format में उपलब्ध कराने का तरीका आवश्यक है
Proposal
- जो लोग LLM-friendly content उपलब्ध कराना चाहते हैं, उनके लिए साइट में
/llms.txt फ़ाइल जोड़ने का प्रस्ताव है
- यह एक Markdown फ़ाइल है जो संक्षिप्त background information और instructions देती है, और अधिक विस्तृत जानकारी देने वाली Markdown files के links शामिल करती है
- इसका उपयोग library के उपयोग के लिए आवश्यक जानकारी देने या किसी व्यक्ति या संगठन के बारे में सीखने के लिए research के हिस्से के रूप में किया जा सकता है
llms.txt Markdown को लोग और LLM दोनों पढ़ सकते हैं, लेकिन यह सटीक format-आधारित processing की भी अनुमति देता है
llms.txt फ़ाइल का उपयोग विभिन्न scenarios में किया जा सकता है
- software library के मामले में, यह documentation का structured overview देती है ताकि LLM किसी खास feature या usage example को आसानी से ढूँढ सके
- corporate websites पर यह organizational structure और मुख्य information sources का खाका दे सकती है
- नए विधेयक तथा आवश्यक background और context की जानकारी को
llms.txt फ़ाइल में curate करके stakeholders की समझ में मदद की जा सकती है
- personal portfolio या CV websites किसी व्यक्ति से जुड़े सवालों के जवाब देने में मदद कर सकती हैं
- e-commerce में यह product categories और policies का संक्षिप्त परिचय दे सकती है
- educational institutions इसे course offerings और resources का सार देने के लिए उपयोग कर सकते हैं
llms.txt फ़ाइल format
llms.txt फ़ाइल format, language models के लिए समझने में आसान Markdown का उपयोग करके जानकारी की संरचना प्रदान करता है
- यह फ़ाइल पारंपरिक structured formats (जैसे XML) के बजाय Markdown का उपयोग करती है, क्योंकि फ़ाइल के मुख्य पाठक language models और agents हैं
llms.txt फ़ाइल को standard programming tools के माध्यम से पढ़ा जा सकता है, और यह एक विशेष format के अनुसार संगठित होती है
- H1 header: इसमें project या site का नाम होता है, और यही एकमात्र अनिवार्य section है.
- Blockquote: इसमें project का संक्षिप्त सार होता है, जो फ़ाइल के बाकी हिस्से को समझने के लिए आवश्यक मुख्य जानकारी देता है.
- Markdown sections: ये विस्तृत जानकारी देती हैं, और इनमें paragraph, list आदि जैसे कई प्रकार के sections हो सकते हैं, लेकिन अतिरिक्त headings शामिल नहीं होते.
- H2 headers से अलग किए गए file list sections: इनमें अतिरिक्त जानकारी देने वाले URLs की सूची होती है, और हर item Markdown link format
[नाम](URL) में लिखा जाता है, जिसमें वैकल्पिक रूप से description जोड़ा जा सकता है.
- फ़ाइल का उदाहरण
# 프로젝트 제목
> 프로젝트에 대한 선택적 설명이 여기에 들어감
선택적 세부 정보가 여기에 들어감
## 섹션 이름
- [링크 제목](https://링크_URL): 선택적 링크 설명
## Optional
- [링크 제목](https://링크_URL)
- "Optional" section: इसका एक विशेष अर्थ है; यदि केवल छोटा context चाहिए, तो इस URL को छोड़ा जा सकता है. इसमें अक्सर ऐसी secondary information शामिल होती है जिसे छोड़ा जा सकता है.
मौजूदा standards के साथ सह-अस्तित्व
llms.txt को मौजूदा web standards के साथ काम करने के लिए डिज़ाइन किया गया है
- जहाँ sitemaps search engines के लिए सभी pages की सूची देते हैं, वहीं
llms.txt LLMs (large language models) के लिए एक curated overview देता है
llms.txt, robots.txt के पूरक के रूप में काम करता है और allowed content के बारे में context दे सकता है
- यह साइट में उपयोग किए गए structured data markup का भी संदर्भ दे सकता है, जिससे LLM उसे समझने और interpret करने में मदद पा सकता है
/robots.txt और /sitemap.xml की तरह, इस फ़ाइल के path को भी standardize किया जाता है
- robots.txt और llms.txt के उद्देश्य अलग हैं
- robots.txt: इसका उपयोग automated tools (जैसे search indexing bots) यह समझने के लिए करते हैं कि साइट तक पहुँच की अनुमति किस सीमा तक है
- llms.txt: इसका उपयोग मुख्य रूप से तब होता है जब user किसी विशेष विषय पर जानकारी स्पष्ट रूप से माँगता है. उदाहरण के लिए, coding library के documentation को project में शामिल करना, या search feature वाले chatbot से जानकारी माँगना
- उम्मीद है कि
llms.txt मुख्य रूप से inference के लिए उपयोगी होगा. इसका उपयोग उस समय किया जाएगा जब users को मदद की आवश्यकता होगी, और अनुमान है कि इसका उपयोग training में नहीं होगा. हालांकि, यदि llms.txt का उपयोग व्यापक हो जाता है, तो भविष्य में training process में भी इस जानकारी का उपयोग संभव हो सकता है
- sitemap.xml से अंतर
- sitemap.xml: यह साइट की सभी indexable, human-readable जानकारी की सूची देता है
llms.txt, sitemap.xml का विकल्प नहीं है:
- इसमें LLM-readable page versions शामिल नहीं हो सकते.
- इसमें ऐसे external sites के URL शामिल नहीं होते जो जानकारी समझने में उपयोगी हो सकते हैं.
- इसमें आम तौर पर ऐसे बहुत बड़े documents शामिल होते हैं जो LLM के context window में फिट नहीं बैठते, और साइट को समझने के लिए अनावश्यक जानकारी भी बहुत होती है.
llms.txt एक ऐसे tool के रूप में काम कर सकता है जो language models के लिए विशेष जानकारी तक पहुँचने और context समझने के लिए optimize किया गया हो
4 टिप्पणियां
robots.txtको ही expand कर दें तो भी शायद काम चल सकता है… क्या LLM के लिए crawler को कोई खास दर्जा देने की ज़रूरत है?उससे ज़्यादा तो अच्छा होता अगर LLM crawlers के user-agent थोड़े व्यवस्थित होते… लेकिन user-agent खुद ही आजकल अनिश्चित स्थिति में है, तो बात थोड़ी धुंधली लगती है.
परिशिष्ट 1.
txtकहकर भी यह markdown क्यों है? मुझे भी Markdown बहुत पसंद है, लेकिन फिर भी…llmsजैसा naming किसी खास तकनीक के लिए interface की तरह दिखता है, इसलिए थोड़ा असहज लगता है...सही कहा। एक और अजीब और बहुत कम सामान्य उपयोग वाला standard बनाने के बजाय, शायद JSON-LD जैसे पहले से मौजूद standards का इस्तेमाल करना या उन्हें विस्तार देना बेहतर होगा।
अगर यह व्यापक रूप से फैल गया, तो उचित
llms.txtफ़ाइल के ज़रिए LLM को मेरी साइट इस्तेमाल करने से रोका जा सकेगा।या फिर पूरी तरह अलग और बेकार जानकारी दी जा सकती है,
या इतनी बड़ी जानकारी दी जा सकती है कि LLM का पूरा context ही खर्च हो जाए।