- यह एक ऐसा लेख था जिसमें Kaggle पर अवैध रूप से अपलोड किए गए Harry Potter dataset का उपयोग करके SQL-आधारित RAG application बनाने की प्रक्रिया दिखाई गई थी, लेकिन इसे पहले ही हटा दिया गया है
- Azure SQL और Microsoft Fabric SQL DB, native vector search को support करते हैं, और
langchain-sqlserver के जरिए Vector Store management संभव है
- Azure Blob Storage से load करना, text chunking, Azure OpenAI embeddings बनाना, और फिर vectors को SQL में store करने का flow बनाया गया है
- vector similarity search और metadata filter का उपयोग करके सटीक Q&A system बनाया गया है
- उसी vector store का उपयोग करके GPT4o-आधारित fan fiction generation feature तक विस्तार किया गया है
- Archive.is लिंक
Azure SQL native vector support और LangChain integration
- Azure SQL और Microsoft Fabric SQL DB में native vector search feature public preview में उपलब्ध है
langchain-sqlserver package जारी होने से SQL Server को LangChain Vector Store के रूप में manage किया जा सकता है
- PyPI और GitHub repository के जरिए installation और sample code उपलब्ध हैं
- Azure SQL DB, LangChain, और LLM को जोड़कर सिर्फ कुछ lines of code से generative AI feature जोड़ा जा सकता है
example dataset की संरचना
- Kaggle द्वारा उपलब्ध Harry Potter 7-पुस्तक text dataset का उपयोग किया गया
- इसमें 7
.txt files शामिल हैं
- demo में केवल पहली पुस्तक Harry Potter and the Sorcerer’s Stone का उपयोग किया गया
- आम तौर पर परिचित dataset का उपयोग करके समझने में आसान उदाहरण तैयार किया गया
sample application बनाने के चरण
1. langchain-sqlserver package install करना
pip install langchain-sqlserver==0.1.1 command से integration package install किया जाता है
- SQL-आधारित vector store feature सक्रिय होता है
2. Azure Blob Storage data load और chunking
- Harry Potter text file को Azure Blob Storage में store करके फिर load किया जाता है
- LangChain के AzureBlobStorage integration feature का उपयोग किया गया
langchain-text-splitter से लंबे text को छोटे chunks में बांटा गया
- Azure OpenAI embedding input token limits से निपटने के लिए
3. embeddings और Chat Completion define करना
- Azure OpenAI का उपयोग करके हर chunk के लिए text embeddings generate किए जाते हैं
- LangChain में उपलब्ध अन्य embedding models से भी इसे बदला जा सकता है
- Chat Completion configuration के जरिए question-answering के लिए तैयारी की जाती है
4. Vector Store initialize करना और documents insert करना
- AzureOpenAI embeddings के साथ Vector Store initialize किया जाता है
add_documents function से documents और embeddings को Azure SQL में store किया जाता है
- कम code में vector generation और storage संभव है
5. similarity search चलाना
similarity_search_with_score function से vector similarity search चलाया जाता है
- metadata filter support उपलब्ध है
- खास metadata properties के आधार पर search scope को सीमित किया जा सकता है
Use Case 1: Q&A system बनाना
- SQL Vector Store और LangChain-आधारित story Q&A system लागू किया गया है
- user question पर top 10 relevant documents खोजकर response generate किया जाता है
vector_store-आधारित retriever बनाया जाता है
create_stuff_documents_chain से question-answer chain बनाई जाती है
ChatPromptTemplate से structured response format define किया जाता है
create_retrieval_chain इस्तेमाल करने पर retrieved documents "context" key के साथ लौटते हैं
- response generation में उपयोग किए गए source display feature का support मिलता है
Use Case 2: Harry Potter fan fiction generation
- vector store के आधार पर नया AI fan fiction generation feature लागू किया गया है
- user prompt देने पर संबंधित paragraphs खोजे जाते हैं
- SQL vector store में stored embeddings के आधार पर context similarity खोजी जाती है
- retrieved paragraphs को एक string में व्यवस्थित कर model input context बनाया जाता है
- GPT4o model को context और user prompt साथ में दिया जाता है
- मौजूदा context elements को प्रतिबिंबित करती नई कहानी बनाई जाती है
- generated result के साथ referenced vector source information भी दिखाई जाती है
integrated usage scenario
- Q&A system और fan fiction generation feature को जोड़कर interactive reading experience दिया जाता है
- किताब की सामग्री समझनी हो तो Q&A उपयोग किया जा सकता है
- किसी खास scene का विस्तार या alternative ending बनाया जा सकता है
code samples और resources
- LangChain-SQL-RAG notebook GitHub repository उपलब्ध है
- Azure SQL और SQL Server feedback portal के जरिए feature improvement request की जा सकती है
1 टिप्पणियां
Hacker News की टिप्पणियाँ
लगता है कि Microsoft की यह घटना कॉपीराइट समस्या से भी ज़्यादा बुनियादी प्रोसेस के टूटने को दिखाती है
अगर दस्तावेज़ तक रिव्यू नहीं होते, तो यह सवाल उठता है कि नए code का ठीक से review होने की कितनी संभावना है
मैं management से पूछना चाहूँगा — security, quality, और AI innovation इन तीन स्तंभों में से आप किसे चुनेंगे
(Scott Hanselman, मैं आपको पसंद करता हूँ, लेकिन इसका जवाब आप सीधे मत दें, बस इसे leadership तक ज़रूर पहुँचाएँ)
उस समय बिना approval process के मैं व्यक्तिगत रूप से पोस्ट कर सकता था, और इसी वजह से ब्लॉग एक ज़्यादा स्वाभाविक और ईमानदार जगह था
यह मामला बस किसी की गलत judgement का नतीजा लगता है, और पोस्ट हटाया जाना स्वाभाविक कदम दिखता है
लेकिन ज़्यादा अहम बात यह है कि क्या उस लेखक की team AI training के लिए copyright infringement को सही ठहरा रही है
लगता है कि न सिर्फ internal lawyers बल्कि बाहर के लोग भी इस मुद्दे को देखेंगे
code में bugs से गंभीर समस्याएँ हो सकती हैं, इसलिए औपचारिक review process होता है,
लेकिन documents software के behavior को सीधे प्रभावित नहीं करते, इसलिए उन पर उतनी सख्ती लागू नहीं होती
दस्तावेज़ review नहीं हुए, इसका मतलब यह नहीं कि code भी review नहीं हुआ
बड़े संगठनों में विभागों के अनुसार validation का स्तर अलग-अलग होता है, और code पर documents की तुलना में कहीं ज़्यादा सख्त नियंत्रण होता है
वह लगभग Stack Overflow के जवाब को ज्यों का त्यों copy करने जैसी थी, और जब error message search करते हुए वह मिली
तो गुस्सा कम, बस निराशा ज़्यादा हुई
Microsoft की ब्लॉग पोस्ट में Kaggle के Harry Potter dataset page का लिंक था
वह पेज CC0 यानी public domain होने का दावा करता है, लेकिन साफ़ तौर पर copyright issue की आशंका है
ऊपर से वह पोस्ट नवंबर 2024 से मौजूद थी, और अब तक नहीं हटाई गई थी, यह हैरान करता है
“Report Dataset” फीचर से report करने की कोशिश की तो Google के copyright report page पर redirect कर दिया गया
लेकिन वहाँ “अगर आप copyright holder या उसके agent नहीं हैं तो report नहीं कर सकते” कहकर मना कर दिया गया
यह पूरी तरह कॉमेडी जैसी स्थिति है। वह dataset साफ़ तौर पर चोरी का है
बल्कि संभावना ज़्यादा है कि गलत license के साथ upload करने वाला व्यक्ति ज़िम्मेदार हो
लेकिन “Harry Potter” नाम देखकर कोई भी समझ सकता है कि यह public domain नहीं है,
इसलिए सामान्य समझ के हिसाब से Microsoft भी ज़िम्मेदारी से आसानी से नहीं बच सकता
Microsoft ने आखिरकार वह पेज हटा दिया
लेकिन archive.is पर सुरक्षित कॉपी अब भी मौजूद है
इसका शीर्षक “5 मिनट में RAG app बनाइए” था और यह Azure व GPT के उदाहरण पर आधारित थी
यह निराशाजनक है कि लोग अब भी उस साइट का इस्तेमाल करते हैं
ब्लॉग का AI-generated thumbnail(image link)
युवा Harry और उसके दोस्त को Microsoft logo के सामने दिखा रहा था। सच में चौंकाने वाला
शायद frame थोड़ा और चौड़ा होता तो डिब्बों के बीच का connection ही गायब होता
मैं Microsoft का समर्थक नहीं हूँ, लेकिन इस मामले को “pirated guide” कहना कुछ ज़्यादा है
यह बस research example है, product integration नहीं
copyright monopoly और fair use को लेकर यह अतिप्रतिक्रिया शर्मनाक स्तर की है
research के लिए भी इस्तेमाल किए गए text का उचित भुगतान करने की उसकी क्षमता पूरी है
ज़्यादातर commercial LLM कंपनियाँ इसी तरह का काम कर रही हैं
यानी एक कंपनी ने अपने official blog पर ऐसा काम guide किया जो आम व्यक्ति के लिए illegal है
Anthropic पर copyright infringement को लेकर 1.5 billion dollar settlement का मामला भी रहा है
मुझे मौजूदा copyright system पसंद नहीं, लेकिन कंपनियों और व्यक्तियों के लिए अलग पैमाना स्वीकार नहीं किया जा सकता
यह piracy guide नहीं थी, बल्कि बस dataset को SQL में शामिल करने का तरीका समझाने वाली पोस्ट थी
बल्कि ज़िम्मेदारी Kaggle या uploader Shubham Maindola की तरफ़ ज़्यादा जाती है
“Harry Potter ebook को txt में convert किया” — data source का यह विवरण बहुत डरावना लगता है
फिर भी Kaggle score 10.0 होना हैरान करता है
यह पोस्ट 2024 में डाली गई थी और Kaggle अभी भी data host कर रहा है
हैरानी है कि Rowling की तरफ़ से अब तक कोई कार्रवाई क्यों नहीं हुई
Kaggle पर लगभग 10 हज़ार downloads होने के कारण संभव है कि इसने ज़्यादा ध्यान न खींचा हो
लेकिन यह साफ़ तौर पर हद पार करने वाली बात है
पहले भी Microsoft का AI से जुड़ा plagiarism मामला सामने आया था,
तब भी कहा गया था कि internal review process लगभग न के बराबर है
संबंधित thread: “Microsoft morged my diagram”
मगर अब commercial models के आने से स्थिति पूरी तरह बदल गई है
Books3 जैसे datasets, जिनमें सैकड़ों हज़ार copyrighted किताबें शामिल थीं, पहले सार्वजनिक हुए थे
पेज पहले ही delete हो चुका है, लेकिन web archive copy अभी भी बची हुई है
यह चिंता की बात है कि नैतिकता-बोध से रहित लोग भविष्य की तकनीक बना रहे हैं
अगर इतनी सख्त hiring process से गुज़रे लोग भी ऐसा judgement लेते हैं,
तो असल में महत्वपूर्ण फैसले कितने जोखिमभरे होंगे, यह सोचकर डर लगता है
लेकिन उससे यह माफ़ नहीं हो जाता
अब ऐसा लगता है जैसे intellectual property बेअसर हो चुकी दुनिया आ गई है
इसलिए मज़ाक में सुझाव दिया गया कि क्या कोई “ऐसा novel startup” में निवेश करेगा जहाँ AI Harry Potter को ज्यों का त्यों उगल दे
अब तक AI ने लगातार सबसे अच्छा काम शायद humor में ही किया है
अनंत रूप से स्केल होने वाला AI startup idea भी सामने आया
और कहा गया कि मौजूदा products से समानता “सिर्फ संयोग” है
आम आदमी ऐसा करे तो अब भी सब कुछ खो देता है और जेल चला जाता है
Microsoft की मौजूदा दिशा देखकर यह घटना बिल्कुल भी हैरान नहीं करती
2026 के Microsoft में मानो copyright law और intellectual property अब लागू ही नहीं होते