Microsoft की LLM ट्रेनिंग के लिए Harry Potter piracy गाइड (2024) [हटाया गया]

(devblogs.microsoft.com)

1 पॉइंट द्वारा GN⁺ 2026-02-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें

यह एक ऐसा लेख था जिसमें Kaggle पर अवैध रूप से अपलोड किए गए Harry Potter dataset का उपयोग करके SQL-आधारित RAG application बनाने की प्रक्रिया दिखाई गई थी, लेकिन इसे पहले ही हटा दिया गया है
Azure SQL और Microsoft Fabric SQL DB, native vector search को support करते हैं, और langchain-sqlserver के जरिए Vector Store management संभव है
Azure Blob Storage से load करना, text chunking, Azure OpenAI embeddings बनाना, और फिर vectors को SQL में store करने का flow बनाया गया है
vector similarity search और metadata filter का उपयोग करके सटीक Q&A system बनाया गया है
उसी vector store का उपयोग करके GPT4o-आधारित fan fiction generation feature तक विस्तार किया गया है
Archive.is लिंक

Azure SQL native vector support और LangChain integration

Azure SQL और Microsoft Fabric SQL DB में native vector search feature public preview में उपलब्ध है
langchain-sqlserver package जारी होने से SQL Server को LangChain Vector Store के रूप में manage किया जा सकता है
- PyPI और GitHub repository के जरिए installation और sample code उपलब्ध हैं
Azure SQL DB, LangChain, और LLM को जोड़कर सिर्फ कुछ lines of code से generative AI feature जोड़ा जा सकता है

example dataset की संरचना

Kaggle द्वारा उपलब्ध Harry Potter 7-पुस्तक text dataset का उपयोग किया गया
- इसमें 7 .txt files शामिल हैं
- demo में केवल पहली पुस्तक Harry Potter and the Sorcerer’s Stone का उपयोग किया गया
आम तौर पर परिचित dataset का उपयोग करके समझने में आसान उदाहरण तैयार किया गया

sample application बनाने के चरण

1. langchain-sqlserver package install करना

pip install langchain-sqlserver==0.1.1 command से integration package install किया जाता है
SQL-आधारित vector store feature सक्रिय होता है

2. Azure Blob Storage data load और chunking

Harry Potter text file को Azure Blob Storage में store करके फिर load किया जाता है
LangChain के AzureBlobStorage integration feature का उपयोग किया गया
langchain-text-splitter से लंबे text को छोटे chunks में बांटा गया
- Azure OpenAI embedding input token limits से निपटने के लिए

3. embeddings और Chat Completion define करना

Azure OpenAI का उपयोग करके हर chunk के लिए text embeddings generate किए जाते हैं
LangChain में उपलब्ध अन्य embedding models से भी इसे बदला जा सकता है
Chat Completion configuration के जरिए question-answering के लिए तैयारी की जाती है

4. Vector Store initialize करना और documents insert करना

AzureOpenAI embeddings के साथ Vector Store initialize किया जाता है
add_documents function से documents और embeddings को Azure SQL में store किया जाता है
कम code में vector generation और storage संभव है

5. similarity search चलाना

similarity_search_with_score function से vector similarity search चलाया जाता है
metadata filter support उपलब्ध है
- खास metadata properties के आधार पर search scope को सीमित किया जा सकता है

Use Case 1: Q&A system बनाना

SQL Vector Store और LangChain-आधारित story Q&A system लागू किया गया है
user question पर top 10 relevant documents खोजकर response generate किया जाता है
vector_store-आधारित retriever बनाया जाता है
create_stuff_documents_chain से question-answer chain बनाई जाती है
ChatPromptTemplate से structured response format define किया जाता है
create_retrieval_chain इस्तेमाल करने पर retrieved documents "context" key के साथ लौटते हैं
- response generation में उपयोग किए गए source display feature का support मिलता है

Use Case 2: Harry Potter fan fiction generation

vector store के आधार पर नया AI fan fiction generation feature लागू किया गया है
user prompt देने पर संबंधित paragraphs खोजे जाते हैं
- SQL vector store में stored embeddings के आधार पर context similarity खोजी जाती है
retrieved paragraphs को एक string में व्यवस्थित कर model input context बनाया जाता है
GPT4o model को context और user prompt साथ में दिया जाता है
- मौजूदा context elements को प्रतिबिंबित करती नई कहानी बनाई जाती है
generated result के साथ referenced vector source information भी दिखाई जाती है

integrated usage scenario

Q&A system और fan fiction generation feature को जोड़कर interactive reading experience दिया जाता है
- किताब की सामग्री समझनी हो तो Q&A उपयोग किया जा सकता है
- किसी खास scene का विस्तार या alternative ending बनाया जा सकता है

code samples और resources

LangChain-SQL-RAG notebook GitHub repository उपलब्ध है
- https://github.com/Azure-Samples/azure-sql-db-vector-search
Azure SQL और SQL Server feedback portal के जरिए feature improvement request की जा सकती है

1 टिप्पणियां

GN⁺ 2026-02-20

Hacker News की टिप्पणियाँ

लगता है कि Microsoft की यह घटना कॉपीराइट समस्या से भी ज़्यादा बुनियादी प्रोसेस के टूटने को दिखाती है
अगर दस्तावेज़ तक रिव्यू नहीं होते, तो यह सवाल उठता है कि नए code का ठीक से review होने की कितनी संभावना है
मैं management से पूछना चाहूँगा — security, quality, और AI innovation इन तीन स्तंभों में से आप किसे चुनेंगे
(Scott Hanselman, मैं आपको पसंद करता हूँ, लेकिन इसका जवाब आप सीधे मत दें, बस इसे leadership तक ज़रूर पहुँचाएँ)
- मैंने Microsoft में लंबे समय तक काम किया है और ब्लॉग भी चलाया था
  उस समय बिना approval process के मैं व्यक्तिगत रूप से पोस्ट कर सकता था, और इसी वजह से ब्लॉग एक ज़्यादा स्वाभाविक और ईमानदार जगह था
  यह मामला बस किसी की गलत judgement का नतीजा लगता है, और पोस्ट हटाया जाना स्वाभाविक कदम दिखता है
  लेकिन ज़्यादा अहम बात यह है कि क्या उस लेखक की team AI training के लिए copyright infringement को सही ठहरा रही है
  लगता है कि न सिर्फ internal lawyers बल्कि बाहर के लोग भी इस मुद्दे को देखेंगे
- यह मान लेना सही नहीं कि document review, code review से कम महत्वपूर्ण है
  code में bugs से गंभीर समस्याएँ हो सकती हैं, इसलिए औपचारिक review process होता है,
  लेकिन documents software के behavior को सीधे प्रभावित नहीं करते, इसलिए उन पर उतनी सख्ती लागू नहीं होती
  दस्तावेज़ review नहीं हुए, इसका मतलब यह नहीं कि code भी review नहीं हुआ
- यह बात सही है कि ऐसी घटना संगठन के कहीं न कहीं समस्या दिखाती है, लेकिन उसे पूरे codebase पर लागू कर देना अतिशयोक्ति है
  बड़े संगठनों में विभागों के अनुसार validation का स्तर अलग-अलग होता है, और code पर documents की तुलना में कहीं ज़्यादा सख्त नियंत्रण होता है
- पहले से मुझे यह impression रहा है कि Microsoft के developer blogs ज़्यादातर अलग-अलग developers की पहल पर चलते हैं
- मैंने भी devblogs पर इसी स्तर की quality वाली पोस्ट देखी है
  वह लगभग Stack Overflow के जवाब को ज्यों का त्यों copy करने जैसी थी, और जब error message search करते हुए वह मिली
  तो गुस्सा कम, बस निराशा ज़्यादा हुई
Microsoft की ब्लॉग पोस्ट में Kaggle के Harry Potter dataset page का लिंक था
वह पेज CC0 यानी public domain होने का दावा करता है, लेकिन साफ़ तौर पर copyright issue की आशंका है
ऊपर से वह पोस्ट नवंबर 2024 से मौजूद थी, और अब तक नहीं हटाई गई थी, यह हैरान करता है
- मैंने Kaggle पेज खुद देखा, और वह 2 साल से वैसा ही था
  “Report Dataset” फीचर से report करने की कोशिश की तो Google के copyright report page पर redirect कर दिया गया
  लेकिन वहाँ “अगर आप copyright holder या उसके agent नहीं हैं तो report नहीं कर सकते” कहकर मना कर दिया गया
  यह पूरी तरह कॉमेडी जैसी स्थिति है। वह dataset साफ़ तौर पर चोरी का है
- सिर्फ लिंक देने से Microsoft तुरंत ज़िम्मेदार हो, यह ज़रूरी नहीं
  बल्कि संभावना ज़्यादा है कि गलत license के साथ upload करने वाला व्यक्ति ज़िम्मेदार हो
  लेकिन “Harry Potter” नाम देखकर कोई भी समझ सकता है कि यह public domain नहीं है,
  इसलिए सामान्य समझ के हिसाब से Microsoft भी ज़िम्मेदारी से आसानी से नहीं बच सकता
Microsoft ने आखिरकार वह पेज हटा दिया
लेकिन archive.is पर सुरक्षित कॉपी अब भी मौजूद है
- लेकिन वह पोस्ट 2024 की थी, इसलिए लगता है किसी ने यह thread देखकर कार्रवाई की
- क्या यह पोस्ट भी साथ में हटाई गई, यह जानने की उत्सुकता है
  इसका शीर्षक “5 मिनट में RAG app बनाइए” था और यह Azure व GPT के उदाहरण पर आधारित थी
- यह साफ़ copyright infringement का सबूत है। अगर Rowling चाहें तो मुकदमा कर सकती हैं
- archive.is पर आरोप है कि वह CAPTCHA का इस्तेमाल करके user browser को DDoS के लिए दुरुपयोग करता है
  यह निराशाजनक है कि लोग अब भी उस साइट का इस्तेमाल करते हैं
- मेरी तरफ़ से तो पेज अभी भी दिख रहा है
ब्लॉग का AI-generated thumbnail(image link)
युवा Harry और उसके दोस्त को Microsoft logo के सामने दिखा रहा था। सच में चौंकाने वाला
- AI में हमेशा ट्रेन को अजीब तरह से बनाने वाला bug रहता है
  शायद frame थोड़ा और चौड़ा होता तो डिब्बों के बीच का connection ही गायब होता
मैं Microsoft का समर्थक नहीं हूँ, लेकिन इस मामले को “pirated guide” कहना कुछ ज़्यादा है
यह बस research example है, product integration नहीं
copyright monopoly और fair use को लेकर यह अतिप्रतिक्रिया शर्मनाक स्तर की है
- फिर भी Microsoft का market cap लगभग 3 trillion dollars है
  research के लिए भी इस्तेमाल किए गए text का उचित भुगतान करने की उसकी क्षमता पूरी है
- सच तो यह है कि यह सिर्फ Microsoft की समस्या नहीं
  ज़्यादातर commercial LLM कंपनियाँ इसी तरह का काम कर रही हैं
- शीर्षक अतिशयोक्ति नहीं है, क्योंकि यह वास्तव में illegal material डाउनलोड और इस्तेमाल करने का मार्गदर्शन देने वाली पोस्ट थी
  यानी एक कंपनी ने अपने official blog पर ऐसा काम guide किया जो आम व्यक्ति के लिए illegal है
  Anthropic पर copyright infringement को लेकर 1.5 billion dollar settlement का मामला भी रहा है
  मुझे मौजूदा copyright system पसंद नहीं, लेकिन कंपनियों और व्यक्तियों के लिए अलग पैमाना स्वीकार नहीं किया जा सकता
यह piracy guide नहीं थी, बल्कि बस dataset को SQL में शामिल करने का तरीका समझाने वाली पोस्ट थी
बल्कि ज़िम्मेदारी Kaggle या uploader Shubham Maindola की तरफ़ ज़्यादा जाती है
“Harry Potter ebook को txt में convert किया” — data source का यह विवरण बहुत डरावना लगता है
फिर भी Kaggle score 10.0 होना हैरान करता है
- और text के पहले ही शब्द में typo है — “M r.”…
यह पोस्ट 2024 में डाली गई थी और Kaggle अभी भी data host कर रहा है
हैरानी है कि Rowling की तरफ़ से अब तक कोई कार्रवाई क्यों नहीं हुई
- शायद यह बस उनकी नज़र से बाहर रहा होगा
  Kaggle पर लगभग 10 हज़ार downloads होने के कारण संभव है कि इसने ज़्यादा ध्यान न खींचा हो
  लेकिन यह साफ़ तौर पर हद पार करने वाली बात है
  पहले भी Microsoft का AI से जुड़ा plagiarism मामला सामने आया था,
  तब भी कहा गया था कि internal review process लगभग न के बराबर है
  संबंधित thread: “Microsoft morged my diagram”
- मैंने Rowling को Twitter पर सीधे संपर्क किया और legal team को भी सूचना दे दी
- पहले academic research के लिए text mining technically illegal होती थी, लेकिन अक्सर उसे नज़रअंदाज़ किया जाता था
  मगर अब commercial models के आने से स्थिति पूरी तरह बदल गई है
  Books3 जैसे datasets, जिनमें सैकड़ों हज़ार copyrighted किताबें शामिल थीं, पहले सार्वजनिक हुए थे
पेज पहले ही delete हो चुका है, लेकिन web archive copy अभी भी बची हुई है
यह चिंता की बात है कि नैतिकता-बोध से रहित लोग भविष्य की तकनीक बना रहे हैं
- उससे भी ज़्यादा चिंता की बात यह है कि उन्हें शायद यह एहसास भी नहीं था कि ऐसी पोस्ट publish करना ही समस्या है
  अगर इतनी सख्त hiring process से गुज़रे लोग भी ऐसा judgement लेते हैं,
  तो असल में महत्वपूर्ण फैसले कितने जोखिमभरे होंगे, यह सोचकर डर लगता है
- बेशक copyright infringement, बड़ी कंपनियों के दूसरे unethical कामों की तुलना में छोटा लग सकता है
  लेकिन उससे यह माफ़ नहीं हो जाता
अब ऐसा लगता है जैसे intellectual property बेअसर हो चुकी दुनिया आ गई है
इसलिए मज़ाक में सुझाव दिया गया कि क्या कोई “ऐसा novel startup” में निवेश करेगा जहाँ AI Harry Potter को ज्यों का त्यों उगल दे
- जवाब में मज़ाक हुआ, “अगर यह robot slaves बनाने की प्रक्रिया है, तो मैं निवेश करूँगा”
- बल्कि AI से अनंत fanfic generator बनाना ज़्यादा मज़ेदार होगा
  अब तक AI ने लगातार सबसे अच्छा काम शायद humor में ही किया है
- “Bee Movie” को Ghibli-style में बदलकर, speech-to-text करने और फिर दोबारा TTS से चलाने वाला
  अनंत रूप से स्केल होने वाला AI startup idea भी सामने आया
- “Vindows” नाम का नया operating system बनाने का मज़ाक भी आया
  और कहा गया कि मौजूदा products से समानता “सिर्फ संयोग” है
- बेशक ऐसी चीज़ें सिर्फ अरबपतियों को मिली विशेष छूट जैसी हैं
  आम आदमी ऐसा करे तो अब भी सब कुछ खो देता है और जेल चला जाता है
Microsoft की मौजूदा दिशा देखकर यह घटना बिल्कुल भी हैरान नहीं करती
2026 के Microsoft में मानो copyright law और intellectual property अब लागू ही नहीं होते

Microsoft की LLM ट्रेनिंग के लिए Harry Potter piracy गाइड (2024) [हटाया गया]

Azure SQL native vector support और LangChain integration

example dataset की संरचना

sample application बनाने के चरण

1. langchain-sqlserver package install करना

2. Azure Blob Storage data load और chunking

3. embeddings और Chat Completion define करना

4. Vector Store initialize करना और documents insert करना

5. similarity search चलाना

Use Case 1: Q&A system बनाना

Use Case 2: Harry Potter fan fiction generation

integrated usage scenario

code samples और resources

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की टिप्पणियाँ