5 पॉइंट द्वारा GN⁺ 2023-10-25 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • 'embeddings' नाम की तकनीक की अवधारणा पर चर्चा करने वाला लेख; यह तकनीक कंटेंट को floating point numbers की एक array में बदलती है, जिसे विभिन्न applications में इस्तेमाल किया जा सकता है.
  • लेखक Simon Willison ने PyBay 2023 में embeddings पर एक talk दी थी, और यह लेख उस talk का बेहतर बनाया गया संस्करण है.
  • embeddings का उपयोग ChatGPT, Bard और Claude जैसी technologies को support करने वाले large language models के क्षेत्र में किया जाता है.
  • लेखक बताते हैं कि उन्होंने OpenAI text-embedding-ada-002 model का उपयोग करके अपने blog में "related content" feature कैसे बनाया.
  • लेख में Symbex नाम के एक tool का उपयोग करके code के लिए embeddings इस्तेमाल करने का तरीका भी बताया गया है; यह tool codebase के सभी functions के embeddings calculate कर सकता है और एक code search engine बना सकता है.
  • लेखक LLM (Large Language Models) नाम के एक tool का परिचय देते हैं, जिसका उपयोग embeddings के साथ काम करने और semantic search engine बनाने में किया जा सकता है.
  • लेख में CLIP नाम के एक model का उपयोग करके images के लिए embeddings इस्तेमाल करने का तरीका भी बताया गया है; यह model text और images को एक ही vector space में embed कर सकता है.
  • लेखक embeddings का उपयोग classification के लिए कैसे किया जा सकता है, इस पर चर्चा करते हैं; वे embeddings के groups की औसत position निकालकर नए content की उससे तुलना करके category assign करने का तरीका समझाते हैं.
  • लेख का समापन Retrieval-Augmented Generation (RAG) पर चर्चा के साथ होता है, जो embeddings का उपयोग करके personal documents या internal company documents के आधार पर सवालों के जवाब देने की तकनीक है.
  • लेख में एक Q&A session भी शामिल है, जिसमें लेखक LangChain, cosine similarity के अलावा distance functions, बड़े पैमाने के data processing, और embedding models के भविष्य के improvements पर सवालों के जवाब देते हैं.

1 टिप्पणियां

 
GN⁺ 2023-10-25
Hacker News राय
  • लेखक को लेख प्रकाशित करने के बाद embeddings को और गहराई से समझने के लिए अतिरिक्त सामग्री मिली।
  • embeddings कंप्यूटर vision और visual SLAM algorithms में place recognition का मानक तरीका बन गए हैं।
  • word embeddings का एक प्रसिद्ध उदाहरण King - Man + Women = Queen है, लेकिन 2D में प्रोजेक्ट करने पर यह कोई प्रभावशाली दृश्य छाप नहीं छोड़ता।
  • Autoencoding अपनी सादगी के बावजूद अच्छा काम करता है, और ऐसे अच्छे document embedding models में रुचि है जिन्हें personal hardware पर चलाया जा सके।
  • embeddings को note-taking apps की मौजूदा semantic search functionality में चौंकाने वाली आसानी से जोड़ा जा सका, और यह उम्मीद से अधिक शक्तिशाली निकला।
  • भाषा में embeddings के लिए mental model को इस तरह समझाया जाता है कि अत्यधिक high-dimensional space में कई स्थानों पर बहुत सारे points मौजूद होते हैं।
  • किसी खास domain में निर्माण करते समय commercial embedding models की सीमाएँ होती हैं, और embedding models को fine-tune करने के लिए बेहतर tools और literature को लेकर उम्मीद है।
  • यह लेख उन लोगों के लिए भी उपयोगी और दिलचस्प था जिनकी machine learning background लगभग न के बराबर है।
  • इस बात को लेकर सवाल है कि लेखक vectorized numpy operations की बजाय dot product निकालने के लिए किसी विशेष तरीके का उपयोग क्यों करता है।
  • लेख में इस्तेमाल किए गए clustering code को लेकर भ्रम है, खासकर इस बात पर कि database की प्रत्येक row को numpy array में बदलकर MiniBatchKMeans model का उपयोग labels बनाने के लिए कैसे किया जाता है।