22 पॉइंट द्वारा GN⁺ 2025-03-20 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • recommendation systems और search ऐतिहासिक रूप से language models से प्रेरित होकर विकसित हुए हैं
    • Word2vec → item embedding training (embedding-based search)
    • GRU, Transformer, BERT → अगले recommendation item का prediction (ranking)
  • वर्तमान में large language models (LLM) का paradigm भी इसी दिशा में विकसित हो रहा है
  • प्रमुख प्रगति
    • 1. LLM/मल्टीमॉडल सुदृढ़ मॉडल आर्किटेक्चर

    • 2. LLM-आधारित डेटा जनरेशन और विश्लेषण

    • 3. Scaling Laws, transfer learning, knowledge distillation, LoRA

    • 4. search और recommendation की unified architecture

LLM/मल्टीमॉडल-सुदृढ़ model architecture

  • recommendation models, language models (LLM) और multimodal content को अपनाकर पारंपरिक ID-based approach की सीमाओं को पार कर रहे हैं
  • behavior modeling की ताकत और content understanding को मिलाकर → cold start और long-tail problem का समाधान
  • 1. Semantic IDs (YouTube)

    • मौजूदा hash-based ID के बजाय content से व्युत्पन्न Semantic ID का उपयोग
    • 2-stage framework का परिचय:
      1. Transformer-based video encoder → dense content embedding तैयार करता है
      2. RQ-VAE(Residual Quantization Variational AutoEncoder) → embedding को integer रूप के Semantic ID में बदलता है
    • RQ-VAE structure:
      • 256-dimensional latent space, 8 quantization levels, हर level पर 2048 codebook entries
      • Transformer-based VideoBERT backbone से 2048-dimensional embedding तैयार
    • परिणाम:
      • random hash ID की तुलना में direct dense embedding का performance कम रहा
      • N-gram और SPM(SentencePiece Model)-based approach ने खासकर cold start scenario में बेहतर performance दिया
  • 2. M3CSR (Kuaishou)

    • multimodal content embedding (visual, text, audio) → K-means से clustering के बाद learnable ID में रूपांतरण
    • dual-tower structure:
      • user-side tower: user behavior modeling
      • item-side tower: item embeddings की pre-computation और indexing
    • training process:
      • ResNet(visual), Sentence-BERT(text), VGGish(audio) embeddings को merge करके → K-means clustering (~1000 clusters)
      • cluster ID को learnable embedding में map करना
    • परिणाम:
      • A/B test में clicks +3.4%, likes +3.0%, follows +3.1% सुधार
      • cold start scenario में speed +1.2%, coverage +3.6% सुधार
  • 3. FLIP (Huawei)

    • ID-based recommendation model और LLM के बीच alignment
    • masked text और tabular data पर एक साथ training → multimodal alignment
    • training stages:
      • 1. modal conversion: table data को text में बदलना
      • 2. modal alignment pretraining: masked text और ID reconstruction
      • 3. adaptive fine-tuning: click prediction के लिए दोनों model weights का optimization
    • परिणाम:
      • ID-based, LLM-based और ID + LLM models से बेहतर performance
      • masking level और multimodal alignment ने performance improvement में महत्वपूर्ण भूमिका निभाई
  • 4. beeFormer

    • text information और user-item interaction data पर आधारित Transformer model training
    • ELSA(Scalable Linear Shallow Autoencoder)-based decoder का उपयोग → interaction pattern learning मजबूत
    • training process:
      • Transformer से embeddings बनाना → ELSA के जरिए user behavior patterns सीखना
      • बड़े catalog पर training optimize करने के लिए gradient checkpointing, batch size scaling, negative sampling का उपयोग
    • परिणाम:
      • mpnet-base-v2, bge-m3 जैसे existing models से बेहतर performance
      • cross-domain transfer learning में performance gain देखा गया
  • 5. CALRec (Google)

    • text-based prompts से user-item interactions की modeling
    • PaLM-2 XXS-based model पर 2-stage fine-tuning
    • training stages:
      • 1. multi-category learning: general recommendation patterns सीखना
      • 2. category-specific learning: item category के लिए specialized patterns सीखना
    • परिणाम:
      • Amazon Review Dataset में ID और text-based models से बेहतर performance
      • multi-category learning और contrastive learning ने performance improvement में योगदान दिया
  • 6. EmbSum (Meta)

    • user interest summary और candidate item summary तैयार करना
    • T5-small और Mixtral-8x22B-Instruct model का उपयोग
    • components:
      • User Poly-Embeddings (UPE) → user interest embedding
      • Content Poly-Embeddings (CPE) → item embedding
      • summary generation → encoder में inject करना → final recommendation तैयार
    • परिणाम:
      • content-based recommendation models की तुलना में बेहतर performance
      • session-based grouping और summary loss ने performance में महत्वपूर्ण भूमिका निभाई

LLM-आधारित data generation और analysis

  • LLM का उपयोग recommendation और search systems में data scarcity की समस्या को हल करने और data quality को मजबूत करने के लिए किया जा रहा है
  • प्रमुख use cases:
    • Bing → web page metadata generation और click prediction performance improvement
    • Indeed → low-quality job matching filtering
    • Yelp → search query understanding और review highlights improvement
    • Spotify → exploratory search query generation
    • Amazon → playlist metadata enhancement और search performance improvement
  • 1. Recommendation Quality Improvement (Bing)

    • GPT-4 का उपयोग करके web pages से high-quality titles और summaries generate किए गए
    • लगभग 2 million web pages से बने metadata के साथ Mistral-7B model fine-tune किया गया
    • MiniLM-based cross encoder को train करके click prediction और quality scores को combine किया गया
    • परिणाम:
      • clickbait content में 31% कमी, duplicate content में 76% कमी
      • authoritative content में 18% वृद्धि, cross-media recommendations में 48% वृद्धि
  • 2. Expected Bad Match (Indeed)

    • GPT-3.5 को human review data के साथ fine-tune करके low-quality job matching filtering model (eBadMatch) बनाया गया
    • GPT-4 स्तर का performance बनाए रखते हुए cost और speed में सुधार
    • final filtering model ने matching invite emails की संख्या 17.68% घटाई, unsubscribe rate 4.97% कम किया, application rate 4.13% बढ़ाया
    • परिणाम:
      • filtering model का AUC-ROC performance: 0.86
  • 3. Query Understanding (Yelp)

    • LLM का उपयोग करके search query segmentation और review highlights को बेहतर बनाया गया
    • query segmentation:
      • topic, name, time, place आदि को अलग करके semantic tags जोड़ना
      • RAG(Retrieval-Augmented Generation) technique लागू करके context-based query understanding को मजबूत करना
    • review highlights:
      • LLM से highlights generate करना → OpenAI batch calls से बड़े पैमाने पर विस्तार
    • परिणाम:
      • search sessions और click-through rate में सुधार
      • long-tail queries में भी performance improvement
  • 4. Query Recommendations (Spotify)

    • Spotify ने direct search results के अलावा exploratory search query recommendations पेश कीं
    • query generation methods:
      • catalog titles, playlists, podcasts से extraction
      • search logs से user recent searches को reflect करना
      • LLM-based sentence generation techniques लागू (Doc2query, InPars आदि)
    • query recommendations को personalized vector embeddings से rank किया गया
    • परिणाम:
      • exploratory query ratio में +9% वृद्धि
      • maximum query length में +30% वृद्धि, average query length में +10% वृद्धि
  • 5. Playlist Search (Amazon)

    • LLM का उपयोग करके community playlists के metadata को generate और enhance किया गया
    • Flan-T5-XL model को fine-tune करके data generation efficiency बढ़ाई गई
    • LLM-generated queries और playlist matching data का उपयोग करके bi-encoder model train किया गया
    • परिणाम:
      • search result recall में double-digit improvement
      • SEO performance और paraphrasing performance में सुधार

Scaling Laws, transfer learning, knowledge distillation, LoRA

  • Scaling Laws

    • model size और data volume का performance पर प्रभाव विश्लेषित करने वाला अध्ययन
    • decoder-only Transformer architecture का उपयोग (98.3K ~ 0.8B parameters range)
    • MovieLens-20M और Amazon-2018 datasets पर evaluation
    • fixed length की 50-item sequence का उपयोग करके next-item prediction
    • मुख्य techniques:
      • layer-wise adaptive dropout → lower layers पर high dropout, upper layers पर low dropout
      • Adam → SGD switch → शुरुआती training Adam से, बाद में SGD पर switch करके convergence speed सुधार
    • परिणाम:
      • बड़े model size के साथ cross-entropy loss कम हुआ
      • छोटे models को अधिक data चाहिए, लेकिन बड़े models कम data में भी बेहतर performance हासिल करते हैं
      • 75.5M और 98.3K models ने 2~5 epochs में performance improvement दिखाया
  • PrepRec

    • recommendation systems में pretraining लागू → cross-domain transfer learning संभव
    • item metadata के बिना भी item popularity के dynamic changes से training संभव
    • user interactions के बीच relative time intervals और positional encoding का उपयोग
    • परिणाम:
      • zero-shot recommendation में recall@10 performance 2~6% घटा, लेकिन training के बाद performance समान रहा
      • target domain पर training के बाद SasREC और BERT4Rec models के बराबर performance हासिल
  • E-CDCTR (Meituan)

    • ad click prediction model में transfer learning लागू
    • TPM → CPM → A-CTR की 3-stage training structure का उपयोग
      • TPM → user और item embeddings training
      • CPM → latest organic data से pretraining
      • A-CTR → ad data से fine adjustment
    • परिणाम:
      • CPM का सबसे बड़ा प्रभाव → long-term collaborative filtering signals सीखना संभव
      • पिछले 3 महीनों के embeddings का उपयोग करके performance improvement
  • Bridging the Gap (YouTube)

    • knowledge distillation के जरिए large-scale personalized video recommendations
    • teacher-student model structure का उपयोग (teacher model, student model से 2~4x बड़ा)
    • direct prediction के बजाय auxiliary distillation strategy का उपयोग → distribution shift problem का समाधान
    • परिणाम:
      • auxiliary distillation strategy लागू करने पर performance 0.4% बेहतर
      • teacher model 2x बड़ा होने पर +0.42%, 4x बड़ा होने पर +0.43% performance improvement
  • Self-Auxiliary Distillation (Google)

    • large-scale recommendation models की sample efficiency improvement
    • bidirectional branch structure → teacher labels और original labels का mixed learning
    • negative labels को 0 के बजाय estimated CTR value के रूप में handle किया गया
    • परिणाम:
      • विभिन्न domains में performance लगातार बेहतर
      • training stability मजबूत हुई और model output precision बेहतर हुआ
  • DLLM2Rec

    • large language model की recommendation knowledge को lightweight model में distill करना
    • importance-based ranking distillation और collaborative embedding distillation का उपयोग
      • importance-based ranking distillation → item ranks और consistency पर weights लागू
      • collaborative embedding distillation → teacher और student models के बीच embedding differences को correct करना
    • परिणाम:
      • GRU4Rec, SASRec, DROS models में average performance 47.97% improvement
      • inference time teacher model के 3~6 hours → 1.6~1.8 seconds तक घटा
  • MLoRA (Alibaba)

    • CTR prediction में domain-specific LoRA (Low-Rank Adaptation) लागू
    • common backbone model pretraining के बाद domain-specific LoRA से fine-tuning
    • LoRA rank को layer-wise dynamic तरीके से सेट किया गया
    • परिणाम:
      • AUC performance +0.5% सुधार
      • CTR +1.49%, conversion rate +3.37%, paid buyers +2.71% वृद्धि
  • Taming One-Epoch (Pinterest)

    • एक ही epoch में overfitting होने की समस्या का समाधान
    • contrastive learning से training stages को अलग किया गया
      • पहला stage → embedding learning
      • दूसरा stage → fine adjustment
    • परिणाम:
      • existing BCE loss से बेहतर performance
      • home feed +1.32%, related pins +2.18% performance increase
  • Sliding Window Training (Netflix)

    • लंबे user history को memory burden के बिना train करने के लिए sliding window training पेश किया गया
    • हर training epoch में user history के अलग segment चुनकर training
    • recent 100 interactions और long-term interactions के बीच संतुलन बनाए रखा
    • परिणाम:
      • केवल recent interactions वाले model से लगातार बेहतर performance
      • Mean Average Precision(MAP) +1.5%, recall +7.01% सुधार

search और recommendation की unified architecture

  • Bridging Search & Recommendations (Spotify)

    • search और recommendation data को एक single generative model में jointly train किया गया
    • Flan-T5-base के आधार पर item IDs को tokens में बदलकर training
    • generative recommendation model: user interactions के आधार पर next item prediction
    • generative search model: text query से item ID prediction
    • परिणाम:
      • single-task model की तुलना में average 16% performance improvement (recall@30 के आधार पर)
      • podcast dataset में search performance +855%, recommendation performance +262% improvement
      • existing recommendation और search models (BM25, SASRec आदि) के performance तक नहीं पहुँचा
  • 360Brew (LinkedIn)

    • 150B parameters के single model से 30 से अधिक ranking tasks किए गए
    • Mixtral-8x22B model के आधार पर → continuous pretraining (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT) प्रगति
    • natural language interface का परिचय → feature engineering की जगह prompt engineering का उपयोग
    • परिणाम:
      • existing specialized models के बराबर या बेहतर performance
      • large-scale datasets (3x वृद्धि) में performance improvement
      • cold start users के performance में सुधार → existing models से बेहतर
  • UniCoRn (Netflix)

    • search और recommendation tasks को एक ही model में handle करना
    • user ID, search query, country, source entity आदि context information का उपयोग
    • context-target functions और feature crossing का उपयोग
    • परिणाम:
      • recommendation performance +10%, search performance +7% सुधार
      • stronger personalization से performance improvement
      • task type और missing value handling के महत्व की पुष्टि
  • Unified Embeddings (Etsy)

    • Transformer-based, text-based और graph-based embeddings का integration
    • T5 model को fine-tune करके query-product matching मजबूत किया गया
    • hard negative sampling और approximate nearest neighbor search (ANN) लागू
    • परिणाम:
      • conversion rate +2.63%, organic search purchase rate +5.58% सुधार
      • graph embeddings का performance में सबसे बड़ा योगदान (+15%)
  • Embedding Long Tail (Best Buy)

    • long-tail queries की समस्या का समाधान
    • user behavior-based internal BERT model का उपयोग → search और product encoding
    • Llama-13B से generated synthetic queries द्वारा data enhancement
    • परिणाम:
      • conversion rate +3% सुधार
      • query-product matching performance improvement (+4.67%)
  • User Behavioral Service (YouTube)

    • user embedding generation model और recommendation model को अलग किया गया
    • asynchronously user embeddings generate करना → high-speed caching का उपयोग
    • request पर embedding उपलब्ध न होने पर empty value लौटाना, फिर async update
    • परिणाम:
      • user sequence model size scaling → cost increase को सीमित किया (28.7% → 2.8%)
      • overall recommendation performance improvement (0.01% ~ 0.40%)
  • Modern Ranking Platform (Zalando)

    • search और browsing के लिए integrated system का निर्माण
    • candidate generation → ranking → policy layer structure का उपयोग
    • Transformer-based customer embeddings + vector database लागू
    • परिणाम:
      • overall engagement +15%, revenue +2.2% सुधार
      • trainable embeddings लागू करने के बाद अतिरिक्त performance improvement

निष्कर्ष

  • 2023 के शुरुआती शोध (recommendation और search में LLM का उपयोग) सीमित थे, लेकिन हालिया प्रयास, खासकर industry results के समर्थन के साथ, अधिक उम्मीद दिखाते हैं
  • इससे संकेत मिलता है कि LLM का उपयोग करके recommendation systems और search systems को augment करना व्यावहारिक लाभ देता है, और cost तथा effort कम करते हुए results बढ़ा सकता है

1 टिप्पणियां

 
GN⁺ 2025-03-24

Hacker News राय

  • एक विश्लेषण है कि Spotify की search query से जुड़ा अपडेट यूज़र्स को अधिक जटिल intent व्यक्त करने में मदद करता है

    • लेकिन इसे सुधार कहना मुश्किल है, क्योंकि यूज़र्स को अपनी मनचाही जानकारी पाने के लिए ज़्यादा search करना पड़ा और लंबी query टाइप करनी पड़ी
  • कई टीमें LLM का उपयोग करके search query और index को बेहतर बना रही हैं

    • छोटे model और सरल prompt से भी search string को structured query में बदला जा सकता है
    • documents को classify करना या cache का उपयोग करना भी संभव है
    • अगर ये काम नहीं किए जा रहे हैं, तो यह एक गलती हो सकती है
  • conference के तुरंत बाद Eugene द्वारा काम प्रकाशित करना दिलचस्प है

    • परंपरागत रूप से यह शायद ऐसा paper होता जिसे कोई PhD छात्र लगभग 12 महीने में प्रकाशित करता
    • यह Eugene की क्षमता है या कोई नया रुझान, यह जानने की जिज्ञासा है
  • यह बताया गया है कि समय के साथ Spotify का अनुभव क्यों खराब हुआ

  • सुबह उठते ही इस लेख को text-to-speech model से सुनना शुरू किया

    • इसमें बहुत अधिक technical jargon है, इसलिए लेखक बहुत बौद्धिक लगते हैं, लेकिन जानकारी को प्रभावी ढंग से नहीं पहुँचा पाते
    • academic papers में यह अक्सर दिखता है, और मेरे अपने research papers भी इससे अलग नहीं हैं
    • मैं ML क्षेत्र का विशेषज्ञ नहीं हूँ, इसलिए संभव है कि मैं target reader न हूँ
    • जानना चाहता हूँ कि क्या दूसरों को भी ऐसा ही लगा
    • आशा है कि यह राय बहुत नकारात्मक न लगे
  • SASRec और Bert4Rec के variants को ID-token पर train किया जाता है और वे LLM जैसी scaling laws दिखाते हैं

    • Meta का approach एक उदाहरण के रूप में दिया गया है
  • मेरा मानना है कि recommendation systems और forums को जोड़ना समाज के लिए एक बड़ी आपदा साबित हुआ है

  • इस बात पर सवाल है कि PC और smartphone पर LLM-आधारित search tools क्यों नहीं हैं

    • खासकर जब smartphone का data cloud में स्टोर होता है, तो ads या FBI के लिए scraping करने के बजाय यूज़र्स को उपयोगी features दिए जा सकते हैं
  • यह recommendation systems का एक शानदार overview लगता है

    • मुख्य बिंदु यह है कि latency एक प्रमुख समस्या है
    • fine-tuning बड़े सुधार ला सकती है और latency घटा सकती है
    • prompt या fine-tuning का उपयोग कब करना है, इसके लिए कोई threshold या specific problem होती है
  • यह दिलचस्प है कि ऐसे papers academic labs से नहीं आ रहे हैं