1 पॉइंट द्वारा GN⁺ 2026-01-01 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • ExoPriors का Alignment Scry एक ऐसा प्लेटफ़ॉर्म है जो Claude Code के ज़रिए arXiv, Hacker News, LessWrong आदि से एकत्रित 60M दस्तावेज़ों और 22M embeddings को SQL और vector operations के साथ खोजने की सुविधा देता है
  • यह एक public API key प्रदान करता है और BM25-आधारित text search तथा pgvector cosine distance-आधारित semantic search दोनों को सपोर्ट करता है
  • alignment.search() और alignment.search_exhaustive() फ़ंक्शनों के ज़रिए तेज़ sample search और पूर्ण exhaustive search को अलग-अलग चलाया जा सकता है
  • Claude Web या Claude Code environment में सरल सेटअप के साथ API call की जा सकती है, और यह personal handle (@handle) तथा embedding storage सुविधा देता है
  • यह शोधकर्ताओं के लिए मुफ़्त खुला है और AI research तथा information discovery automation के लिए बड़े पैमाने के data query प्रयोग-पर्यावरण के रूप में महत्वपूर्ण है

अवलोकन

  • Alignment Scry एक ऐसा search system है जो intelligence explosion से संबंधित document index पर SQL और vector algebra operations चला सकता है
    • मुख्य data sources में arXiv, Hacker News, LessWrong, community-archive.org आदि शामिल हैं
    • उपयोगकर्ता Claude Code के माध्यम से natural language queries या SQL commands से data explore कर सकते हैं
  • यह system अभी Alpha experimental stage में है, और इसमें Lens Studio नाम का LessWrong-केंद्रित exploration tool भी शामिल है

Claude integration और access approach

  • Claude Code या Claude Web में API access setup के ज़रिए इसे तुरंत इस्तेमाल किया जा सकता है
    • Code execution, file creation, और network access की अनुमति देनी होती है, और api.exopriors.com को domain whitelist में जोड़ना होता है
  • public API key exopriors_public_readonly_v1_2025 के ज़रिए login के बिना access संभव है
  • Claude model को हर API call पर user approval प्रक्रिया से न गुज़रना पड़े, इसके लिए --dangerously-skip-permissions विकल्प इस्तेमाल किया जा सकता है (जो जोखिमपूर्ण है)
  • Opus 4.5 या उससे ऊपर के model की सिफारिश की गई है, और prompt injection attacks के जोखिम का भी स्पष्ट उल्लेख है

प्रमुख सुविधाएँ

  • Query: 60M दस्तावेज़ों पर SQL queries चलाना
  • Embed: semantic search के लिए embeddings को store और reuse करना
  • Timeout: load के अनुसार लगभग 20–120 सेकंड के बीच auto-adjust होता है
  • Search targets: post, comment, paper, tweet जैसी विभिन्न document types
  • Lexical Search: BM25-आधारित keyword search, phrase search, और fuzzy matching सपोर्ट
  • Semantic Search: pgvector cosine distance (<=>) का उपयोग कर semantic similarity search

queries और performance management

  • alignment.search() केवल शीर्ष 100 BM25 results लौटाता है और तेज़ exploration के लिए sampling में उपयुक्त है
  • alignment.search_exhaustive() पूर्ण exhaustive search चलाता है और pagination सपोर्ट करता है
  • Performance guidelines
    • simple search: 1–5 सेकंड
    • embedding join (5 लाख rows तक): 5–20 सेकंड
    • complex aggregation (20 लाख rows तक): 20–60 सेकंड
    • large-scale scan (50 लाख rows से अधिक): load होने पर timeout संभव
  • Query execution से पहले summary display और user confirmation प्रक्रिया के ज़रिए overload रोका जाता है
  • LIMIT, estimated_rows, join size आदि के आधार पर heavy queries को अपने-आप पहचाना जाता है

data structure और views

  • alignment schema के भीतर materialized views उपलब्ध हैं
    • उदाहरण: mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments आदि
    • मुख्य columns: entity_id, uri, source, kind, original_author, title, score, embedding आदि
  • alignment.entities table के साथ join करके metadata तक पहुँचा जा सकता है
  • alignment.author_topics() फ़ंक्शन से किसी विशेष topic और author के बीच cross-analysis किया जा सकता है

vector operations और composition features

  • <=>: pgvector cosine distance operator (0 के जितना क़रीब, उतनी अधिक समानता)
  • @handle: stored vector reference
  • Vector mixing: scale(@rigor,.6) - scale(@hype,.3) जैसे रूप में concept-weighted combination
  • Bias removal: debias_vector(@axis, @topic) से किसी विशेष विषय का प्रभाव हटाना
  • Centroid vector की गणना से लेखक या समय-काल का औसत semantic representation बनाया जा सकता है
  • Temporal delta की गणना से विचारधारात्मक बदलाव को track किया जा सकता है

hybrid search और examples

  • Lexical + Semantic combined search सपोर्ट करता है
    • उदाहरण: WITH hits AS (search(...)) <=> @q के रूप में text candidates को semantic vector से re-rank करना
  • BM25 examples
    • alignment.search('corrigibility')
    • alignment.search('"inner alignment"')
  • SQL examples
    • किसी विशेष topic के शीर्ष authors की सूची निकालना
    • alignment.search_exhaustive() से बड़े पैमाने के results की pagination

system scale और availability conditions

  • 65M+ दस्तावेज़, 22M+ embeddings, 600GB+ index उपलब्ध
  • शोधकर्ताओं के लिए मुफ़्त, और 1.5M embedding tokens शामिल
  • account बनाने पर personal handle namespace, लंबे timeouts (अधिकतम 10 मिनट), और विस्तारित query limits मिलती हैं

सारांश

  • Alignment Scry एक Claude के साथ एकीकृत बड़े पैमाने का AI research data query platform है, जो SQL और vector operations को मिलाकर hybrid search सपोर्ट करता है
  • public API और स्पष्ट query guidelines के माध्यम से यह AI researchers और developers को experimental data accessibility प्रदान करता है
  • 600GB पैमाने के index और 60M से अधिक दस्तावेज़ों के आधार पर यह AI alignment और intelligence research से जुड़ी खोज को automate करने का वातावरण बनाता है

1 टिप्पणियां

 
GN⁺ 2026-01-01
Hacker News की राय
  • मुझे इस प्रोजेक्ट की यह बात पसंद आई कि यह सिर्फ एक ब्लैक-बॉक्स chatbot नहीं है, बल्कि SQL generate करता है
    LLM को database की तरह इस्तेमाल करने के बजाय natural language को structured query language में translate करने वाले टूल के रूप में इस्तेमाल करना सही दिशा लगता है
    बस यह जानना चाहूंगा कि API के दुरुपयोग को रोकने के लिए timeout या sandboxing की जा रही है या नहीं
    और यह भी जिज्ञासा है कि अलग-अलग datasets के बीच अर्थ मिल जाने वाली semantic bleeding की समस्या है या नहीं — जैसे “optimization” का अर्थ ArXiv, LessWrong, और HN में अलग हो सकता है

    • सही बात है, लोग कभी-कभी precision और control चाहते हैं
      SQL query planner आज भी बहुत सारे views और indexes के साथ काम करते समय बेहद ताकतवर है
      security और rate-limit पर भी काफी ध्यान दिया गया है, और AST parsing से खतरनाक join को block किया जाता है
      Claude अलग-अलग domains के बीच अर्थ के फर्क को कम करने के लिए vector centroid combination का इस्तेमाल कर सकता है
      उदाहरण के लिए, “optimization” शब्द के LessWrong embedding और ArXiv embedding का average लेकर comparative experiment किया जा सकता है
    • मैंने भी कुछ ऐसा ही approach अपनाया था। Claude Code और Codex की conversation history को local DB में बदल दिया, ताकि CLI से सीधे query किया जा सके
      implementation process को ब्लॉग पोस्ट में संकलित किया है
      फिलहाल यह macOS client है, लेकिन Linux के लिए engine भी तैयार हो रहा है
    • मुझे लगता है यही वह “असल innovation” है जो “AI bubble” फूटने के बाद भी बचेगी
      natural language interpretation और translation की application range बहुत ही व्यापक है
      आखिरकार निवेश भी ऐसे practical tools की ओर शिफ्ट होगा
    • मेरे पास कोई experiment नहीं है, लेकिन अनुभव से लगता है कि embedding model size के हिसाब से शब्दार्थ अलगाव बदलता है
      बड़े models एक ही शब्द के अलग-अलग अर्थों को बेहतर तरीके से अलग कर पाते हैं
  • यह सच में शानदार प्रोजेक्ट है। मैं इसे अपनी चल रही string theory research में Calabi–Yau manifolds खोजने के लिए तुरंत आज़माने वाला हूँ
    Claude के साथ शोध करते हुए इसने genetic algorithms का उपयोग करने वाले flux vacua पर दो papers खोज निकाले, और SQL + BM25 के संयोजन से बहुत सटीक search संभव हुई
    लेकिन bash में quotes escape करना झंझट भरा था, और alignment.search() की 100 results limit के कारण पूरा परिणाम पाने के लिए search_exhaustive() इस्तेमाल करना पड़ा

    • मैंने भी हाल ही में इस टूल से DESI की dark energy variation research की जांच की
      Claude ने ExoPriors corpus का analysis करके प्रमुख papers और results को संक्षेप में रखा, और संकेत दिया कि DESI के नतीजे string theory exploration की दिशा बदल सकते हैं
      खास तौर पर arXiv:2511.23463 paper dark energy के “phantom crossing” को axion-dilaton mixing से समझाता है
      आगे मैं fit function में (w₀, wₐ) parameters शामिल करने और axion dynamics जोड़ने की दिशा में research बढ़ाने की योजना बना रहा हूँ
      संबंधित लेख: BBC रिपोर्ट
  • “dangerously-skip-permissions” flag को unsafe text के साथ इस्तेमाल करना खतरनाक है
    इंटरनेट से आए input में prompt injection मिला हो सकता है, इसलिए इसे हमेशा sandbox environment में चलाना चाहिए

    • मैंने भी आज Claude को devcontainer में चलाना शुरू किया है, और जानना चाहता हूँ कि कौन-सा sandbox option सबसे आसान है
  • मैं life sciences papers के Supplementary Material के अंदर मौजूद gene और protein जानकारी को query करने का तरीका खोज रहा हूँ
    अभी indexing बिखरी हुई है, इसलिए पिछले 15 साल की genomics research insights दबे हुए हैं
    अगर open-access data का उपयोग किया जाए तो यह approach काम कर सकती है

    • मैंने भी कुछ ऐसा बनाया है — papers2dataset
      यह OpenAlex का उपयोग करके citation graph explore करता है और open-access PDFs का analysis करता है
      मैंने इसे अलग-अलग temperatures पर cryoprotective agents खोजने के लिए इस्तेमाल किया था, लेकिन इसे तुम्हारी समस्या तक भी बढ़ाया जा सकता है
  • “intelligence explosion” और “ARBITRARY SQL + VECTOR ALGEBRA” जैसी अभिव्यक्तियाँ बढ़ा-चढ़ाकर बोले गए technical jargon जैसी लगती हैं

    • यह अतिशयोक्ति नहीं है। अभी वास्तव में software intelligence explosion machine जैसा समय है
      Opus 4.5 और GPT-5.2-Codex-xhigh की वजह से development speed विस्फोटक रूप से तेज हुई है
      Scry बड़े corpus पर arbitrary SQL चलाने और vector combinations के साथ खुलकर experiment करने वाला इकलौता टूल है
  • prompts और external datasets को जोड़ना अभी का सबसे आसान और शक्तिशाली exploration channel है
    जैसे “curl | bash” की तरह तेज़ी से experiment किया जा सकता है

    • बिल्कुल। Prompt + Tool + External Dataset का combination बेहद बड़ी potential रखता है
  • इसे “state-of-the-art” research tool कहा गया, लेकिन ठीक-ठीक क्या चीज़ इसे इतना cutting-edge बनाती है, यह जानना चाहूँगा

    • scale की वजह से। ऐसे कितने tools हैं जो पूरे arXiv papers के full text को query कर सकते हैं
    • यह बस marketing term है। यह कोई protected expression नहीं है, इसलिए कोई भी इसका इस्तेमाल कर सकता है
      उदाहरण के लिए Gemma models प्रतिस्पर्धियों से कमजोर performance के बावजूद “state-of-the-art” कहलाए थे
      Juicero भी launch के समय cutting-edge था, लेकिन आखिर में हाथ से निचोड़ना बेहतर निकला
    • टूल cutting-edge है, लेकिन data source ऐतिहासिक है
    • मुझे संदेह है कि क्या “सबसे पहले” होने का मतलब “सबसे अच्छा” भी है
  • मैं अभी autonomous academic research system विकसित कर रहा हूँ, और इस प्रोजेक्ट को integrate करने की योजना है
    अभी Edison Scientific API और custom prompts का उपयोग कर रहा हूँ, और जानना चाहता हूँ कि क्या कोई open source plan है
    संबंधित प्रोजेक्ट: gia-agentic-short

    • मैं इसे open source के रूप में जारी करना चाहता हूँ, लेकिन सच कहूँ तो अभी आजीविका की स्थिति कठिन है
      अगर $5,000 मिल जाएँ, तो शायद मैं इसे तुरंत सार्वजनिक कर सकूँ