Claude Code के साथ Hacker News, arXiv आदि के 600GB इंडेक्स पर क्वेरी करने वाला ExoPriors का ‘Alignment Scry’
(exopriors.com)- ExoPriors का Alignment Scry एक ऐसा प्लेटफ़ॉर्म है जो Claude Code के ज़रिए arXiv, Hacker News, LessWrong आदि से एकत्रित 60M दस्तावेज़ों और 22M embeddings को SQL और vector operations के साथ खोजने की सुविधा देता है
- यह एक public API key प्रदान करता है और BM25-आधारित text search तथा pgvector cosine distance-आधारित semantic search दोनों को सपोर्ट करता है
alignment.search()औरalignment.search_exhaustive()फ़ंक्शनों के ज़रिए तेज़ sample search और पूर्ण exhaustive search को अलग-अलग चलाया जा सकता है- Claude Web या Claude Code environment में सरल सेटअप के साथ API call की जा सकती है, और यह personal handle (
@handle) तथा embedding storage सुविधा देता है - यह शोधकर्ताओं के लिए मुफ़्त खुला है और AI research तथा information discovery automation के लिए बड़े पैमाने के data query प्रयोग-पर्यावरण के रूप में महत्वपूर्ण है
अवलोकन
- Alignment Scry एक ऐसा search system है जो intelligence explosion से संबंधित document index पर SQL और vector algebra operations चला सकता है
- मुख्य data sources में arXiv, Hacker News, LessWrong, community-archive.org आदि शामिल हैं
- उपयोगकर्ता Claude Code के माध्यम से natural language queries या SQL commands से data explore कर सकते हैं
- यह system अभी Alpha experimental stage में है, और इसमें Lens Studio नाम का LessWrong-केंद्रित exploration tool भी शामिल है
Claude integration और access approach
- Claude Code या Claude Web में API access setup के ज़रिए इसे तुरंत इस्तेमाल किया जा सकता है
- Code execution, file creation, और network access की अनुमति देनी होती है, और
api.exopriors.comको domain whitelist में जोड़ना होता है
- Code execution, file creation, और network access की अनुमति देनी होती है, और
- public API key
exopriors_public_readonly_v1_2025के ज़रिए login के बिना access संभव है - Claude model को हर API call पर user approval प्रक्रिया से न गुज़रना पड़े, इसके लिए
--dangerously-skip-permissionsविकल्प इस्तेमाल किया जा सकता है (जो जोखिमपूर्ण है) - Opus 4.5 या उससे ऊपर के model की सिफारिश की गई है, और prompt injection attacks के जोखिम का भी स्पष्ट उल्लेख है
प्रमुख सुविधाएँ
- Query: 60M दस्तावेज़ों पर SQL queries चलाना
- Embed: semantic search के लिए embeddings को store और reuse करना
- Timeout: load के अनुसार लगभग 20–120 सेकंड के बीच auto-adjust होता है
- Search targets: post, comment, paper, tweet जैसी विभिन्न document types
- Lexical Search: BM25-आधारित keyword search, phrase search, और fuzzy matching सपोर्ट
- Semantic Search: pgvector cosine distance (
<=>) का उपयोग कर semantic similarity search
queries और performance management
alignment.search()केवल शीर्ष 100 BM25 results लौटाता है और तेज़ exploration के लिए sampling में उपयुक्त हैalignment.search_exhaustive()पूर्ण exhaustive search चलाता है और pagination सपोर्ट करता है- Performance guidelines
- simple search: 1–5 सेकंड
- embedding join (5 लाख rows तक): 5–20 सेकंड
- complex aggregation (20 लाख rows तक): 20–60 सेकंड
- large-scale scan (50 लाख rows से अधिक): load होने पर timeout संभव
- Query execution से पहले summary display और user confirmation प्रक्रिया के ज़रिए overload रोका जाता है
- LIMIT, estimated_rows, join size आदि के आधार पर heavy queries को अपने-आप पहचाना जाता है
data structure और views
alignmentschema के भीतर materialized views उपलब्ध हैं- उदाहरण:
mv_hackernews_posts,mv_arxiv_papers,mv_lesswrong_commentsआदि - मुख्य columns:
entity_id,uri,source,kind,original_author,title,score,embeddingआदि
- उदाहरण:
alignment.entitiestable के साथ join करके metadata तक पहुँचा जा सकता हैalignment.author_topics()फ़ंक्शन से किसी विशेष topic और author के बीच cross-analysis किया जा सकता है
vector operations और composition features
<=>: pgvector cosine distance operator (0 के जितना क़रीब, उतनी अधिक समानता)@handle: stored vector reference- Vector mixing:
scale(@rigor,.6) - scale(@hype,.3)जैसे रूप में concept-weighted combination - Bias removal:
debias_vector(@axis, @topic)से किसी विशेष विषय का प्रभाव हटाना - Centroid vector की गणना से लेखक या समय-काल का औसत semantic representation बनाया जा सकता है
- Temporal delta की गणना से विचारधारात्मक बदलाव को track किया जा सकता है
hybrid search और examples
- Lexical + Semantic combined search सपोर्ट करता है
- उदाहरण:
WITH hits AS (search(...)) <=> @qके रूप में text candidates को semantic vector से re-rank करना
- उदाहरण:
- BM25 examples
alignment.search('corrigibility')alignment.search('"inner alignment"')
- SQL examples
- किसी विशेष topic के शीर्ष authors की सूची निकालना
alignment.search_exhaustive()से बड़े पैमाने के results की pagination
system scale और availability conditions
- 65M+ दस्तावेज़, 22M+ embeddings, 600GB+ index उपलब्ध
- शोधकर्ताओं के लिए मुफ़्त, और 1.5M embedding tokens शामिल
- account बनाने पर personal handle namespace, लंबे timeouts (अधिकतम 10 मिनट), और विस्तारित query limits मिलती हैं
सारांश
- Alignment Scry एक Claude के साथ एकीकृत बड़े पैमाने का AI research data query platform है, जो SQL और vector operations को मिलाकर hybrid search सपोर्ट करता है
- public API और स्पष्ट query guidelines के माध्यम से यह AI researchers और developers को experimental data accessibility प्रदान करता है
- 600GB पैमाने के index और 60M से अधिक दस्तावेज़ों के आधार पर यह AI alignment और intelligence research से जुड़ी खोज को automate करने का वातावरण बनाता है
1 टिप्पणियां
Hacker News की राय
मुझे इस प्रोजेक्ट की यह बात पसंद आई कि यह सिर्फ एक ब्लैक-बॉक्स chatbot नहीं है, बल्कि SQL generate करता है
LLM को database की तरह इस्तेमाल करने के बजाय natural language को structured query language में translate करने वाले टूल के रूप में इस्तेमाल करना सही दिशा लगता है
बस यह जानना चाहूंगा कि API के दुरुपयोग को रोकने के लिए timeout या sandboxing की जा रही है या नहीं
और यह भी जिज्ञासा है कि अलग-अलग datasets के बीच अर्थ मिल जाने वाली semantic bleeding की समस्या है या नहीं — जैसे “optimization” का अर्थ ArXiv, LessWrong, और HN में अलग हो सकता है
SQL query planner आज भी बहुत सारे views और indexes के साथ काम करते समय बेहद ताकतवर है
security और rate-limit पर भी काफी ध्यान दिया गया है, और AST parsing से खतरनाक join को block किया जाता है
Claude अलग-अलग domains के बीच अर्थ के फर्क को कम करने के लिए vector centroid combination का इस्तेमाल कर सकता है
उदाहरण के लिए, “optimization” शब्द के LessWrong embedding और ArXiv embedding का average लेकर comparative experiment किया जा सकता है
implementation process को ब्लॉग पोस्ट में संकलित किया है
फिलहाल यह macOS client है, लेकिन Linux के लिए engine भी तैयार हो रहा है
natural language interpretation और translation की application range बहुत ही व्यापक है
आखिरकार निवेश भी ऐसे practical tools की ओर शिफ्ट होगा
बड़े models एक ही शब्द के अलग-अलग अर्थों को बेहतर तरीके से अलग कर पाते हैं
यह सच में शानदार प्रोजेक्ट है। मैं इसे अपनी चल रही string theory research में Calabi–Yau manifolds खोजने के लिए तुरंत आज़माने वाला हूँ
Claude के साथ शोध करते हुए इसने genetic algorithms का उपयोग करने वाले flux vacua पर दो papers खोज निकाले, और SQL + BM25 के संयोजन से बहुत सटीक search संभव हुई
लेकिन bash में quotes escape करना झंझट भरा था, और alignment.search() की 100 results limit के कारण पूरा परिणाम पाने के लिए search_exhaustive() इस्तेमाल करना पड़ा
Claude ने ExoPriors corpus का analysis करके प्रमुख papers और results को संक्षेप में रखा, और संकेत दिया कि DESI के नतीजे string theory exploration की दिशा बदल सकते हैं
खास तौर पर arXiv:2511.23463 paper dark energy के “phantom crossing” को axion-dilaton mixing से समझाता है
आगे मैं fit function में (w₀, wₐ) parameters शामिल करने और axion dynamics जोड़ने की दिशा में research बढ़ाने की योजना बना रहा हूँ
संबंधित लेख: BBC रिपोर्ट
“dangerously-skip-permissions” flag को unsafe text के साथ इस्तेमाल करना खतरनाक है
इंटरनेट से आए input में prompt injection मिला हो सकता है, इसलिए इसे हमेशा sandbox environment में चलाना चाहिए
मैं life sciences papers के Supplementary Material के अंदर मौजूद gene और protein जानकारी को query करने का तरीका खोज रहा हूँ
अभी indexing बिखरी हुई है, इसलिए पिछले 15 साल की genomics research insights दबे हुए हैं
अगर open-access data का उपयोग किया जाए तो यह approach काम कर सकती है
यह OpenAlex का उपयोग करके citation graph explore करता है और open-access PDFs का analysis करता है
मैंने इसे अलग-अलग temperatures पर cryoprotective agents खोजने के लिए इस्तेमाल किया था, लेकिन इसे तुम्हारी समस्या तक भी बढ़ाया जा सकता है
“intelligence explosion” और “ARBITRARY SQL + VECTOR ALGEBRA” जैसी अभिव्यक्तियाँ बढ़ा-चढ़ाकर बोले गए technical jargon जैसी लगती हैं
Opus 4.5 और GPT-5.2-Codex-xhigh की वजह से development speed विस्फोटक रूप से तेज हुई है
Scry बड़े corpus पर arbitrary SQL चलाने और vector combinations के साथ खुलकर experiment करने वाला इकलौता टूल है
prompts और external datasets को जोड़ना अभी का सबसे आसान और शक्तिशाली exploration channel है
जैसे “curl | bash” की तरह तेज़ी से experiment किया जा सकता है
इसे “state-of-the-art” research tool कहा गया, लेकिन ठीक-ठीक क्या चीज़ इसे इतना cutting-edge बनाती है, यह जानना चाहूँगा
उदाहरण के लिए Gemma models प्रतिस्पर्धियों से कमजोर performance के बावजूद “state-of-the-art” कहलाए थे
Juicero भी launch के समय cutting-edge था, लेकिन आखिर में हाथ से निचोड़ना बेहतर निकला
मैं अभी autonomous academic research system विकसित कर रहा हूँ, और इस प्रोजेक्ट को integrate करने की योजना है
अभी Edison Scientific API और custom prompts का उपयोग कर रहा हूँ, और जानना चाहता हूँ कि क्या कोई open source plan है
संबंधित प्रोजेक्ट: gia-agentic-short
अगर $5,000 मिल जाएँ, तो शायद मैं इसे तुरंत सार्वजनिक कर सकूँ