- ExoPriors का Alignment Scry एक ऐसा प्लेटफ़ॉर्म है जो Claude Code के ज़रिए arXiv, Hacker News, LessWrong आदि से एकत्रित 60M दस्तावेज़ों और 22M embeddings को SQL और vector operations के साथ खोजने की सुविधा देता है
- यह एक public API key प्रदान करता है और BM25-आधारित text search तथा pgvector cosine distance-आधारित semantic search दोनों को सपोर्ट करता है
alignment.search() और alignment.search_exhaustive() फ़ंक्शनों के ज़रिए तेज़ sample search और पूर्ण exhaustive search को अलग-अलग चलाया जा सकता है
- Claude Web या Claude Code environment में सरल सेटअप के साथ API call की जा सकती है, और यह personal handle (
@handle) तथा embedding storage सुविधा देता है
- यह शोधकर्ताओं के लिए मुफ़्त खुला है और AI research तथा information discovery automation के लिए बड़े पैमाने के data query प्रयोग-पर्यावरण के रूप में महत्वपूर्ण है
अवलोकन
- Alignment Scry एक ऐसा search system है जो intelligence explosion से संबंधित document index पर SQL और vector algebra operations चला सकता है
- मुख्य data sources में arXiv, Hacker News, LessWrong, community-archive.org आदि शामिल हैं
- उपयोगकर्ता Claude Code के माध्यम से natural language queries या SQL commands से data explore कर सकते हैं
- यह system अभी Alpha experimental stage में है, और इसमें Lens Studio नाम का LessWrong-केंद्रित exploration tool भी शामिल है
Claude integration और access approach
- Claude Code या Claude Web में API access setup के ज़रिए इसे तुरंत इस्तेमाल किया जा सकता है
- Code execution, file creation, और network access की अनुमति देनी होती है, और
api.exopriors.com को domain whitelist में जोड़ना होता है
- public API key
exopriors_public_readonly_v1_2025 के ज़रिए login के बिना access संभव है
- Claude model को हर API call पर user approval प्रक्रिया से न गुज़रना पड़े, इसके लिए
--dangerously-skip-permissions विकल्प इस्तेमाल किया जा सकता है (जो जोखिमपूर्ण है)
- Opus 4.5 या उससे ऊपर के model की सिफारिश की गई है, और prompt injection attacks के जोखिम का भी स्पष्ट उल्लेख है
प्रमुख सुविधाएँ
- Query: 60M दस्तावेज़ों पर SQL queries चलाना
- Embed: semantic search के लिए embeddings को store और reuse करना
- Timeout: load के अनुसार लगभग 20–120 सेकंड के बीच auto-adjust होता है
- Search targets: post, comment, paper, tweet जैसी विभिन्न document types
- Lexical Search: BM25-आधारित keyword search, phrase search, और fuzzy matching सपोर्ट
- Semantic Search: pgvector cosine distance (
<=>) का उपयोग कर semantic similarity search
queries और performance management
alignment.search() केवल शीर्ष 100 BM25 results लौटाता है और तेज़ exploration के लिए sampling में उपयुक्त है
alignment.search_exhaustive() पूर्ण exhaustive search चलाता है और pagination सपोर्ट करता है
- Performance guidelines
- simple search: 1–5 सेकंड
- embedding join (5 लाख rows तक): 5–20 सेकंड
- complex aggregation (20 लाख rows तक): 20–60 सेकंड
- large-scale scan (50 लाख rows से अधिक): load होने पर timeout संभव
- Query execution से पहले summary display और user confirmation प्रक्रिया के ज़रिए overload रोका जाता है
- LIMIT, estimated_rows, join size आदि के आधार पर heavy queries को अपने-आप पहचाना जाता है
data structure और views
alignment schema के भीतर materialized views उपलब्ध हैं
- उदाहरण:
mv_hackernews_posts, mv_arxiv_papers, mv_lesswrong_comments आदि
- मुख्य columns:
entity_id, uri, source, kind, original_author, title, score, embedding आदि
alignment.entities table के साथ join करके metadata तक पहुँचा जा सकता है
alignment.author_topics() फ़ंक्शन से किसी विशेष topic और author के बीच cross-analysis किया जा सकता है
vector operations और composition features
<=>: pgvector cosine distance operator (0 के जितना क़रीब, उतनी अधिक समानता)
@handle: stored vector reference
- Vector mixing:
scale(@rigor,.6) - scale(@hype,.3) जैसे रूप में concept-weighted combination
- Bias removal:
debias_vector(@axis, @topic) से किसी विशेष विषय का प्रभाव हटाना
- Centroid vector की गणना से लेखक या समय-काल का औसत semantic representation बनाया जा सकता है
- Temporal delta की गणना से विचारधारात्मक बदलाव को track किया जा सकता है
hybrid search और examples
- Lexical + Semantic combined search सपोर्ट करता है
- उदाहरण:
WITH hits AS (search(...)) <=> @q के रूप में text candidates को semantic vector से re-rank करना
- BM25 examples
alignment.search('corrigibility')
alignment.search('"inner alignment"')
- SQL examples
- किसी विशेष topic के शीर्ष authors की सूची निकालना
alignment.search_exhaustive() से बड़े पैमाने के results की pagination
system scale और availability conditions
- 65M+ दस्तावेज़, 22M+ embeddings, 600GB+ index उपलब्ध
- शोधकर्ताओं के लिए मुफ़्त, और 1.5M embedding tokens शामिल
- account बनाने पर personal handle namespace, लंबे timeouts (अधिकतम 10 मिनट), और विस्तारित query limits मिलती हैं
सारांश
- Alignment Scry एक Claude के साथ एकीकृत बड़े पैमाने का AI research data query platform है, जो SQL और vector operations को मिलाकर hybrid search सपोर्ट करता है
- public API और स्पष्ट query guidelines के माध्यम से यह AI researchers और developers को experimental data accessibility प्रदान करता है
- 600GB पैमाने के index और 60M से अधिक दस्तावेज़ों के आधार पर यह AI alignment और intelligence research से जुड़ी खोज को automate करने का वातावरण बनाता है
अभी कोई टिप्पणी नहीं है.