22 पॉइंट द्वारा xguru 2024-05-26 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • structured data पर natural language में query करने योग्य NL-to-SQL इंजन
  • पूरा codebase open source में परिवर्तित: core engine, client (authentication/RBAC) आदि शामिल
  • अब कोई भी अपने product के अंदर text-to-SQL solution बना सकता है
  • Dataherald का Core NL-to-SQL इंजन एक LLM-आधारित agent है, जो CoT(Chain of Thought) reasoning और विभिन्न tools का उपयोग करके दिए गए user prompt से उच्च-सटीकता वाला SQL जनरेट करता है
  • कुल 4 services शामिल हैं
    • इंजन: LLM agent, vector store और DB connector
    • admin console: engine settings और Observability प्रबंधन के लिए NextJS frontend
    • enterprise backend: core engine को wrap करके authentication/caching/API आदि जोड़ता है
    • Slack bot: Dataherald को Slack workflow में जोड़ता है

1 टिप्पणियां

 
xguru 2024-05-26

Dataherald - natural language-to-SQL इंजन
इसे 8 महीने पहले शेयर किया गया था, और अब इसने पूरा प्रोडक्ट open source कर दिया है।

Hacker News की राय

  • यह टूल वाकई बहुत शानदार लग रहा है। दूसरे टूल सरल queries पर तो ठीक काम करते हैं, लेकिन complex schema और joins में दिक्कत होती है। जानना चाहूँगा कि क्या DataHerald ने यह समस्या हल की है।
  • मैंने पिछले साल एक text-to-SQL प्रोडक्ट open source किया था। इस तरह का बिज़नेस बनाना बहुत मुश्किल है। open source और Snowflake/PowerBI जैसे free distribution tools के साथ जुड़ना ज़्यादा समझदारी लगती है।
  • जानना चाहूँगा कि पूरे प्रोडक्ट को open source करने का कारण क्या है। क्या आप open core model की तरफ जा रहे हैं? अगर वजह साझा करें तो अच्छा लगेगा।
  • इस ऐतिहासिक योगदान के लिए धन्यवाद। अभी बहुत-सी कंपनियाँ डेटा के साथ "conversation" कर रही हैं। लगता है कई टीमें इसी तरह का काम कर रही होंगी।
  • यह feature-rich AI analytics assistants में से एक है। इसे open source करने के लिए सराहना। Metabase, Airbyte और dbt जैसे सफल उदाहरण मौजूद हैं।
  • जानना चाहूँगा कि यह टूल किसके लिए है। वेबसाइट कहती है कि यह analyst के बिना data questions का जवाब दे सकता है, लेकिन analyst ही model और data के expert होते हैं। data warehouse में कई तरह की समस्याएँ हो सकती हैं। क्या LLM इन्हें लगातार और भरोसेमंद तरीके से संभाल सकता है, यह जानना चाहूँगा।
  • यह टूल औसत LLM से बेहतर इसलिए काम कर सकता है क्योंकि इसे database structure का उपयोग करके train किया जा सकता है। लेकिन database structure अक्सर बदल भी सकता है, इसलिए retraining की ज़रूरत पड़ सकती है। क्या PR merge या बदलाव के बाद यह अपने-आप retrain होता है?
  • जानना चाहूँगा कि क्या यह टूल complex joins कर सकता है। वेबसाइट पर मुझे इसके examples नहीं मिले।
  • मुझे समझ नहीं आता कि NLP+ORM system इस्तेमाल करना बेहतर क्यों नहीं होगा। उसमें fixed syntax इस्तेमाल करनी पड़ती है, लेकिन 100% accuracy मिल सकती है।
  • मैंने हाल ही में NL-to-SQL का एक prototype इस्तेमाल किया था। समस्या यह थी कि गलती से या किसी malicious actor द्वारा database पर असर पड़ने से कैसे रोका जाए। अगर इससे जुड़े दूसरे पहलुओं पर बात करनी हो तो मुझसे संपर्क करें।