Chronon - Airbnb द्वारा जारी open source ML feature platform

xguru · 2024-04-12T09:48:03+09:00

मशीन लर्निंग के लिए data pipeline को आसानी से बनाना, deploy करना, manage करना और monitor करना संभव बनाने वाला open source end-to-end feature platform फिलहाल Airbnb के भीतर सभी प्रमुख ML applications और Stripe के प्रमुख use cases में इस्तेमाल हो रहा है मुख्य फीचर कई तरह के sources से data collect किया जा सकता है: event stream, DB table snapshot, change data stream, service endpoint, warehouse table आदि को slowly changing dimensions, fact या dimension tables के रूप में model करके इस्तेमाल किया जा सकता है online और offline context में result generate करना: online में scalable low-latency endpoint के रूप में, और offline में training data generation के लिए hive table के रूप में उपलब्ध real-time या batch accuracy चुनने की सुविधा: result को Temporal या Snapshot accuracy के रूप में configure किया जा सकता है Temporal का मतलब है online context में feature values को real time में update करना और offline context में किसी खास समय-बिंदु के अनुरूप features generate करना Snapshot accuracy का मतलब है कि features दिन में एक बार आधी रात को update होते हैं raw data से training dataset backfill किया जा सकता है: model training के लिए feature logs कई महीनों तक जमा होने का इंतज़ार किए बिना मज़बूत Python API उपलब्ध: data source type, freshness, context आदि को API-level abstraction के रूप में देता है, और group-by, join, select जैसे intuitive SQL primitives को शक्तिशाली enhancements के साथ मिलाकर इस्तेमाल किया जा सकता है automated feature monitoring: training data quality को समझने, training-serving mismatch को मापने, feature drift को monitor करने आदि के लिए monitoring pipeline अपने-आप generate की जा सकती है विकास की पृष्ठभूमि Chronon को इस आम समस्या को दूर करने के लिए विकसित किया गया, जिसमें ML practitioners मॉडलिंग से ज़्यादा समय मॉडल को चलाने वाले data को manage करने में खर्च करते हैं मौजूदा approaches की सीमाएँ offline-online replication approach ML practitioners data warehouse के data से model को train करते हैं, फिर online environment में उन features को replicate करने का तरीका खोजते हैं फ़ायदा: data sources और large-scale data transformation के लिए शक्तिशाली tools सहित data warehouse का पूरा लाभ लिया जा सकता है नुकसान: online inference के लिए model features उपलब्ध कराने का स्पष्ट तरीका नहीं होता, जिससे mismatch और label leakage पैदा होते हैं और model performance पर गंभीर असर पड़ता है logging and waiting approach ML practitioners online serving environment में उपलब्ध data से शुरुआत करते हैं, जहाँ model inference चलना है, और संबंधित features को data warehouse में log करते हैं जब पर्याप्त data जमा हो जाता है, तो logs से model को train किया जाता है और उसी data से serving की जाती है फ़ायदा: consistency सुनिश्चित होती है और leakage की संभावना कम रहती है नुकसान: लंबा wait time बदलते user behavior पर तेज़ी से प्रतिक्रिया देना कठिन बना देता है Chronon का approach Chronon ML practitioners को features सिर्फ़ एक बार define करने देता है, जिससे model training के लिए offline flow और model inference के लिए online flow दोनों को power मिलती है साथ ही यह feature chaining, observability, data quality, और feature sharing व management के लिए शक्तिशाली tools देता है इससे मौजूदा approaches के फ़ायदे बनाए रखते हुए उनकी कमियों को पूरा करना संभव होता है

(github.com/airbnb)

17 पॉइंट द्वारा xguru 2024-04-12 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

मशीन लर्निंग के लिए data pipeline को आसानी से बनाना, deploy करना, manage करना और monitor करना संभव बनाने वाला open source end-to-end feature platform
फिलहाल Airbnb के भीतर सभी प्रमुख ML applications और Stripe के प्रमुख use cases में इस्तेमाल हो रहा है

मुख्य फीचर

कई तरह के sources से data collect किया जा सकता है: event stream, DB table snapshot, change data stream, service endpoint, warehouse table आदि को slowly changing dimensions, fact या dimension tables के रूप में model करके इस्तेमाल किया जा सकता है
online और offline context में result generate करना: online में scalable low-latency endpoint के रूप में, और offline में training data generation के लिए hive table के रूप में उपलब्ध
real-time या batch accuracy चुनने की सुविधा:
- result को Temporal या Snapshot accuracy के रूप में configure किया जा सकता है
- Temporal का मतलब है online context में feature values को real time में update करना और offline context में किसी खास समय-बिंदु के अनुरूप features generate करना
- Snapshot accuracy का मतलब है कि features दिन में एक बार आधी रात को update होते हैं
raw data से training dataset backfill किया जा सकता है: model training के लिए feature logs कई महीनों तक जमा होने का इंतज़ार किए बिना
मज़बूत Python API उपलब्ध: data source type, freshness, context आदि को API-level abstraction के रूप में देता है, और group-by, join, select जैसे intuitive SQL primitives को शक्तिशाली enhancements के साथ मिलाकर इस्तेमाल किया जा सकता है
automated feature monitoring: training data quality को समझने, training-serving mismatch को मापने, feature drift को monitor करने आदि के लिए monitoring pipeline अपने-आप generate की जा सकती है

विकास की पृष्ठभूमि

Chronon को इस आम समस्या को दूर करने के लिए विकसित किया गया, जिसमें ML practitioners मॉडलिंग से ज़्यादा समय मॉडल को चलाने वाले data को manage करने में खर्च करते हैं

मौजूदा approaches की सीमाएँ

offline-online replication approach
- ML practitioners data warehouse के data से model को train करते हैं, फिर online environment में उन features को replicate करने का तरीका खोजते हैं
- फ़ायदा: data sources और large-scale data transformation के लिए शक्तिशाली tools सहित data warehouse का पूरा लाभ लिया जा सकता है
- नुकसान: online inference के लिए model features उपलब्ध कराने का स्पष्ट तरीका नहीं होता, जिससे mismatch और label leakage पैदा होते हैं और model performance पर गंभीर असर पड़ता है
logging and waiting approach
- ML practitioners online serving environment में उपलब्ध data से शुरुआत करते हैं, जहाँ model inference चलना है, और संबंधित features को data warehouse में log करते हैं
- जब पर्याप्त data जमा हो जाता है, तो logs से model को train किया जाता है और उसी data से serving की जाती है
- फ़ायदा: consistency सुनिश्चित होती है और leakage की संभावना कम रहती है
- नुकसान: लंबा wait time बदलते user behavior पर तेज़ी से प्रतिक्रिया देना कठिन बना देता है

Chronon का approach

Chronon ML practitioners को features सिर्फ़ एक बार define करने देता है, जिससे model training के लिए offline flow और model inference के लिए online flow दोनों को power मिलती है
साथ ही यह feature chaining, observability, data quality, और feature sharing व management के लिए शक्तिशाली tools देता है
इससे मौजूदा approaches के फ़ायदे बनाए रखते हुए उनकी कमियों को पूरा करना संभव होता है