1 पॉइंट द्वारा GN⁺ 2024-07-18 | 1 टिप्पणियां | WhatsApp पर शेयर करें

xLSTMTime: Long-term Time Series Forecasting With xLSTM

  • पिछले कुछ वर्षों में, transformer-आधारित मॉडलों ने multivariate long-term time series forecasting (LTSF) में उल्लेखनीय प्रदर्शन दिखाया है। हालांकि, वे उच्च computational requirements, temporal dynamics को कैप्चर करने में कठिनाई, और long-term dependencies को संभालने जैसी समस्याओं का सामना करते हैं
  • सरल linear structure वाले LTSF-Linear के आने से transformer-आधारित मॉडलों से बेहतर प्रदर्शन देखने को मिला, जिससे time series forecasting में transformers की उपयोगिता का पुनर्मूल्यांकन हुआ
  • इसके जवाब में, यह शोधपत्र हालिया architecture extended LSTM (xLSTM) को LTSF पर लागू करने के परिणाम प्रस्तुत करता है। xLSTM में exponential gating और अधिक capacity वाली modified memory structure शामिल है, जो LTSF के लिए उपयुक्त क्षमता रखती है
  • हमारे द्वारा अपनाया गया LTSF architecture xLSTMTime मौजूदा approaches से बेहतर प्रदर्शन करता है। कई वास्तविक-world datasets पर विभिन्न state-of-the-art मॉडलों और xLSTMTime के प्रदर्शन की तुलना के परिणाम superior forecasting capability दिखाते हैं
  • हमारे निष्कर्ष संकेत देते हैं कि refined recurrent architectures, LTSF कार्यों में transformer-आधारित मॉडलों के लिए एक प्रतिस्पर्धी विकल्प प्रदान कर सकते हैं, और time series forecasting के परिदृश्य को फिर से परिभाषित करने की क्षमता रखते हैं

GN⁺ की संक्षिप्त प्रस्तुति

  • यह शोधपत्र transformer-आधारित मॉडलों की सीमाओं को दूर करने के लिए xLSTM को पेश करता है और long-term time series forecasting में उत्कृष्ट प्रदर्शन दिखाता है
  • xLSTMTime exponential gating और modified memory structure के माध्यम से मौजूदा मॉडलों से बेहतर forecasting capability साबित करता है
  • यह शोध time series forecasting में recurrent architectures की संभावनाओं पर फिर से ध्यान केंद्रित करता है और transformer-आधारित मॉडलों के लिए एक नया विकल्प प्रस्तुत करता है
  • समान कार्यक्षमता वाले प्रोजेक्ट्स में Facebook का Prophet और Amazon का DeepAR शामिल हैं

1 टिप्पणियां

 
GN⁺ 2024-07-18
Hacker News राय
  • पिछले कुछ वर्षों में Transformer-आधारित मॉडल्स ने multivariate long-term time-series forecasting में ध्यान तो खींचा है, लेकिन क्या वे आम तौर पर non-deep-learning मॉडल्स से बेहतर हैं, इस पर मुझे संदेह है
    मेरी समझ तो यही थी कि ऐसा नहीं है, हालांकि मैं इस क्षेत्र को बहुत closely follow नहीं कर रहा हूँ

    • payments/spending forecast के अनुभव में deep learning आम तौर पर gradient boosting trees से कमज़ोर रही
      Deep learning मॉडल seasonality सीखने में अच्छे होते हैं, लेकिन complex trends या shocks को अच्छी तरह handle नहीं कर पाते
      economic/financial data में seasonality अक्सर simple और trends complex होते हैं, इसलिए deep learning काफी underperform करती दिखती है
      मैं इस paper से सहमत हूँ। मेरे इस्तेमाल किए अच्छे deep learning time-series architectures, DeepAR या N-BEATS की तरह MLP या recurrent neural networks के simple extensions के करीब थे, और Transformer-based architectures—खासकर आजकल की बाढ़ में आने वाले Transformer-based foundation models तक—वाकई बेहद खराब रहे
    • aviation safety के काम में multivariate time-series forecasting में deep learning traditional non-deep-learning models से बेहतर रही
      हालांकि deep learning models के बीच भी Transformer, bidirectional LSTM, सामान्य MLP, VAE आदि में performance gap बहुत बड़ा था
    • मैंने खुद इस्तेमाल नहीं किया, लेकिन हाल में time-series analysis में XGBoost जैसे tree-based models इस्तेमाल करने वाले एक दोस्त से इस विषय पर बात की
      उसने कहा कि Transformer-based architectures, tree models की तुलना में अपेक्षाकृत कम effort में भी time-series tasks पर ठीक-ठाक performance दे देते हैं
      मेरी समझ के अनुसार, अगर पर्याप्त parameter tuning की जाए तो tree-based models आम तौर पर Transformers को हरा सकते हैं। लेकिन TimeGPT जैसे models व्यापक tuning के बिना भी ठीक performance देते हैं, इसलिए quick implementation के लिए आकर्षक हैं
    • paper के ठीक अगले paragraph में यही बात आती है। xLSTMTime भी Transformer-based नहीं है
    • बहुत उत्कृष्ट स्तर का नहीं, लेकिन हाल की transfer learning कोशिशें promising लगीं
  • मेरे काम का एक हिस्सा वास्तव में economic nowcasting और forecasting models बनाना है। मैं inflation, GDP जैसे economic indicators और market liquidity जैसे financial indicators से deal करता हूँ
    अभी paper नहीं पढ़ पाया, लेकिन “Transformers जिन कामों में अच्छे हैं वहाँ शानदार हैं, पर LSTM-family models अब भी बहुत valuable हैं” वाले overall tone से मैं पूरी तरह सहमत हूँ

    • काम में Mamba apply करने का मौका मिला है या नहीं, इस पर आपके विचार जानना चाहूँगा
  • इसका Google के AI-based weather prediction model से क्या संबंध है?
    https://deepmind.google/discover/blog/graphcast-ai-model-for...

    • नहीं। Graphcast ERA5 atmospheric reanalysis data पर trained एक graph transformer है, general-purpose time-series forecasting model नहीं
      reference के लिए, Graphcast कम से कम large-scale global pattern forecasting में सभी traditional global deterministic forecasts से बेहतर है। Z500 जैसे metrics पर लगभग 3–10 day lead time range में
      ECMWF के पास Graphcast-derived AIFS है, और संभव है कि कुछ वर्षों में वे इसे या कुछ मिलता-जुलता operational environment में deploy कर दें
  • अगर इसे forecasting tool के रूप में market किया जा रहा है, तो क्या यह time-series की event classification पर लागू नहीं होता?

    • मुझे यह थोड़ा अलग task लगता है। मैं इस क्षेत्र का expert तो नहीं हूँ, लेकिन अगर event count n बहुत छोटा हो, तो शायद हर event की probability को target value मानकर इसे multivariate forecasting problem की तरह handle किया जा सकता है
    • यह approach या Transformer/LLM-based approaches, उदाहरण के लिए anomaly detection को कहाँ improve करती हैं, यह भी जानने में दिलचस्पी है
  • paper में दिया dataset link काम नहीं कर रहा, यह अफसोस की बात है। उम्मीद है ठीक किया जाएगा

  • सबसे अच्छे deep learning time-series models शायद hedge funds के अंदर privately होंगे

    • असल में मुश्किल काम का बड़ा हिस्सा किसी विशाल single model में नहीं, बल्कि feature construction में होता है। मेरी जानकारी में gradient boosting अभी भी dominate करता है
    • no free lunch theorem की वजह से सामान्य तौर पर “best model” जैसी कोई चीज़ नहीं होती
      hedge funds में जो approach अच्छा काम करती है, वह ऐसे domains में खराब हो सकती है जहाँ data volume और data nature अलग हों, और required inductive bias कम या अलग हो
    • कम से कम high-end hedge funds अब time-series modeling इस्तेमाल नहीं करते, ऐसा मुझे लगता है। आज के standards से यह काफी old-fashioned है
  • Time-series forecasting deterministic domains में सबसे अच्छा काम करती है
    public LLM, AI, deep learning, machine learning techniques में से कोई भी stock market पर अच्छी तरह काम नहीं करती। सचमुच एक भी नहीं। सब try कर चुका हूँ

  • अगर किसी की time-series forecasting method सच में काम करती, तो वह उसे publish नहीं करता

    • ज़रूरी नहीं। असल में बहुत कुछ publish भी होता है। time-series work का overwhelming majority asset prices या stock market returns को beat करने से संबंधित नहीं होता
    • Transformer model भी AI history के सबसे successful models में से एक था, फिर भी paper के रूप में publish हुआ
  • मैंने इसे गलती से XSLT पढ़ लिया

    • 2024 में XML से जुड़ा लेख कितना interesting होगा, यह सोचकर click किया था; एक साथ निराशा भी हुई और संतोष भी
    • सही। और यह भी transformation के बारे में ही है
    • मेरे साथ भी यही हुआ। क्या मैं बूढ़ा हो गया हूँ?
  • इंतज़ार है कि कोई इससे stock prediction करने की कोशिश करे और अपनी सारी savings गंवा दे