- मौजूदा foundation models टेक्स्ट, इमेज, ऑडियो और वीडियो को संभालते हैं, लेकिन वास्तविक दुनिया को चलाने वाले टाइम सीरीज़ डेटा (vitals, prices, telemetry, logs आदि) पर temporal reasoning की क्षमता सीमित है
- Time Series Language Models(TSLMs) टाइम सीरीज़ को टेक्स्ट के समान एक native modality के रूप में सपोर्ट करते हैं, जिससे उपयोगकर्ता natural language में प्रश्न पूछ सकते हैं और व्याख्या व सुझाव प्राप्त कर सकते हैं
- OpenTSLM एक नया language model है, जिसे मेडिकल क्षेत्र में टाइम सीरीज़ डेटा और clinical text को साथ में प्रोसेस करने के लिए डिज़ाइन किया गया है
- यह cross-attention architecture अपनाता है, इसलिए लंबी टाइम सीरीज़ पर भी scale हो सकता है, और मौजूदा तरीकों की तुलना में बड़े पैमाने पर संचालन व्यावहारिक बनाता है
- दो संरचनाएँ प्रस्तावित हैं: SoftPrompt (टाइम सीरीज़ को टोकन के रूप में डालना) और Flamingo (cross-attention आधारित), जिनके अपने अलग फायदे और सीमाएँ हैं
- मॉडल की reasoning performance का मूल्यांकन करने के लिए तीन नए Chain-of-Thought(CoT) datasets (HAR, Sleep, ECG-QA) पेश किए गए
- GPT-4o की तुलना में 200 गुना छोटे मॉडल ने sleep stage classification में 4.4 गुना, activity recognition में 6 गुना, और ECG interpretation में 2 गुना accuracy हासिल की (efficiency क्रमशः 880 गुना, 1,000 गुना, 400 गुना)
- मेडिकल क्षेत्र में पहली बार 12-lead ECG signals और text को एक साथ प्रोसेस करते हुए cardiologist द्वारा सत्यापित chain-of-thought reasoning प्रदान किया गया
- Variable-length multi-time-series को एक साथ प्रोसेस करके, टेक्स्ट context के साथ एकीकृत कर, domain experts द्वारा सत्यापित interpretable explanations उत्पन्न की जाती हैं
- यह शोध मेडिकल से आगे बढ़कर finance, supply chain, industrial monitoring जैसी विभिन्न टाइम सीरीज़ applications में विस्तार की संभावना दिखाता है
शोध का अवलोकन
- Clinical diagnosis और treatment मूल रूप से समय के साथ होने वाले बदलावों को समझने पर आधारित हैं
- मौजूदा LLMs इमेज, टेक्स्ट, स्पीच जैसी कई modalities को संभाल सकते हैं, लेकिन लगातार आने वाले टाइम सीरीज़ डेटा की व्याख्या करने की क्षमता सीमित रही है
- इसे हल करने के लिए OpenTSLM टाइम सीरीज़ डेटा को LLM की नई native modality के रूप में एकीकृत करने का तरीका प्रस्तावित करता है
मॉडल आर्किटेक्चर
- OpenTSLM-SoftPrompt
- टाइम सीरीज़ को embedding करने के बाद टेक्स्ट टोकन के साथ इनपुट किया जाता है
- यह सरल और parameter-efficient है, लेकिन लंबी sequence में memory usage बहुत तेजी से बढ़ने की सीमा है
- OpenTSLM-Flamingo
- टाइम सीरीज़ को अलग modality के रूप में प्रोसेस करता है और cross-attention के ज़रिए टेक्स्ट से जोड़ता है
- लंबी sequence में भी memory usage स्थिर रहता है और general-purpose processing के लिए उपयुक्त है
डेटासेट और प्रशिक्षण
- HAR-CoT: accelerometer sensor के माध्यम से human activity recognition
- Sleep-CoT: EEG-आधारित sleep stage classification
- ECG-QA-CoT: electrocardiogram डेटा का उपयोग करने वाला question answering
- चरणबद्ध curriculum learning लागू किया गया, जिसमें सरल टाइम सीरीज़ पैटर्न सीखने से शुरू करके reasoning क्षमता तक विस्तार किया गया
प्रमुख उपलब्धियाँ
- SoftPrompt-Llama3.2-1B: Sleep-CoT में 69.9% F1, HAR-CoT में 65.4% F1
- Flamingo-Llama3.2-3B: ECG-QA-CoT में 40.25% F1 के साथ सबसे बेहतर प्रदर्शन
- GPT-4o पर प्रदर्शन बढ़त: छोटा मॉडल(OpenTSLM-1B) भी GPT-4o से अधिक F1 स्कोर दर्ज करता है
- डॉक्टर मूल्यांकन: ECG-QA reasoning प्रक्रिया के 92.9% को सही या आंशिक रूप से सही व्याख्या माना गया
मेमोरी दक्षता
- SoftPrompt में इनपुट लंबाई के अनुसार VRAM ज्यामितीय रूप से बढ़ता है (उदाहरण: ECG-QA में 110GB से अधिक आवश्यक)
- Flamingo स्थिर memory usage बनाए रखता है (Llama-3B में भी 60~70GB स्तर)
चर्चा
- OpenTSLM दिखाता है कि छोटे मॉडल ultra-large models से बेहतर प्रदर्शन कर सकते हैं
- SoftPrompt छोटी टाइम सीरीज़ के लिए उपयुक्त है, जबकि Flamingo लंबी अवधि/मल्टी-टाइम-सीरीज़ के लिए बेहतर है
- मेडिकल डेटा में reasoning प्रक्रिया की पारदर्शिता प्रदान कर, भरोसा बनाने में योगदान देता है
- पारंपरिक classifier-आधारित approaches से अलग, यह natural language reasoning + टाइम सीरीज़ संयोजन को संभव बनाता है
सीमाएँ और आगे की चुनौतियाँ
- टाइम सीरीज़ के scale और unit को टेक्स्ट में संरक्षित करने का मौजूदा तरीका सर्वोत्तम नहीं भी हो सकता है
- CoT dataset निर्माण प्रक्रिया में GPT-4o शामिल था, इसलिए डेटा bias की संभावना मौजूद है
- सही prediction की गारंटी देने वाले loss function design, architecture simplification, और generalization performance validation की आवश्यकता है
निष्कर्ष
- OpenTSLM मेडिकल क्षेत्र से आगे बढ़कर finance, supply chain, industrial monitoring जैसी long-term data processing में भी उपयोगी हो सकता है
- यह शोध Time Series Language Model(TSLM) अवधारणा की नींव रखता है और general-purpose टाइम सीरीज़ reasoning model की दिशा में विस्तार का लक्ष्य रखता है
1 टिप्पणियां
Hacker News टिप्पणियाँ
यह समझ आता है कि natural language के ज़रिए time-series data के साथ interact किया जा सकता है, लेकिन signal processing या rule-based algorithm libraries (या अगर data बहुत variable हो तो machine learning) को tool calling से इस्तेमाल करने की तुलना में इसका क्या फ़ायदा है, यह जानने की जिज्ञासा है
उदाहरण के लिए, अगर किसी commercial LLM से ECG data analyze करने को कहें, तो LLM ECG time-series analysis library को call करेगा
वह library पूरे data पर चलकर statistics और events निकालेगी - जैसे: “औसत heart rate 60bpm, किसी खास समय पर AFib detected” आदि
इस तरह LLM को analysis के लिए ज़रूरी सारी जानकारी मिल सकती है, और computation cost भी काफ़ी कम होगी
इसके अलावा, इस तरह के approach को large annotated datasets और pretrained models की ज़रूरत होती है, और अगर मैं ग़लत हूँ तो सुधार दें, लेकिन मुझे लगता है कि “general” time-series data processing कर सकने वाला universal model संभव नहीं है
यानी, ECG data पर trained model stock market data के साथ compatible नहीं होगा
हर तरह के अलग-अलग data को समझने वाला एक ही model अभी संभव नहीं है
ऐसे system को edge पर चलाना मुश्किल है
मुख्य बात यह है कि यह edge पर reliably काम करे
कोई भी अपना heart-rate monitoring cloud पर छोड़ना नहीं चाहेगा - remote services में outage और reliability की बड़ी समस्याएँ होती हैं, और LLM inference से जुड़ी अतिरिक्त कठिनाइयाँ भी आती हैं
मौजूदा rule-based detection features पहले से ही ऐसे devices में लगे होते हैं, और अगर इनके साथ LLM की advanced pattern detection capability जोड़ दी जाए, तो अनावश्यक alerts कम किए जा सकते हैं और नए, जटिल patterns भी detect किए जा सकते हैं
यह इंटरनेट के विशाल data के साथ बातचीत जैसा interface देता है (ChatGPT)
लेकिन यह तरीका Google search में top links पर click करने, ads से बचने, cookie consent स्वीकार करने, headers पढ़ने, scroll करके paywall बंद करने, बाकी article पढ़ने, और इस प्रक्रिया को 4 बार दोहराने से कितना बेहतर है, यह मुझे साफ़ नहीं है
ठीक है, समझ गया
इसमें "Stanford Repo Released Sep 31, 2025" लिखा है, और यह ऐसा लगता है जैसे 2025 में 30 सितंबर के अगले दिन 31 आने वाली किसी probability distribution से sample लिया गया हो
feedback के लिए धन्यवाद कहा
विडंबना यह है कि यह पोस्ट समय को समझने वाले model के बारे में है, यह बात भी बताई
लगता है date वाली गलती पहले ही ठीक कर दी गई है
इस research की बुनियाद “Flamingo” नाम का system है
यह system text और images को बारी-बारी से sequence के रूप में समझने में विशेषज्ञ है
यानी यह दो sequential modalities को साथ में process कर सकता है
यह नई research शायद एक modality channel में time tokens डालकर time awareness को बेहतर बनाती है
(वैसे website design बहुत प्यारा है - text पर left-to-right gradient effect भी है)
Flamingo संबंधित पेपर लिंक
यह सच में बहुत शानदार है
paper देखकर लगता है कि यह technique time-series data-based question answering में अच्छी तरह काम करती है
medical AI में मुझे सबसे दिलचस्प बात यह लगती है कि यह ऐसे disease signals detect कर सकता है जिन्हें इंसान भी नहीं पकड़ पाते
उदाहरण के लिए, ECG से ejection fraction का अनुमान लगाना, जो cardiologist भी नहीं कर पाते (हालाँकि algorithm को पहले ही RCT के ज़रिए validate किया जा चुका है)
संबंधित पेपर लिंक
OpenTSLM time-series data को LLM embedding space में tokenize करता है, तो क्या यह प्रक्रिया ऐसे सूक्ष्म signals पकड़ पाएगी, यह जानने की उत्सुकता है
या फिर यह पूछा गया कि क्या इस approach को ऐसे use cases के लिए बढ़ाया जा सकता है
शुरुआती research phase में यही सबसे बड़ी motivation थी
model में raw time-series data को cross-attention के ज़रिए integrate किया जाता है, और raw time-series encoder से ठोस time-series representations सीखी जाती हैं
अगर model को time-series processing चाहिए, तो TS library को call करने वाला script generate करके executor को देना बेहतर होगा
इंसान भी शायद ऐसा ही करेगा
मुझे यक़ीन नहीं कि यह capability model के अंदर ही built-in होनी चाहिए
अगर model में native TS processing हो, तो क्या वह कुछ ऐसा कर सकता है जो tool calling से नहीं हो सकता, यह जानना चाहूँगा
Anthropic भी अपने Claude Agent SDK की ताज़ा घोषणा में “model से script लिखवाओ” वाला तरीका recommend कर रहा है
code generation स्पष्ट होता है और उसकी reusability व composability बहुत अच्छी होती है, इसलिए complex tasks को reliably पूरा करने के लिए यह आदर्श है
agent development करते समय अगर यह सोचा जाए कि कौन-से tasks code के रूप में व्यक्त करने के लिए उपयुक्त हैं, तो नई संभावनाएँ खुलती हैं
Claude Agent SDK संबंधित लिंक
लगता है आपने मुख्य बात मिस कर दी
ज़रा सोचिए कि image captioning के लिए image analysis library को call करना बेहतर है या image को सीधे time-series की तरह समझकर reason करना
paper के plots देखें, तो समझ आएगा कि ऐसे models क्या कर सकते हैं
मूल रूप से यह जिज्ञासा है कि क्या इसमें सच में “समय की अवधारणा” है, और क्या यह causality को समझता है
मैं आज घर पहुँचते ही इसे ज़रूर आज़माऊँगा
मैं बहुत सारे audio time-series data के साथ काम करता हूँ (जिनमें शब्द भी नहीं होते और सूक्ष्म variations भी बहुत होते हैं), इसलिए देखना चाहता हूँ कि यह नया तरीका traditional statistical techniques की तुलना में कितना अच्छा perform करता है
इन्होंने huggingface पर एक repo बनाया है और model weights का कुछ हिस्सा वहाँ अपलोड किया है
लेकिन official homepage, paper, और Github में अभी वह link दिख नहीं रहा
OpenTSLM huggingface पेज
मैं कल्पना कर रहा हूँ कि claude code मेरे heart-rate time series को real time में monitor करे और यह भी detect कर ले कि मैं बिस्तर पर कब करवटें बदल रहा हूँ
अगर मेरी समझ सही है, तो यह model time-series classification और interpretation पर trained लगता है; क्या इसे forecasting पर भी benchmark किया गया है, यह जानने की उत्सुकता है
explanations और recommendations अक्सर prediction से क़रीबी रूप से जुड़ी होती हैं, इसलिए इस पहलू में भी model की खासियत दिख सकती है
एक दिलचस्प litmus test यह हो सकता है कि S&P500 trend को हटाकर उसे 500 individual stocks के components में तोड़ा जाए, फिर हर stock के contribution का analysis और ranking की जाए
लेकिन सिर्फ़ ऐसे काम से Rentec या NSA में नौकरी मिलना मुश्किल है
commercial और medical क्षेत्रों में आमतौर पर signals ज़्यादातर normal होते हैं और white (uncorrelated) noise के साथ आते हैं, जबकि NSA और Rentec में अधिकतर non-stationary signals, regime change, और correlated noise से निपटना पड़ता है
ऐसे signals को बिना information loss के denoise नहीं किया जा सकता
ऐसी analysis का लक्ष्य अगला tick predict करना कम, और pattern change (regime change) को सबसे तेज़ी से detect करके उसे मौजूदा stock trading patterns या intelligence activity patterns से match करना ज़्यादा होता है