11 पॉइंट द्वारा GN⁺ 2025-12-06 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • GPT-5, Claude, Gemini, Grok, DeepSeek सहित 5 बड़े language models ने वास्तविक market data के आधार पर 8 महीनों तक virtual stock trading की
  • हर मॉडल ने $100,000 की simulated capital के साथ प्रमुख stocks में रोज़ाना ट्रेड किया, और सभी decision-making व portfolio बदलावों का रिकॉर्ड रखा गया
  • नतीजतन Grok ने सबसे अधिक return दिया, DeepSeek मामूली अंतर से दूसरे स्थान पर रहा, जबकि Gemini non-tech stocks पर केंद्रित portfolio के कारण सबसे नीचे रहा
  • यह प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक चला, और मॉडल्स को training cutoff के बाद के data तक ही पहुँच देने के लिए time-filtered API environment बनाया गया
  • शोधकर्ताओं की योजना है कि इस प्रयोग को शुरुआती बिंदु बनाकर real-time trading और controlled-variable experiments के ज़रिये LLM की financial analysis क्षमता को व्यवस्थित रूप से परखा जाए

AI Trade Arena का अवलोकन

  • AI Trade Arena एक experimental platform है, जिसे LLM की वास्तविक financial data का analysis और prediction करने की क्षमता का मूल्यांकन करने के लिए बनाया गया है
    • Kam और Josh ने इसे मिलकर विकसित किया
    • इसे इस तरह डिज़ाइन किया गया है कि मॉडल news, financial statements और market data के आधार पर stock trading करें
  • यह platform हर मॉडल की holdings, trade history और performance को ट्रैक करता है, और पूरी trading process को interactive demo के रूप में सार्वजनिक करता है

पहला प्रयोग: 5 LLM की स्टॉक ट्रेडिंग

  • इस प्रयोग में GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek शामिल थे
    • हर मॉडल को $100,000 की simulated capital दी गई
    • options trading को शामिल नहीं किया गया, केवल प्रमुख stocks में ट्रेडिंग हुई
  • सभी trades वास्तविक historical stock prices के आधार पर किए गए, और मॉडल्स को सिर्फ उसी समय तक सार्वजनिक हुई जानकारी तक पहुँच दी गई
    • News API, corporate financial data और market data को time-filtering के साथ उपलब्ध कराया गया
  • प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक, लगभग 8 महीनों तक चला

Backtesting की अवधारणा और सीमाएँ

  • Backtest वह तरीका है जिसमें historical data का उपयोग करके trading algorithm की performance को validate किया जाता है
    • इसमें यह simulate किया जाता है कि LLM अतीत के किसी समय पर क्या निर्णय लेता
    • future data leak न हो, इसके लिए API को time series के आधार पर अलग रखा गया
  • फायदे
    • बड़े पैमाने पर मॉडल evaluation संभव
    • अलग-अलग scenarios को तेज़ी से test किया जा सकता है
    • statistically meaningful results हासिल किए जा सकते हैं
  • कमियाँ
    • वास्तविक market की competitive और liquidity conditions को पूरी तरह reproduce नहीं किया जा सकता
    • slippage, trading volume constraints, और future data leakage का जोखिम रहता है
    • historical data पर overfitting की संभावना रहती है

प्रयोग के परिणाम और अवलोकन

  • सभी मॉडल्स को training data cutoff के बाद की अवधि पर ही test किया गया
    • यह व्यवस्था इसलिए थी ताकि मॉडल पहले से ज्ञात market results को याद करके ट्रेड न करें
  • Grok ने सर्वश्रेष्ठ प्रदर्शन किया, जबकि DeepSeek मामूली अंतर से दूसरे स्थान पर रहा
    • अधिकांश मॉडल्स ने tech stock-केंद्रित portfolio बनाया और ऊँचे returns दर्ज किए
    • Gemini में non-tech stocks का हिस्सा अधिक था, इसलिए उसका प्रदर्शन सबसे कम रहा
  • शोधकर्ताओं ने trading process और उसके कारणों को पूरी तरह सार्वजनिक करके transparency सुनिश्चित की
    • हर trade का आधार UI में सीधे देखा जा सकता है

आगे की योजना

  • शोधकर्ता सिर्फ backtesting तक सीमित न रहकर real-time trading experiments तक विस्तार करने की योजना बना रहे हैं
    • 3-stage approach: historical scenario backtest → real-time paper trading → actual market trading
  • लक्ष्य है LLM की financial market analysis क्षमता और decision-making quality को व्यवस्थित रूप से समझना
    • market data को real-world evaluation metric के रूप में इस्तेमाल किया जाएगा
    • Barra factor analysis आदि के माध्यम से luck और skill में अंतर करने की कोशिश होगी
  • trading records के ज़रिये memorization-based judgments और actual reasoning के अंतर की पहचान की जा सकती है
    • उदाहरण: सिर्फ Nvidia को याद रखकर खरीदना बनाम 10-K report का analysis करके fundamental insight हासिल करना
  • ऐसी transparent decision-analysis के माध्यम से मॉडल के tooling और workflow में सुधार संभव है

भागीदारी और डेटा की खोज

  • वेबसाइट के interactive demo में हर मॉडल की trades, strategy और reasoning process को सीधे देखा जा सकता है
  • शोधकर्ता अतिरिक्त experiments की योजना बना रहे हैं, और Discord community तथा Twitter DM के माध्यम से feedback एकत्र कर रहे हैं

1 टिप्पणियां

 
GN⁺ 2025-12-06
Hacker News राय
  • Grok ने सबसे अच्छा प्रदर्शन किया और DeepSeek बहुत मामूली अंतर से दूसरे स्थान पर रहा
    लगता है कि ज़्यादातर models ने tech stock-केंद्रित portfolio रखा, इसलिए अच्छे नतीजे मिले
    दूसरी ओर Gemini में non-tech stocks का अनुपात ज़्यादा था, इसलिए वह सबसे नीचे रहा
    मैं न तो investor हूँ न researcher, लेकिन यह नतीजा कुछ गलत metric मापे जाने जैसा लगता है

    • अगर आप मान लें कि tech sector लगातार ऊपर जाएगा, तो market average को हराया जा सकता है
      लेकिन समस्या यह है कि correction के समय का अनुमान नहीं लगाया जा सकता
      अगर data में गिरता बाज़ार शामिल ही नहीं था, तो model वह स्थिति सीख नहीं सकता था
      बल्कि data को दो हिस्सों में बाँटकर एक पर training और दूसरे पर testing करना ज़्यादा दिलचस्प होता
      इससे यह बात याद आती है कि hedge funds भी 2~4 साल तक market को हरा सकते हैं, लेकिन 10 साल से ज़्यादा तक यह लगभग असंभव है
    • ज़्यादा उचित तरीका यह होगा कि हर model के लिए 100 portfolio बनाए जाएँ और Monte Carlo simulation चलाकर औसत प्रदर्शन देखा जाए
    • अच्छा होगा अगर इस अध्ययन को bear market में भी दोहराया जाए
    • S&P 500 में भी tech stocks का वज़न ज़्यादा है और लंबे समय में इसे हराना मुश्किल index है
    • यह experiment समय-विशेष के context को देखे बिना सिर्फ हालिया प्रदर्शन दिखाता हुआ लगता है
      समयावधि के हिसाब से models को दोबारा train करके backtesting करना ज़्यादा अर्थपूर्ण नतीजे दे सकता है
  • मैं पहले algorithmic trading के लिए brokerage API में काम करता था, और अक्सर ऐसा होता था कि जो strategy backtesting में अच्छी चलती थी, वह असली market में fail हो जाती थी
    यहाँ तक कि real-time paper trading भी असली market से अलग तरह से काम करती है
    DeepSeek ने बिना बेचे tech stocks ज़्यादा पकड़े रखे, इसलिए अच्छा प्रदर्शन किया, लेकिन एक sector पर केंद्रित strategy जोखिमभरी होती है
    दिन में सिर्फ एक बार trade करने की अनुमति थी, इसलिए यह real-time decision-making experiment नहीं था
    अगर LLM सही समय पर sectors बदल सके, तो वह वास्तव में प्रभावशाली होगा

    • असली market में orders को market makers (front running) के साथ पहले match किया जा सकता है,
      और दूसरे participants orders cancel कर सकते हैं या उनका पीछा कर सकते हैं, यानी market impact मौजूद होता है
      paper trading में ऐसा नहीं होता
    • जब असली पैसा दाँव पर हो, तो emotional factors बीच में आ जाते हैं और machine के फ़ैसले पर पूरी तरह भरोसा करना मुश्किल होता है
    • अगर बहुत सारी strategies आज़माई जाएँ, तो संयोग से कोई ऐसी strategy निकल सकती है जो पुराने data पर फिट बैठती हो, इसलिए सिर्फ backtesting अपने आप में अर्थहीन है
    • मैंने भी ThinkOrSwim पर paper trading में पैसा दो-तीन गुना किया था, लेकिन असली market में पूरी तरह असफल रहा
  • अगर हर model को सिर्फ एक बार चलाया गया, तो वह सही backtest नहीं है
    अगर सिर्फ एक समय-बिंदु का नतीजा देखा जाए, तो “AI stocks खरीदो” जैसी साधारण strategy भी संयोग से अच्छी साबित हो सकती है
    10 अलग-अलग market phases में 100-100 independent runs होने चाहिए, तभी अर्थपूर्ण statistics मिलेंगे
    अभी का experiment सिर्फ एक महँगा random number generator है

    • budget सीमित था, इसलिए models को कई बार नहीं चलाया जा सका
      उदाहरण के लिए Claude को 8 महीने चलाने में 200~300 डॉलर लगे
      इच्छा थी कि इसे बड़े पैमाने पर बढ़ाकर statistically meaningful नतीजे निकाले जाएँ
    • paper में भी साफ़ लिखा था कि नतीजे statistically significant नहीं हैं, लेकिन इस बात पर और ज़ोर होना चाहिए था
      अभी यह कुछ ज़्यादा result-focused article जैसा दिखता है
    • कुल return के अलावा कोई दूसरा metric न होना भी समस्या है
      क्योंकि random तरीके से stocks चुनने पर भी S&P 500 को हराने की संभावना काफ़ी होती है
    • चरम रूप में “1 जनवरी 2010 को कौन-से stocks खरीदने चाहिए ताकि 15 साल बाद सबसे ज़्यादा return मिले?” जैसा experiment भी किया जा सकता है
      लेकिन कोई भी उस strategy को अगले 15 साल तक वैसे ही इस्तेमाल नहीं करेगा
    • एक बार का run दरअसल लगभग random walk ही है
  • अभी चल रहा nof1.ai leaderboard भी है
    नतीजे उम्मीद से कमज़ोर हैं, और ज़्यादातर AI Mag7 tech stocks की short-term trading पर फोकस करके नुकसान उठा रही हैं

    • nof1 की सीमा यह है कि वह real investors के काम आने वाले company analysis data का लगभग इस्तेमाल नहीं करता
      हम इसे पूरक करने के लिए rallies.ai/arena पर ऐसा ही experiment चला रहे हैं
    • मैंने कल X (Twitter) पर इसे ट्रेंड करते देखा और सोचा कि यह nof1 का result है, लेकिन यह पूरी तरह अलग experiment निकला
      फिर भी nof1 का real-time investment commentary dashboard देखने में मज़ेदार है
    • site देखकर लगता है कि models सिर्फ कुछ tech stocks और XYZ100 coin में ही trade कर सकते हैं
    • कहीं वह “mystery model” उनका अपना model तो नहीं?
    • price information बहुत तेज़ी से फैलती है, इसलिए नतीजे agent architecture और feedback loop पर बहुत निर्भर करते हैं
  • मैं ही लेखक (OP) हूँ
    मुझे backtesting और virtual money की सीमाएँ पता थीं, फिर भी मैं यह दिखाना चाहता था कि models market को कैसे perceive करते हैं
    इसका मतलब यह नहीं है कि वे लंबे समय में market को हरा सकते हैं

    • humans के साथ तुलना करने वाला controlled experiment भी अच्छा होगा
    • चूँकि इसमें असली पैसा लगाकर trade नहीं हो रहा, इसलिए market impact बिल्कुल नहीं है
    • अगर risk-adjusted returns सार्वजनिक न किए जाएँ, तो नतीजों का मतलब कमज़ोर पड़ जाता है
      bull market में high-beta portfolio रखना कोई खास उपलब्धि नहीं है
    • “DeepSeek came close to second” की जगह “came in a close second” सही अभिव्यक्ति है
    • capital markets research में PhD होने के नाते, मेरा मानना है कि abnormal return (alpha) निकालना चाहिए, तभी असली excess performance का आकलन हो सकता है
  • हम भी stocks और options पर real-time experiment चला रहे हैं
    models को SEC filings, fundamentals, real-time prices, options data जैसे कई तरह के tool access मिले हुए हैं
    हमारा मानना है कि LLM लगभग सारा historical data पहले से याद रखते हैं, इसलिए backtesting अर्थपूर्ण नहीं है
    इसी वजह से हम forward testing कर रहे हैं, और अभी data कम है, लेकिन शुरुआती नतीजे दिलचस्प हैं
    rallies.ai/arena

    • अगर code या prompts open source न हों, तो क्या उस पर भरोसा करना मुश्किल नहीं होगा?
    • यह जानना दिलचस्प होगा कि Qwen का प्रदर्शन दूसरे models की तुलना में इतना ख़राब क्यों रहा
  • ऐसा ही एक experiment crypto पर real money और real-time trading के साथ किया जा चुका है
    संबंधित लिंक
    मेरा मानना है कि LLM में future data leakage रोकना लगभग असंभव है
    research में भी इसे कठिन बताया गया है, और prediction models के साथ काम करते हुए मैंने भी यह कठिनाई सीधे महसूस की है

  • backtesting असली trading से अलग है, इसलिए इसकी बहुत ज़्यादा अहमियत नहीं है
    ऊपर से 8 महीने बहुत कम अवधि है
    मेरे हिसाब से 8 महीनों से ज़्यादा महत्वपूर्ण 8 साल बाद का market है

    • LLM backtesting करनी हो तो historical data को पूरी तरह white-wash करना पड़ेगा
      stock names हटा देने पर भी model सिर्फ graph pattern देखकर NVDA का अंदाज़ा लगा सके, ऐसी संभावना है, क्योंकि वह इस पर train हो चुका होगा
  • ऐसे models के backtesting results पर भरोसा करना मुश्किल है
    असली लागतों को शामिल करते हुए 8 महीने का real-time experiment होना चाहिए, तभी बात बनेगी

    • हम अभी stocks और options पर live experiment चला रहे हैं
      rallies.ai/arena
  • यह पूरी तरह गलत approach है
    मैं वास्तव में LLM को trading में इस्तेमाल करने वाला researcher हूँ
    LLM भोले होते हैं, आसानी से प्रभावित हो जाते हैं, और non-deterministic होते हैं
    वही experiment 10 बार करने पर 10 अलग नतीजे आ सकते हैं
    सही तरीका यह है कि पहले deterministic trading algorithm बनाया जाए और उसके ऊपर LLM को सहायक tool की तरह रखा जाए
    LLM को सीधे trading pipeline में डालने से सिर्फ अनावश्यक uncertainty बढ़ती है
    sentiment analysis या सहायक ML tasks को तेज़ी से जोड़ने में इसका मूल्य हो सकता है
    लेकिन इस तरह का experiment domain understanding के बिना AI जोड़ देने का एक सामान्य उदाहरण है
    सचमुच meaningful research वह होगी जिसमें sector exposure जैसे variables को control करके हज़ारों बार दोहराया जाए और हर LLM के bias patterns का विश्लेषण किया जाए
    अगर कोई LLM खुद कहे कि “मैं quant algorithm design करूँगा” और सच में सफल हो जाए, तो वह वाकई चौंकाने वाली बात होगी