• GPT-5, Claude, Gemini, Grok, DeepSeek सहित 5 बड़े language models ने वास्तविक market data के आधार पर 8 महीनों तक virtual stock trading की
  • हर मॉडल ने $100,000 की simulated capital के साथ प्रमुख stocks में रोज़ाना ट्रेड किया, और सभी decision-making व portfolio बदलावों का रिकॉर्ड रखा गया
  • नतीजतन Grok ने सबसे अधिक return दिया, DeepSeek मामूली अंतर से दूसरे स्थान पर रहा, जबकि Gemini non-tech stocks पर केंद्रित portfolio के कारण सबसे नीचे रहा
  • यह प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक चला, और मॉडल्स को training cutoff के बाद के data तक ही पहुँच देने के लिए time-filtered API environment बनाया गया
  • शोधकर्ताओं की योजना है कि इस प्रयोग को शुरुआती बिंदु बनाकर real-time trading और controlled-variable experiments के ज़रिये LLM की financial analysis क्षमता को व्यवस्थित रूप से परखा जाए

AI Trade Arena का अवलोकन

  • AI Trade Arena एक experimental platform है, जिसे LLM की वास्तविक financial data का analysis और prediction करने की क्षमता का मूल्यांकन करने के लिए बनाया गया है
    • Kam और Josh ने इसे मिलकर विकसित किया
    • इसे इस तरह डिज़ाइन किया गया है कि मॉडल news, financial statements और market data के आधार पर stock trading करें
  • यह platform हर मॉडल की holdings, trade history और performance को ट्रैक करता है, और पूरी trading process को interactive demo के रूप में सार्वजनिक करता है

पहला प्रयोग: 5 LLM की स्टॉक ट्रेडिंग

  • इस प्रयोग में GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek शामिल थे
    • हर मॉडल को $100,000 की simulated capital दी गई
    • options trading को शामिल नहीं किया गया, केवल प्रमुख stocks में ट्रेडिंग हुई
  • सभी trades वास्तविक historical stock prices के आधार पर किए गए, और मॉडल्स को सिर्फ उसी समय तक सार्वजनिक हुई जानकारी तक पहुँच दी गई
    • News API, corporate financial data और market data को time-filtering के साथ उपलब्ध कराया गया
  • प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक, लगभग 8 महीनों तक चला

Backtesting की अवधारणा और सीमाएँ

  • Backtest वह तरीका है जिसमें historical data का उपयोग करके trading algorithm की performance को validate किया जाता है
    • इसमें यह simulate किया जाता है कि LLM अतीत के किसी समय पर क्या निर्णय लेता
    • future data leak न हो, इसके लिए API को time series के आधार पर अलग रखा गया
  • फायदे
    • बड़े पैमाने पर मॉडल evaluation संभव
    • अलग-अलग scenarios को तेज़ी से test किया जा सकता है
    • statistically meaningful results हासिल किए जा सकते हैं
  • कमियाँ
    • वास्तविक market की competitive और liquidity conditions को पूरी तरह reproduce नहीं किया जा सकता
    • slippage, trading volume constraints, और future data leakage का जोखिम रहता है
    • historical data पर overfitting की संभावना रहती है

प्रयोग के परिणाम और अवलोकन

  • सभी मॉडल्स को training data cutoff के बाद की अवधि पर ही test किया गया
    • यह व्यवस्था इसलिए थी ताकि मॉडल पहले से ज्ञात market results को याद करके ट्रेड न करें
  • Grok ने सर्वश्रेष्ठ प्रदर्शन किया, जबकि DeepSeek मामूली अंतर से दूसरे स्थान पर रहा
    • अधिकांश मॉडल्स ने tech stock-केंद्रित portfolio बनाया और ऊँचे returns दर्ज किए
    • Gemini में non-tech stocks का हिस्सा अधिक था, इसलिए उसका प्रदर्शन सबसे कम रहा
  • शोधकर्ताओं ने trading process और उसके कारणों को पूरी तरह सार्वजनिक करके transparency सुनिश्चित की
    • हर trade का आधार UI में सीधे देखा जा सकता है

आगे की योजना

  • शोधकर्ता सिर्फ backtesting तक सीमित न रहकर real-time trading experiments तक विस्तार करने की योजना बना रहे हैं
    • 3-stage approach: historical scenario backtest → real-time paper trading → actual market trading
  • लक्ष्य है LLM की financial market analysis क्षमता और decision-making quality को व्यवस्थित रूप से समझना
    • market data को real-world evaluation metric के रूप में इस्तेमाल किया जाएगा
    • Barra factor analysis आदि के माध्यम से luck और skill में अंतर करने की कोशिश होगी
  • trading records के ज़रिये memorization-based judgments और actual reasoning के अंतर की पहचान की जा सकती है
    • उदाहरण: सिर्फ Nvidia को याद रखकर खरीदना बनाम 10-K report का analysis करके fundamental insight हासिल करना
  • ऐसी transparent decision-analysis के माध्यम से मॉडल के tooling और workflow में सुधार संभव है

भागीदारी और डेटा की खोज

  • वेबसाइट के interactive demo में हर मॉडल की trades, strategy और reasoning process को सीधे देखा जा सकता है
  • शोधकर्ता अतिरिक्त experiments की योजना बना रहे हैं, और Discord community तथा Twitter DM के माध्यम से feedback एकत्र कर रहे हैं

अभी कोई टिप्पणी नहीं है.

अभी कोई टिप्पणी नहीं है.