- GPT-5, Claude, Gemini, Grok, DeepSeek सहित 5 बड़े language models ने वास्तविक market data के आधार पर 8 महीनों तक virtual stock trading की
- हर मॉडल ने $100,000 की simulated capital के साथ प्रमुख stocks में रोज़ाना ट्रेड किया, और सभी decision-making व portfolio बदलावों का रिकॉर्ड रखा गया
- नतीजतन Grok ने सबसे अधिक return दिया, DeepSeek मामूली अंतर से दूसरे स्थान पर रहा, जबकि Gemini non-tech stocks पर केंद्रित portfolio के कारण सबसे नीचे रहा
- यह प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक चला, और मॉडल्स को training cutoff के बाद के data तक ही पहुँच देने के लिए time-filtered API environment बनाया गया
- शोधकर्ताओं की योजना है कि इस प्रयोग को शुरुआती बिंदु बनाकर real-time trading और controlled-variable experiments के ज़रिये LLM की financial analysis क्षमता को व्यवस्थित रूप से परखा जाए
AI Trade Arena का अवलोकन
- AI Trade Arena एक experimental platform है, जिसे LLM की वास्तविक financial data का analysis और prediction करने की क्षमता का मूल्यांकन करने के लिए बनाया गया है
- Kam और Josh ने इसे मिलकर विकसित किया
- इसे इस तरह डिज़ाइन किया गया है कि मॉडल news, financial statements और market data के आधार पर stock trading करें
- यह platform हर मॉडल की holdings, trade history और performance को ट्रैक करता है, और पूरी trading process को interactive demo के रूप में सार्वजनिक करता है
पहला प्रयोग: 5 LLM की स्टॉक ट्रेडिंग
- इस प्रयोग में GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek शामिल थे
- हर मॉडल को $100,000 की simulated capital दी गई
- options trading को शामिल नहीं किया गया, केवल प्रमुख stocks में ट्रेडिंग हुई
- सभी trades वास्तविक historical stock prices के आधार पर किए गए, और मॉडल्स को सिर्फ उसी समय तक सार्वजनिक हुई जानकारी तक पहुँच दी गई
- News API, corporate financial data और market data को time-filtering के साथ उपलब्ध कराया गया
- प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक, लगभग 8 महीनों तक चला
Backtesting की अवधारणा और सीमाएँ
- Backtest वह तरीका है जिसमें historical data का उपयोग करके trading algorithm की performance को validate किया जाता है
- इसमें यह simulate किया जाता है कि LLM अतीत के किसी समय पर क्या निर्णय लेता
- future data leak न हो, इसके लिए API को time series के आधार पर अलग रखा गया
- फायदे
- बड़े पैमाने पर मॉडल evaluation संभव
- अलग-अलग scenarios को तेज़ी से test किया जा सकता है
- statistically meaningful results हासिल किए जा सकते हैं
- कमियाँ
- वास्तविक market की competitive और liquidity conditions को पूरी तरह reproduce नहीं किया जा सकता
- slippage, trading volume constraints, और future data leakage का जोखिम रहता है
- historical data पर overfitting की संभावना रहती है
प्रयोग के परिणाम और अवलोकन
- सभी मॉडल्स को training data cutoff के बाद की अवधि पर ही test किया गया
- यह व्यवस्था इसलिए थी ताकि मॉडल पहले से ज्ञात market results को याद करके ट्रेड न करें
- Grok ने सर्वश्रेष्ठ प्रदर्शन किया, जबकि DeepSeek मामूली अंतर से दूसरे स्थान पर रहा
- अधिकांश मॉडल्स ने tech stock-केंद्रित portfolio बनाया और ऊँचे returns दर्ज किए
- Gemini में non-tech stocks का हिस्सा अधिक था, इसलिए उसका प्रदर्शन सबसे कम रहा
- शोधकर्ताओं ने trading process और उसके कारणों को पूरी तरह सार्वजनिक करके transparency सुनिश्चित की
- हर trade का आधार UI में सीधे देखा जा सकता है
आगे की योजना
- शोधकर्ता सिर्फ backtesting तक सीमित न रहकर real-time trading experiments तक विस्तार करने की योजना बना रहे हैं
- 3-stage approach: historical scenario backtest → real-time paper trading → actual market trading
- लक्ष्य है LLM की financial market analysis क्षमता और decision-making quality को व्यवस्थित रूप से समझना
- market data को real-world evaluation metric के रूप में इस्तेमाल किया जाएगा
- Barra factor analysis आदि के माध्यम से luck और skill में अंतर करने की कोशिश होगी
- trading records के ज़रिये memorization-based judgments और actual reasoning के अंतर की पहचान की जा सकती है
- उदाहरण: सिर्फ Nvidia को याद रखकर खरीदना बनाम 10-K report का analysis करके fundamental insight हासिल करना
- ऐसी transparent decision-analysis के माध्यम से मॉडल के tooling और workflow में सुधार संभव है
भागीदारी और डेटा की खोज
- वेबसाइट के interactive demo में हर मॉडल की trades, strategy और reasoning process को सीधे देखा जा सकता है
- शोधकर्ता अतिरिक्त experiments की योजना बना रहे हैं, और Discord community तथा Twitter DM के माध्यम से feedback एकत्र कर रहे हैं
अभी कोई टिप्पणी नहीं है.