8 महीनों तक 5 LLM को 1.4 करोड़ रुपये देकर स्टॉक ट्रेडिंग सिम्युलेट करने वाला प्रयोग
(aitradearena.com)- GPT-5, Claude, Gemini, Grok, DeepSeek सहित 5 बड़े language models ने वास्तविक market data के आधार पर 8 महीनों तक virtual stock trading की
- हर मॉडल ने $100,000 की simulated capital के साथ प्रमुख stocks में रोज़ाना ट्रेड किया, और सभी decision-making व portfolio बदलावों का रिकॉर्ड रखा गया
- नतीजतन Grok ने सबसे अधिक return दिया, DeepSeek मामूली अंतर से दूसरे स्थान पर रहा, जबकि Gemini non-tech stocks पर केंद्रित portfolio के कारण सबसे नीचे रहा
- यह प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक चला, और मॉडल्स को training cutoff के बाद के data तक ही पहुँच देने के लिए time-filtered API environment बनाया गया
- शोधकर्ताओं की योजना है कि इस प्रयोग को शुरुआती बिंदु बनाकर real-time trading और controlled-variable experiments के ज़रिये LLM की financial analysis क्षमता को व्यवस्थित रूप से परखा जाए
AI Trade Arena का अवलोकन
- AI Trade Arena एक experimental platform है, जिसे LLM की वास्तविक financial data का analysis और prediction करने की क्षमता का मूल्यांकन करने के लिए बनाया गया है
- Kam और Josh ने इसे मिलकर विकसित किया
- इसे इस तरह डिज़ाइन किया गया है कि मॉडल news, financial statements और market data के आधार पर stock trading करें
- यह platform हर मॉडल की holdings, trade history और performance को ट्रैक करता है, और पूरी trading process को interactive demo के रूप में सार्वजनिक करता है
पहला प्रयोग: 5 LLM की स्टॉक ट्रेडिंग
- इस प्रयोग में GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek शामिल थे
- हर मॉडल को $100,000 की simulated capital दी गई
- options trading को शामिल नहीं किया गया, केवल प्रमुख stocks में ट्रेडिंग हुई
- सभी trades वास्तविक historical stock prices के आधार पर किए गए, और मॉडल्स को सिर्फ उसी समय तक सार्वजनिक हुई जानकारी तक पहुँच दी गई
- News API, corporate financial data और market data को time-filtering के साथ उपलब्ध कराया गया
- प्रयोग 3 फ़रवरी 2025 से 20 अक्तूबर 2025 तक, लगभग 8 महीनों तक चला
Backtesting की अवधारणा और सीमाएँ
- Backtest वह तरीका है जिसमें historical data का उपयोग करके trading algorithm की performance को validate किया जाता है
- इसमें यह simulate किया जाता है कि LLM अतीत के किसी समय पर क्या निर्णय लेता
- future data leak न हो, इसके लिए API को time series के आधार पर अलग रखा गया
- फायदे
- बड़े पैमाने पर मॉडल evaluation संभव
- अलग-अलग scenarios को तेज़ी से test किया जा सकता है
- statistically meaningful results हासिल किए जा सकते हैं
- कमियाँ
- वास्तविक market की competitive और liquidity conditions को पूरी तरह reproduce नहीं किया जा सकता
- slippage, trading volume constraints, और future data leakage का जोखिम रहता है
- historical data पर overfitting की संभावना रहती है
प्रयोग के परिणाम और अवलोकन
- सभी मॉडल्स को training data cutoff के बाद की अवधि पर ही test किया गया
- यह व्यवस्था इसलिए थी ताकि मॉडल पहले से ज्ञात market results को याद करके ट्रेड न करें
- Grok ने सर्वश्रेष्ठ प्रदर्शन किया, जबकि DeepSeek मामूली अंतर से दूसरे स्थान पर रहा
- अधिकांश मॉडल्स ने tech stock-केंद्रित portfolio बनाया और ऊँचे returns दर्ज किए
- Gemini में non-tech stocks का हिस्सा अधिक था, इसलिए उसका प्रदर्शन सबसे कम रहा
- शोधकर्ताओं ने trading process और उसके कारणों को पूरी तरह सार्वजनिक करके transparency सुनिश्चित की
- हर trade का आधार UI में सीधे देखा जा सकता है
आगे की योजना
- शोधकर्ता सिर्फ backtesting तक सीमित न रहकर real-time trading experiments तक विस्तार करने की योजना बना रहे हैं
- 3-stage approach: historical scenario backtest → real-time paper trading → actual market trading
- लक्ष्य है LLM की financial market analysis क्षमता और decision-making quality को व्यवस्थित रूप से समझना
- market data को real-world evaluation metric के रूप में इस्तेमाल किया जाएगा
- Barra factor analysis आदि के माध्यम से luck और skill में अंतर करने की कोशिश होगी
- trading records के ज़रिये memorization-based judgments और actual reasoning के अंतर की पहचान की जा सकती है
- उदाहरण: सिर्फ Nvidia को याद रखकर खरीदना बनाम 10-K report का analysis करके fundamental insight हासिल करना
- ऐसी transparent decision-analysis के माध्यम से मॉडल के tooling और workflow में सुधार संभव है
भागीदारी और डेटा की खोज
- वेबसाइट के interactive demo में हर मॉडल की trades, strategy और reasoning process को सीधे देखा जा सकता है
- शोधकर्ता अतिरिक्त experiments की योजना बना रहे हैं, और Discord community तथा Twitter DM के माध्यम से feedback एकत्र कर रहे हैं
1 टिप्पणियां
Hacker News राय
Grok ने सबसे अच्छा प्रदर्शन किया और DeepSeek बहुत मामूली अंतर से दूसरे स्थान पर रहा
लगता है कि ज़्यादातर models ने tech stock-केंद्रित portfolio रखा, इसलिए अच्छे नतीजे मिले
दूसरी ओर Gemini में non-tech stocks का अनुपात ज़्यादा था, इसलिए वह सबसे नीचे रहा
मैं न तो investor हूँ न researcher, लेकिन यह नतीजा कुछ गलत metric मापे जाने जैसा लगता है
लेकिन समस्या यह है कि correction के समय का अनुमान नहीं लगाया जा सकता
अगर data में गिरता बाज़ार शामिल ही नहीं था, तो model वह स्थिति सीख नहीं सकता था
बल्कि data को दो हिस्सों में बाँटकर एक पर training और दूसरे पर testing करना ज़्यादा दिलचस्प होता
इससे यह बात याद आती है कि hedge funds भी 2~4 साल तक market को हरा सकते हैं, लेकिन 10 साल से ज़्यादा तक यह लगभग असंभव है
समयावधि के हिसाब से models को दोबारा train करके backtesting करना ज़्यादा अर्थपूर्ण नतीजे दे सकता है
मैं पहले algorithmic trading के लिए brokerage API में काम करता था, और अक्सर ऐसा होता था कि जो strategy backtesting में अच्छी चलती थी, वह असली market में fail हो जाती थी
यहाँ तक कि real-time paper trading भी असली market से अलग तरह से काम करती है
DeepSeek ने बिना बेचे tech stocks ज़्यादा पकड़े रखे, इसलिए अच्छा प्रदर्शन किया, लेकिन एक sector पर केंद्रित strategy जोखिमभरी होती है
दिन में सिर्फ एक बार trade करने की अनुमति थी, इसलिए यह real-time decision-making experiment नहीं था
अगर LLM सही समय पर sectors बदल सके, तो वह वास्तव में प्रभावशाली होगा
और दूसरे participants orders cancel कर सकते हैं या उनका पीछा कर सकते हैं, यानी market impact मौजूद होता है
paper trading में ऐसा नहीं होता
अगर हर model को सिर्फ एक बार चलाया गया, तो वह सही backtest नहीं है
अगर सिर्फ एक समय-बिंदु का नतीजा देखा जाए, तो “AI stocks खरीदो” जैसी साधारण strategy भी संयोग से अच्छी साबित हो सकती है
10 अलग-अलग market phases में 100-100 independent runs होने चाहिए, तभी अर्थपूर्ण statistics मिलेंगे
अभी का experiment सिर्फ एक महँगा random number generator है
उदाहरण के लिए Claude को 8 महीने चलाने में 200~300 डॉलर लगे
इच्छा थी कि इसे बड़े पैमाने पर बढ़ाकर statistically meaningful नतीजे निकाले जाएँ
अभी यह कुछ ज़्यादा result-focused article जैसा दिखता है
क्योंकि random तरीके से stocks चुनने पर भी S&P 500 को हराने की संभावना काफ़ी होती है
लेकिन कोई भी उस strategy को अगले 15 साल तक वैसे ही इस्तेमाल नहीं करेगा
अभी चल रहा nof1.ai leaderboard भी है
नतीजे उम्मीद से कमज़ोर हैं, और ज़्यादातर AI Mag7 tech stocks की short-term trading पर फोकस करके नुकसान उठा रही हैं
हम इसे पूरक करने के लिए rallies.ai/arena पर ऐसा ही experiment चला रहे हैं
फिर भी nof1 का real-time investment commentary dashboard देखने में मज़ेदार है
मैं ही लेखक (OP) हूँ
मुझे backtesting और virtual money की सीमाएँ पता थीं, फिर भी मैं यह दिखाना चाहता था कि models market को कैसे perceive करते हैं
इसका मतलब यह नहीं है कि वे लंबे समय में market को हरा सकते हैं
bull market में high-beta portfolio रखना कोई खास उपलब्धि नहीं है
हम भी stocks और options पर real-time experiment चला रहे हैं
models को SEC filings, fundamentals, real-time prices, options data जैसे कई तरह के tool access मिले हुए हैं
हमारा मानना है कि LLM लगभग सारा historical data पहले से याद रखते हैं, इसलिए backtesting अर्थपूर्ण नहीं है
इसी वजह से हम forward testing कर रहे हैं, और अभी data कम है, लेकिन शुरुआती नतीजे दिलचस्प हैं
rallies.ai/arena
ऐसा ही एक experiment crypto पर real money और real-time trading के साथ किया जा चुका है
संबंधित लिंक
मेरा मानना है कि LLM में future data leakage रोकना लगभग असंभव है
research में भी इसे कठिन बताया गया है, और prediction models के साथ काम करते हुए मैंने भी यह कठिनाई सीधे महसूस की है
backtesting असली trading से अलग है, इसलिए इसकी बहुत ज़्यादा अहमियत नहीं है
ऊपर से 8 महीने बहुत कम अवधि है
मेरे हिसाब से 8 महीनों से ज़्यादा महत्वपूर्ण 8 साल बाद का market है
stock names हटा देने पर भी model सिर्फ graph pattern देखकर NVDA का अंदाज़ा लगा सके, ऐसी संभावना है, क्योंकि वह इस पर train हो चुका होगा
ऐसे models के backtesting results पर भरोसा करना मुश्किल है
असली लागतों को शामिल करते हुए 8 महीने का real-time experiment होना चाहिए, तभी बात बनेगी
rallies.ai/arena
यह पूरी तरह गलत approach है
मैं वास्तव में LLM को trading में इस्तेमाल करने वाला researcher हूँ
LLM भोले होते हैं, आसानी से प्रभावित हो जाते हैं, और non-deterministic होते हैं
वही experiment 10 बार करने पर 10 अलग नतीजे आ सकते हैं
सही तरीका यह है कि पहले deterministic trading algorithm बनाया जाए और उसके ऊपर LLM को सहायक tool की तरह रखा जाए
LLM को सीधे trading pipeline में डालने से सिर्फ अनावश्यक uncertainty बढ़ती है
sentiment analysis या सहायक ML tasks को तेज़ी से जोड़ने में इसका मूल्य हो सकता है
लेकिन इस तरह का experiment domain understanding के बिना AI जोड़ देने का एक सामान्य उदाहरण है
सचमुच meaningful research वह होगी जिसमें sector exposure जैसे variables को control करके हज़ारों बार दोहराया जाए और हर LLM के bias patterns का विश्लेषण किया जाए
अगर कोई LLM खुद कहे कि “मैं quant algorithm design करूँगा” और सच में सफल हो जाए, तो वह वाकई चौंकाने वाली बात होगी