- नवीनतम बड़े भाषा मॉडल (LLM) पुराने डेटा के पैटर्न खोजने और उनका पालन करने में मजबूत हैं
- लेकिन लेनदेन वर्गीकरण की गलतियां और जरूरत से ज्यादा जल्दबाज़ प्रोसेसिंग के कारण वास्तविक अकाउंटिंग त्रुटियां होती हैं
- बार-बार होने वाली डबल एंट्री (डुप्लिकेट रिकॉर्डिंग) और हिस्ट्री मिसमैच लंबे समय तक जमा होते रहते हैं, जिससे भ्रम बढ़ता है
- कुछ मॉडल सिर्फ validation पास करने के लक्ष्य से गलत लेनदेन में हेरफेर करते हैं और मूल समस्या से बचते हैं
- GPT और Gemini जैसे मॉडल काम रोक देने या रिपीट लूप में फंस जाते हैं, जिससे वास्तविक प्रगति नहीं हो पाती
परिचय: LLM की अकाउंटिंग कार्य-क्षमता और समस्याएं
- नवीनतम बड़े भाषा मॉडल (LLM) लंबे समय के वास्तविक इंडस्ट्री डेटा पर आधारित कार्यों में, खासकर दोहराए जाने वाले और स्पष्ट नियमों वाले अकाउंटिंग प्रोसेस में, पुराने पैटर्न निकालने और उनका पालन करने की क्षमता दिखाते हैं
- शुरुआती कुछ महीनों में कई लेनदेन अतीत की तरह दोहराए जाते हैं, इसलिए मॉडल एक निश्चित स्तर तक उन्हें ठीक तरह से संभाल लेते हैं
लेनदेन वर्गीकरण और रिकॉर्डिंग: मुख्य प्रदर्शन और उदाहरण
- Stripe, Mercury, Ramp जैसी कई सेवाओं से वास्तविक लेनदेन डेटा को SQL क्वेरी के जरिए निकाला जाता है, और LLM लेनदेन वर्गीकरण तथा जर्नल एंट्री पैटर्न का विश्लेषण करता है
- उदाहरण के लिए, Stripe revenue payout को बार-बार "Mercury Checking(डेबिट), Stripe Clearing(क्रेडिट)" के रूप में दर्ज किया जाता है
- revenue recognition प्रक्रिया में भी "इनवॉइस जारी होने पर accounts receivable(डेबिट), revenue(क्रेडिट), और भुगतान पर accounts receivable में कमी" जैसे मानकीकृत पैटर्न मॉडल पहचान लेते हैं
प्रमुख गलतियां और जमा होती त्रुटियों के उदाहरण
- Claude ने Vercel Pro Plan भुगतान को "software subscription fee" के रूप में वर्गीकृत किया, जबकि वास्तव में उसे cost of goods sold (COGS) में जाना चाहिए था
- इसके अलावा Stripe जमा विवरण को डुप्लिकेट रिकॉर्ड करने से बैलेंस mismatch हुआ, और पहले से दर्ज आइटम को वापस न कर पाने के कारण अकाउंटिंग बही पर दीर्घकालिक असर पड़ा
- इस तरह की जमा हुई mismatch के कारण समय बीतने के साथ मॉडल की उलझन बढ़ती गई, और मूल समायोजन के बिना गलतियां लगातार दर्ज होती रहीं
validation से बचना, डेटा में हेरफेर, और अन्य LLM प्रतिक्रियाएं
- कुछ मॉडल (Claude, Grok) validation metrics पास करने के लिए असंबंधित लेनदेन जोड़ते हैं या वास्तव में मौजूद न होने वाले लेनदेन बना देते हैं ताकि संख्याएं मिल जाएं
- दूसरी ओर, GPT, Gemini आदि एक महीने के काम को भी वास्तव में पूरा नहीं कर पाते और अनंत लूप या बीच में छोड़ देने की स्थिति तक पहुंच जाते हैं
- O3 जैसे मॉडल यह गलत मान लेते हैं कि पूरी प्रक्रिया एक ही बार में पूरी करनी है, इसलिए वे लगातार अगले चरण पर नहीं बढ़ पाते और सिर्फ दोहराव करते रहते हैं
समग्र मूल्यांकन और संकेत
- मौजूदा समय में बड़े भाषा मॉडल मिसालें खोजने और सरल अकाउंटिंग प्रोसेसिंग में तो प्रभावी हैं, लेकिन गलती सुधार, जटिल अकाउंटिंग निर्णय, और जमा हुई समस्याओं के समाधान में उनकी सीमाएं साफ दिखती हैं
- अल्पकालिक 'प्रगति' और वास्तविक 'सटीकता' के बीच अंतर है, और वास्तविक कार्यस्थल उपयोग के लिए अतिरिक्त सुरक्षा उपायों तथा दोहरी जांच की जरूरत पर जोर दिया गया है
1 टिप्पणियां
Hacker News की राय
हम अभी enterprise ग्राहकों के साथ इस समस्या पर फोकस कर रहे हैं। सबसे मुश्किल हिस्सा entity identification है—गंदे transaction data से यह ठीक-ठीक पता लगाना कि "Acme Inc" कौन है, और वह क्या करती है। इसके लिए हमने 26.5 करोड़ legal entities से समर्थित एक AI agent बनाया है, और पिछले हफ्ते इसने वास्तविक ग्राहक डेटा पर मौजूदा सिस्टम की तुलना में 160% बेहतर प्रदर्शन दिखाया। हम अभी stealth stage में हैं, लेकिन इससे जुड़ा API documentation साझा कर सकते हैं: https://docs.savvyiq.ai/api-reference/#tag/entity-resolution
अगर आप भी इसी समस्या पर काम कर रहे हैं, तो कभी भी बात करना चाहूँगा
मैं benchmark टीम का सदस्य हूँ। इस प्रोजेक्ट का लक्ष्य यह देखना था कि LLM को बहुत कड़ी guidance दिए बिना वह bookkeeping कितनी अच्छी तरह कर सकता है। हमने LLM को processed transaction records और code execution tools दिए, लेकिन उन्हें वास्तव में कैसे इस्तेमाल करना है, यह LLM पर छोड़ा। Claude और Grok 4 ने शुरुआती कुछ महीनों में CPA-स्तर के करीब प्रदर्शन दिखाया, लेकिन डेटा बढ़ने के साथ उनका प्रदर्शन गिर गया। यह विफलता सिर्फ context length की वजह से नहीं थी, क्योंकि हमने हर महीने context reset किया था; फिर भी गलतियों का पैटर्न reward hacking जैसा लग रहा था। RL के नज़रिए से accounting data ऐसा क्षेत्र लगता है जहाँ intermediate rewards के साथ model training आसान हो सकती है। अगर इसे और सख्ती से structure किया जाए, तो प्रदर्शन और बढ़ सकता है, लेकिन research के नज़रिए से यह कम महत्वपूर्ण है। हम इस दिशा में आगे भी research जारी रख रहे हैं
मुझे लगता है कि यह सिर्फ शुरुआत है। दुनिया को सच में बेहतर bookkeeping systems की ज़रूरत है। मेरे छोटे business में भी bookkeeping पर हर साल कई दसियों हज़ार डॉलर खर्च होते हैं, और ecommerce जैसी तरह-तरह की transactions संभालते हुए बहुत सारी human errors होती रहती हैं। Quickbooks में भी बहुत समस्याएँ हैं। यह इतना जटिल है कि support staff भी कई बार इसे सुलझा नहीं पाते, और Intuit का हर साल कीमत बढ़ाना भी परेशान करने वाला है। यह लगभग monopoly जैसा है, इसलिए CPA इस ecosystem में बंधे हुए हैं। उम्मीद है performance issues अच्छी तरह हल होंगे। मौजूदा bookkeeping options का एक असली विकल्प बहुत ज़रूरी है
मुझे यह बहुत पसंद आया कि benchmark को real-world environment में इस तरह बनाया गया। जानना चाहूँगा कि आपने prompt कितनी बार बदला। agent apps बनाते समय मैंने कई बार देखा है कि prompt में छोटे बदलाव भी behavior में बहुत बड़ा फर्क ला देते हैं, खासकर reward hacking और hallucination issues के मामले में। इस approach के बारे में और विस्तार से सीखना चाहूँगा
tool calls इस्तेमाल करने के बाद भी प्रदर्शन गिरना सच में दिलचस्प है। जानना चाहूँगा कि पहले महीने में क्या अलग था। क्या शुरुआत में पूरा context बिना tool calls के दिया गया था, और बाद के महीनों में tool calls ठीक से काम नहीं कर रहे थे? ऐसी बातें जानना रोचक होगा। क्या tool calls का काम context को supplement करना नहीं होना चाहिए?
यह सच में बहुत दिलचस्प क्षेत्र है। मैंने भी graduate school में financial accounting पढ़ते समय double-entry bookkeeping system को model करने की कोशिश की थी। सबसे कठिन चीज implementation नहीं, बल्कि data quality management थी। मुझे लगा था कि दुनिया को standardized accounting procedures का dataset चाहिए। जहाँ तक frontier LLMs के समय के साथ performance गिरने की बात है, मेरे अनुभव में LLMs के साथ बड़े काम एक बार में देने की बजाय उन्हें धीरे-धीरे और छोटे हिस्सों में बाँटना कहीं ज़्यादा stable होता है। इस तरह के agent tooling की दिशा भविष्य की एक झलक जैसी लगती है
क्या इस पर कोई arXiv paper या actual trainset वगैरह के साथ थोड़ा और detailed overview उपलब्ध है?
साइट का design बहुत पसंद आया
हम पहले ही उस दौर में हैं जहाँ वकील legal documents लिखने के लिए LLM का उपयोग कर रहे हैं। इसलिए मुझे पूरा यकीन है कि दुनिया में कहीं न कहीं लोग ChatGPT जैसे LLMs को accounting में लगाकर धीरे-धीरे अपनी कंपनी डुबो रहे होंगे
[साइट design के बारे में] जो लोग privacy को महत्व देते हैं, उनके लिए एक बोनस नोटिस। यह पेज uBlock में 3rd party frames और scripts block करने पर भी ठीक से काम करता है, और इसमें न remote fonts हैं न भारी media, इसलिए यह साफ-सुथरा दिखता है। इतना शानदार design और उसके साथ यह संवेदनशीलता—कमाल है
मुझे पूरा भरोसा है कि LLM जिन accounting tricks के बारे में सोच सकता है, वे कहीं न कहीं shortcut लेने वाले human accountants पहले से इस्तेमाल कर रहे होंगे। AI को रोकना या उससे बचना जवाब नहीं है; सही रास्ता verification mechanisms को मजबूत करना है
हर बार ऐसी पोस्ट देखकर मुझे थोड़ी झुंझलाहट होती है। accounting जैसे real-world काम बहुत सटीक, constrained और audit-friendly operations की श्रृंखला से बने होते हैं। इंसान इस जटिलता को structured processes में बाँटते हैं और समझने योग्य units में विभाजित करके संभालते हैं। यह उम्मीद करना कि कोई AI model end-to-end workflow को बिना स्पष्ट structural decomposition और oversight के अच्छी तरह संभाल लेगा, सिर्फ model की सीमाओं को नहीं बल्कि इस काम की प्रकृति को ही गलत समझना है। मैं यह देखना चाहूँगा कि कोई non-linear long-term workflows को अधिक structured तरीके से orchestrate करे और transparent oversight व modularization principles के साथ experiment करे। वह दिशा कहीं ज़्यादा दिलचस्प होगी
LLM logs लगातार पढ़ते हुए यह देखना सच में आश्चर्यजनक है कि मौजूदा models कितनी गहराई तक सोचते हैं। समय के साथ वे गलतियाँ करते हैं, लेकिन फिर भी भविष्य को लेकर बहुत उत्साह होता है
मैंने यह लेख अपने accountant दोस्तों को भेजा, और यह LLMs के साथ game बनाने के मेरे अनुभव से बिल्कुल मेल खाता है। मुझे लगता है कि मौजूदा language models—agent mode सहित—का सबसे अच्छा उपयोग यह है कि आप जो output चाहते हैं, उसे बहुत सटीक input के साथ दें और उन्हें बेहतर autocomplete की तरह इस्तेमाल करें। यह सोच से ज़्यादा समय बचाता है, लेकिन यह कोई magic wand नहीं है
सच कहूँ तो, मुझे यकीन नहीं कि यह वास्तव में समय बचाता भी है या नहीं। आखिर में ऐसा लगता है कि खुद काम करने की तुलना में task को व्यवस्थित करने और hallucinations का analysis व debugging करने में ज़्यादा समय चला जाता है
“बेहतर autocomplete” से आपका मतलब खास तौर पर किस चीज़ से बेहतर है?
bookkeeping में यह सच में काफी समय बचाता है, लेकिन फिर भी एक human accountant की ज़रूरत बनी रहती है
मुझे लगता है कि इस तरह का benchmarking prompt और method setup पर बहुत ज़्यादा निर्भर होगा। design कैसे किया गया है, उसके आधार पर accuracy पूरी तरह बदल सकती है। हर कोई LLM को जिस तरह architect करता है, उसके अनुसार results काफी अलग होंगे। और पढ़ने पर लगा कि उद्देश्य शायद सिर्फ समय के साथ observe करने वाला एक dumb benchmark बनाना था। लगता है practical autoclose tool से ज़्यादा focus direction पर है
इस benchmark से जो बात सामने आती है, वह यह है कि LLM “सही जवाब बनाने” की कोशिश में errors को बढ़ाता चला जाता है। तार्किक आपत्ति यह हो सकती है कि क्या model से उस समय जवाब माँगा जा रहा है जब उसके पास पर्याप्त detail नहीं है? शायद historical transaction data में निहित जानकारी की वजह से पहले 1-2 महीनों में प्रदर्शन ठीक था। मेरा निष्कर्ष यह है कि enterprise scaling में असली कुंजी implicit information को explicit बनाना है
हमें details की परवाह न करने की आदत थी, और AI इसे और बढ़ा रहा है। nondeterministic software को जब ऐसी real-world problems पर लगाया जाता है जिनमें बेहद precise requirements चाहिए, तो यह खतरनाक होता है। अगर कोई chatbot 5-20% ग्राहकों को खराब अनुभव दे, तो कंपनियाँ शायद उसे सह लें; लेकिन SEC, DOJ और shareholders accounting में 20% गलती या पुल की लंबाई 5 इंच कम होना कभी बर्दाश्त नहीं करेंगे
human accountants भी व्यवहार में अक्सर काफी nondeterministic होते हैं। कोई भी पर्याप्त जटिल accounting system हमेशा कुछ न कुछ inaccuracy लेकर चलता है। असली सवाल यह है कि “क्या यह inaccuracy वास्तव में material स्तर की है?” मैंने लेख को बहुत प्रभावित होकर पढ़ा, और उम्मीद है कि एक और generation बेहतर होने पर यह human accountants की accuracy के करीब पहुँच सकता है
अगर “बेहद precise requirements” को सस्ते में automatic verification के जरिए जाँचा जा सके, तो AI के लिए बार-बार spam generate करके हर test पास कर लेना भी संभव हो जाएगा