AbsenceBench: भाषा मॉडल गायब जानकारी की पहचान नहीं कर पाते

(arxiv.org)

1 पॉइंट द्वारा GN⁺ 2025-06-22 | 1 टिप्पणियां | WhatsApp पर शेयर करें

लंबे context में “मौजूद जानकारी” खोजने वाले evaluations तेज़ी से बेहतर हुए हैं, लेकिन AbsenceBench दिखाता है कि original और modified versions की तुलना करके गायब जानकारी ढूंढने की क्षमता अब भी कमजोर है
benchmark poetry, number sequence, GitHub PR diff जैसे 3 domains से बना है; इसमें 4,302 instances और औसतन 5K token context इस्तेमाल होता है, और default omission ratio 10% है
GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash, o3-mini, Grok-3-mini, DeepSeek-R1 समेत 14 LLMs को evaluate करने पर भी latest models का performance सीमित रहा; Claude-3.7-Sonnet औसतन 5K tokens पर सिर्फ 69.6% F1-score तक पहुंचा
AbsenceBench का F1-score NIAH की तुलना में औसतन 56.9% गिरा, और inference-time compute models ने औसतन 8K अतिरिक्त thinking tokens इस्तेमाल करने के बावजूद performance improvement सिर्फ 7.9% रहा
omission position पर explicit placeholder डालने से performance औसतन 35.7% बेहतर हुआ, जो इस interpretation को समर्थन देता है कि Transformer attention के लिए document के अंदर मौजूद “gap” पर ध्यान देना कठिन है

AbsenceBench जो सवाल पूछता है

हाल के LLMs लंबे context tasks में high performance दिखाते हैं, और Needle-in-a-Haystack(NIAH) test में वे बहुत लंबे input के भीतर छोटी, असामान्य जानकारी खोजने की क्षमता दिखाते हैं
AbsenceBench उल्टी दिशा की समस्या evaluate करता है
- input में मौजूद जानकारी खोजने के बजाय, स्पष्ट रूप से गायब जानकारी खोजनी होती है
- model को original document और कुछ elements हटाए गए modified document साथ में दिए जाते हैं
- output modified document से गायब elements का exact set होना चाहिए
यह task नियमों में सरल है और correct answer भी स्पष्ट है, लेकिन state-of-the-art closed models भी कम performance दिखाते हैं

Task definition और data composition

AbsenceBench एक controlled generation format है, जिसमें original document Dorig से कुछ elements Domit को जानबूझकर हटाकर modified document Dmodified बनाया जाता है, और model से हटाए गए elements पहचानने को कहा जाता है
“document length” original document के tokens की संख्या है, जबकि “context length” model input के कुल tokens की संख्या है
पूरा benchmark 4,302 instances से बना है, और average context length 5K tokens है
code repository harvey-fin/absence-bench पर public है
token length मापने के लिए GPT-4 Tokenizer इस्तेमाल किया गया है

Poetry, number sequence, GitHub PR diff

Poetry
- Gutenberg Poetry Corpus की poems का इस्तेमाल किया गया
- omission line unit पर लागू किया जाता है, और line delimiter newline character है
- document length diversity के लिए हर poem की lines की संख्या 100~1000 के बीच समान रूप से distributed रहे, इस तरह काटा गया
Number sequence
- कुल 1,200 synthetic number sequences generate किए गए
- numbers ascending, descending या random order में से किसी एक तरह arrange किए गए
- consecutive numbers के बीच step size 1, 4, 7, 13 में से एक है
- पहला number 0~9999 में से randomly चुना जाता है
GitHub PR diff
- public GitHub data और GitHub API का इस्तेमाल करके सबसे ज़्यादा PR वाले top 20 repositories के PRs collect किए गए
- केवल वे PRs रखे गए जिनके diff में 10~200 updated lines थीं
- + या - से शुरू होने वाली updated lines में से हर PR diff के भीतर unique lines को ही omission target बनाया गया
- merge conflict को resolve और verify करने वाला LLM file diff में omissions detect कर सकना चाहिए, इसलिए यह real-world use case से जुड़ता है

14 LLMs के evaluation में दिखी सीमाएं

evaluation target कुल 14 LLMs थे
- GPT-4, Claude-3.7-Sonnet, Gemini-2.5-flash जैसे latest models शामिल
- o3-mini, Grok-3-mini, DeepSeek-R1 जैसे inference-time compute models शामिल
- Claude-3.7-Sonnet और Gemini-2.5-flash को inference-time compute इस्तेमाल करने/न करने के हिसाब से अलग-अलग evaluate किया गया
latest models भी AbsenceBench में stable performance नहीं दे पाए
- Claude-3.7-Sonnet ने औसतन 5K token context में 69.6% F1-score दर्ज किया
context length बढ़ने पर task और कठिन हो जाता है, खासकर poetry domain में अंतर स्पष्ट दिखता है
inference-time compute से औसतन सिर्फ 7.9% performance improvement हुआ
- इसके बजाय औसतन 8K अतिरिक्त thinking tokens generate हुए
- यह average document length का लगभग 3 गुना है
omission ratio जितना कम था, model performance उल्टा उतना ही खराब होने का result भी सामने आया

NIAH से अलग failure pattern

AbsenceBench, NIAH की तुलना में LLMs के लिए कहीं ज़्यादा कठिन task साबित हुआ
- जब तीन LLMs की तुलना AbsenceBench setting और original NIAH setting में की गई, तो F1-score औसतन 56.9% गिरा
Transformer attention के लिए document के भीतर gap को संभालना मुश्किल हो सकता है
- क्योंकि omission किसी specific key से correspond नहीं करता जिस पर attention जा सके
गायब position पर placeholder string डालने वाले experiment में performance औसतन 35.7% बेहतर हुआ
- उदाहरण के तौर पर गायब line की जगह <missing line> जैसा token डालने का तरीका है
यह result दिखाता है कि LLMs किसी जानकारी के “inserted” होने की स्थिति की तुलना में जानकारी के “missing” होने की स्थिति identify करने में अधिक कमजोर हो सकते हैं
LLM-as-a-Judge जैसे use cases, जहां missing information को सही से notice करना ज़रूरी है, उनमें यह सीमा practical risk बन सकती है

1 टिप्पणियां

GN⁺ 2025-06-22

Hacker News टिप्पणियाँ

Gerald Sussman का लेक्चर देखने के बाद मैंने Kanizsa triangle की इमेज Claude में डाली और काफी अस्पष्ट तरीके से पूछा कि क्या वह अनुमानित त्रिभुज को “देख” सकता है; उसने इमेज पहचान ली और तुरंत सारांश दे दिया
इसलिए मैंने इमेज को 90 डिग्री घुमाकर नई बातचीत में फिर कोशिश की, तो वह इमेज पहचान नहीं पाया और तत्वों की संख्या भी गलत बताई
घुमाई गई इमेज के बारे में Claude ने बताया कि चारों कोनों पर Pac-Man जैसे 4 काले आकार हैं, ऊपर की ओर इशारा करता 1 पतला त्रिभुज और दाईं ओर इशारा करता 1 पतला त्रिभुज है, और हल्का ग्रे बैकग्राउंड है
- अब लगता है कि ऐसे गैप भरने के लिए वे training data की सभी इमेजों को 90 डिग्री घुमाकर भी डालेंगे
- LLM को 5 टांगों वाले कुत्ते की तस्वीर दिखाएँ, तो आप देख सकते हैं कि वह गिनती बिल्कुल नहीं कर पाता
- लगता है कि हम सच में गणना करना नहीं जानते
  अक्टूबर 2011, 30 टिप्पणियाँ
  https://news.ycombinator.com/item?id=3163473
  Strange Loop वीडियो:
  जुलाई 2011, 36 टिप्पणियाँ
  https://news.ycombinator.com/item?id=2820118
- मेरी नज़र में paper सिर्फ text documents से निपटता है, इसलिए वह उदाहरण बिल्कुल फिट नहीं बैठता
  यह बात अच्छी तरह मालूम है कि LLMs को text या audio की तरह images process करने में अभी लंबा रास्ता तय करना है
  मुझे लगता है कि ऐसे multimodal models बहुत कम हैं जो image pixels को सीधे लेकर अच्छा performance देते हों। ज्यादातर vision capabilities hack जैसी हैं या engineering से ऊपर से जोड़ी गई हैं; images कई processing stages से गुजरती हैं और फिर हर processor का output token बनकर transformer में जाता है। यह एक ही network के भीतर हो सकता है, लेकिन non-transformer networks भी शामिल होते हैं। preprocessing के उदाहरणों में OCR, अलग-अलग zoom levels, angles और slices इस्तेमाल करने वाले CNNs (2D pattern recognizers), और अन्य चीजें हो सकती हैं
- इस विचार को generalize करें तो, अगर हमें कोई त्रिभुज मोटे तौर पर भरते हुए 1,000 points दिखें, तो हम तुरंत उसका shape पहचान लेते हैं
  मुझे लगता है यह सरल उदाहरण intelligence के मूल को दिखाता है। 1,000 points जैसी बड़ी complexity इसलिए त्रिभुज के रूप में पहचानी जाती है क्योंकि वह एक सरल और low-entropy geometric form से मेल खाती है
  जिसे हम IQ कहते हैं, वह शायद उन patterns की complexity की ऊपरी सीमा जैसा है जिन्हें हम notice कर सकते हैं। उदाहरण के लिए, वे 1,000 points असल में थोड़े घुमाए गए 10-dimensional cube के vertices हो सकते हैं, और 10-dimensional mind के लिए वह pattern आसानी से दिख सकता है
दिलचस्प। जब latest models को original context और edited context दोनों दिए जाते हैं, तब भी वे context से कौन-सी जानकारी हटाई गई है, यह पहचानने में अपेक्षाकृत कमजोर हैं
authors का मानना है कि transformer का attention mechanism deleted tokens पर attention नहीं दे सकता, क्योंकि उनके लिए keys नहीं होतीं, इसलिए performance कम है
- attention देने के लिए keys हैं। बस वे modified version में नहीं, बल्कि original text में हैं। model को दोनों input के रूप में मिलते हैं, इसलिए theory में वह उन keys पर attention दे सकता है
  attention mechanism के नजरिए से Original: {साझा prefix} {हटाया गया हिस्सा} {साझा suffix} Modified: {साझा prefix} {साझा suffix} और Original: {साझा prefix} {साझा suffix} Modified: {साझा prefix} {जोड़ा गया हिस्सा} {साझा suffix} के बीच बड़ा फर्क नहीं है
  RASP (transformers को manually program करने की language) से शायद लगभग ऐसा algorithm बनाया जा सकता है। layer 1 "Original:" और "Modified:" tokens पर attention देकर तय करती है कि current token original side का है या modified side का। layer 2 में एक head सभी original tokens पर बराबर attention देकर values का average निकालता है, और दूसरा head सभी modified tokens का average निकालता है, फिर दोनों averages का difference compute करता है। layer 3 इस difference से मिलते-जुलते token पर attention देती है, और वही {हटाया गया हिस्सा} या {जोड़ा गया हिस्सा} बनता है
  order पर निर्भर एकमात्र हिस्सा यह है कि difference को original average - modified average के रूप में compute किया जाए या उल्टा
  अगर model additions detect करता है लेकिन deletions नहीं, तो इसका मतलब हो सकता है कि सिद्धांत रूप में वह ऐसा या मिलता-जुलता algorithm सीखने में सक्षम है, लेकिन deletion-type data की कमी के कारण जरूरी circuit विकसित नहीं हुआ
- मैं सोचता हूँ कि क्या vision models को photo negatives, rotated images जैसी चीजों से train किया जा सकता है। या “the _____ took first place in the horse show” जैसे fill-in-the-blank sentences भी संभव लगते हैं
- लगता है कि recent top-tier models का ज्यादा इस्तेमाल नहीं किया गया। Opus, o3, Gemini 2.5 Pro नहीं हैं
- फिर भी models के बीच noticeable differences हैं, इसलिए अब benchmark बन गया है और इस समस्या पर ध्यान जा रहा है, तो देखना दिलचस्प होगा कि वे कितना बेहतर हो सकते हैं। जाहिर है, कुछ तो किया जा सकता है
बहुत दिलचस्प। 1) authors कहते हैं कि gap कोई token नहीं है, इसलिए attention mechanism gap की position पर attention नहीं दे सकता, लेकिन मुझे उम्मीद थी कि एक अच्छा LLM transformer कम से कम gap के पास तक तो काफी करीब पहुँच सकेगा
mathematically मुझे ठीक से समझ नहीं आता कि यह architecture इसके लिए कम उपयुक्त क्यों है। लगता है कि जहां gap हो सकता है उस region पर attention देना तो संभव है। यह भी जानना चाहूँगा कि ऐसे tasks पर fine-tuning मदद करेगी या नहीं
2) input जितना छोटा और missing part जितना कम था, task उतना कठिन था। इंसान के लिए भी एक शब्द missing होना notice करना कठिन है, और एक line missing होना दस lines missing होने से कठिन है, इसलिए यह पूरी तरह चौंकाने वाला नहीं है। फिर भी यह दिलचस्प है कि LLMs को ऐसी समस्या होती है
3) reasoning models documents को सीधे लिखते हुए solve कर सकते हैं, इसलिए वे बेहतर करते हैं। फिर भी accuracy 100% नहीं है, यह अब भी बहुत हैरान करने वाला है। यह trivial task होना चाहिए, और paper के मुताबिक simple program से solve किया जा सकता है। ChatGPT जैसा agent training के दौरान यह paper पढ़कर समझ भी सकता है कि ऐसे problem को solve करते समय उसे Python लिखकर run करना चाहिए
सबसे दिलचस्प हिस्सा यह है कि intelligence के और कौन-से aspects हैं जिन्हें हमने अभी तक explicitly identify नहीं किया है, और क्या LLMs और current AI उनमें बहुत कमजोर हैं। यह paper संकेत देता है कि ऐसे बहुत से aspects हो सकते हैं, और कुल मिलाकर benchmarks बनाने वालों के लिए यह काफी मजेदार समय लगता है
निष्पक्ष रूप से कहूँ तो, शब्दशः string diff खोजना मैं उसी श्रेणी में रखूँगा जैसे LLM से mechanical arithmetic करवाना
attention mechanism ऐसे मूर्खतापूर्ण कामों के लिए ज़रूरत से ज़्यादा जटिल ढंग से सोचता है। ऐसे मामलों में high-quality next-token prediction करने के बजाय जानबूझकर सरल बनाकर, ध्यान केंद्रित करके और अनुशासन के साथ प्रोसेस करना चाहिए
LLM से सचमुच पूरे document को enumerate करके compare करने को कहना मददगार होगा। यह reasoning की तरह steps में बाँटने का तरीका है, और वैसा ही है जैसे LLM arithmetic या algebra problems को छोटे steps में तोड़ने पर बेहतर करता है
मेरा अनुमान है कि अच्छा प्रदर्शन करने वाले models शायद MoE models हैं। ऐसे एक-दो experts हो सकते हैं जो intuition से ज़्यादा focus माँगने वाले tasks के लिए ठीक बैठते हों। Gemini Flash के बारे में मुझे कुछ नहीं पता, लेकिन मुझे लगता है कि वह MoE model हो सकता है
paper अभी नहीं पढ़ा, लेकिन structural attention mechanism के नज़रिए से unclassified absence को detect न कर पाना पूरी तरह expected है। हालांकि मुझे लगता है कि structured thinking से इसे हल किया जा सकता है
needle-finding problem में जिस चीज़ को खोजना है उस पर attention देना होता है, और attention यह काम काफ़ी अच्छी तरह करता है
absence खोजते समय वह missing चीज़ कुछ भी हो सकती है, इसलिए केवल एक पूरे context की दूसरे पूरे context से तुलना करके ही infer किया जा सकता है। attention layers के लिए यह ठीक से करना मुश्किल है
यह “items के लंबे set को rank करना” problem जैसा है। किसी metacognitive process के बिना यह बस नहीं हो पाएगा
- “missing चीज़ कुछ भी हो सकती है” कहा जा रहा है, लेकिन इस benchmark में LLM को यह तय करने के लिए ज़रूरी जानकारी दी जाती है कि क्या missing है
  उदाहरण के लिए, “यहाँ एक कविता है, और उसी कविता का एक version है जिसमें शायद कुछ lines missing हैं। क्या कोई line missing है?” जैसी बात
  मेरे हिसाब से यह LLM की inherent weakness से ज़्यादा tuning problem जैसी है
  अगर मुझसे किसी machine learning paper में missing चीज़ खोजने को कहा जाए, तो मेरा दिमाग उसे दूसरे machine learning papers से compare करेगा; Star Wars, Top Gear, Greek history, pottery और मेरे जानने वाले हज़ारों दूसरे contexts से compare करने की ज़रूरत नहीं होगी
AbsenceBench के तरीके पर criticism वाजिब है, लेकिन ऐसी चीज़ों को benchmark किया जा रहा है, यह अपने आप में बहुत अच्छी बात है। यह साफ़ तौर पर सही दिशा में धकेलने वाली move है
presence detect करते समय असली brain sensory input लेता है, उसे expectations से compare करता है, calm बनाए रखता है या surprise record करता है, और कभी-कभी organism को guide करने के लिए predictions बनाता है
absence detect करते समय, definition के हिसाब से brain sensory input पर निर्भर नहीं कर सकता। sensory evidence न होने पर surprise होने के लिए इतना मजबूत world model चाहिए कि sensory cues के बिना भी expectation पूरी न होने पर surprise हो सके
absence detection sensory input processing से strictly higher-order neurological task लगता है
अगर LLM यह higher-order neurological task नहीं कर पाता, तो क्या यह ऐसी क्षमता नहीं है जो फिलहाल केवल living beings में है?
- सोचना अपने आप में अभी तक केवल living beings में है, इसलिए human brain की uniqueness खोजने के लिए इतनी दूर वाली explanation तक जाने की ज़रूरत नहीं
  आपने जो बताया है वह memory से जुड़ा है। memory sensory input न होने की स्थिति में sensory input को store और replay करना है। इसलिए brain past sensory input को replay करके current sensory input से contrast करता है
  उदाहरण के लिए, अगर कोई pen मेज़ पर रखकर बाहर गया और लौटने पर pen नहीं है, तो brain मेज़ पर pen होने की stored memory की तुलना अभी जो दिख रहा है उससे करता है
- LLM trained structure के across उतना consistent नहीं हो सकता। कुछ paths memorized information की ओर ले जा सकते हैं, और कुछ paths advanced pattern matching की ओर
- मुझे इस field के बारे में बहुत कम पता है, लेकिन सिर्फ़ temporal aspect ही problem हो सकता है। क्या ये agents real-time में adjust करने के बजाय fixed या frozen “reality” version से reasoning नहीं करते?
LLM string diff में कमजोर लगते हैं। aside के तौर पर, मुझे जानना है कि LLM किन चीज़ों में अच्छे हैं और किनमें नहीं, ऐसी discoveries कोまとめने वाला कोई GitHub repository जैसा resource है क्या
खराब benchmark है
उनके prompt [1] को 3 numbered items के साथ try किया, तो qwq-32b ने बिना किसी समस्या के सही जवाब दिया। 100 items भी शायद 100% accurately solve कर सकता है, लेकिन शायद 10 लाख tokens चाहिए होंगे। शायद 1 करोड़ से भी ज़्यादा
reasoning model के लिए 5,000-token limit बहुत कम है। test-time compute बहुत देना चाहिए, और 5,000 tokens का 10 गुना भी अभी कम है
अगर authors long input की बात कर रहे हैं, तो 100 pages के लिए 1 billion tokens देने होंगे
सही implementation method batch processing है। missing input text में पहले 5 numbered items ढूँढो, मिलें तो input items और missing input items को simplify करो, फिर आगे बढ़ो
input size के हिसाब से हमेशा काफ़ी tokens चाहिए होंगे, लेकिन simplification ठीक से backtrack करने और context पूरी तरह न खोने में मदद करेगी
[1] आप एक छात्र को कविता याद करने का अभ्यास करने में मदद कर रहे हैं। छात्र कविता सुनाता है, लेकिन हो सकता है उसने कुछ पंक्तियाँ छोड़ दी हों। आपका काम यह पहचानना है कि recital में exactly कौन-सी lines missing हैं। केवल missing lines list करें और कुछ और न लिखें। user message: यहाँ पूरी original poem है: 1)Quisella's lashes fluttered panic-morse. 2)The Moisture Vampires leeches that sucked humidity. 3)Lysandra's nostrils flared precisely one degree. अब यह मेरी recitation है जिसमें शायद lines missing हैं: Quisella's lashes fluttered panic-morse. Lysandra's nostrils flared precisely one degree. मैंने कौन-सी line छोड़ दी? केवल missing line list करें और कुछ और न लिखें
- problem को counting में reduce करने में क्या दिलचस्प है, समझ नहीं आता। इस study का साफ़ goal ऐसे tasks में LLM की limits समझना लगता है जिन्हें trivially itemize या align नहीं किया जा सकता
- अभी HN के current numbered titles 26 [1] के साथ qwq-32b try किया, और 3 titles हटाए; पहली कोशिश में उसने तीनों missing items perfectly ढूँढ लिए। 50,000 tokens भी नहीं लगे
  [1] https://gist.github.com/pramatias/fee1391ad08c7b965f435f3af1...
यह vision models पर कैसे लागू होगा, यह जानने की उत्सुकता है। single-image के कुछ examples पर आज़माया तो ये अच्छा करते दिखे
कुछ toy examples में Claude और Gemini spot-the-difference में काफ़ी अच्छे लगे। example image: https://www.pinterest.com/pin/127578601938412480/
image को flip करने पर वे ज़्यादा मुश्किल में दिखे, और कम differences खोजने या hallucinate करने की संभावना भी थी

AbsenceBench: भाषा मॉडल गायब जानकारी की पहचान नहीं कर पाते

AbsenceBench जो सवाल पूछता है

Task definition और data composition

Poetry, number sequence, GitHub PR diff

Poetry

Number sequence

GitHub PR diff

14 LLMs के evaluation में दिखी सीमाएं

NIAH से अलग failure pattern

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News टिप्पणियाँ