8 पॉइंट द्वारा GN⁺ 2026-03-30 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • Large Hadron Collider में बनने वाले विशाल डेटा को सीधे silicon chip पर इम्प्लीमेंट किए गए ultra-small AI models से real-time में filter किया जाता है, ताकि केवल वैज्ञानिक रूप से meaningful events ही चुने जाएं
  • प्रति सेकंड सैकड़ों terabytes के data stream को process करने के लिए GPU या TPU की जगह FPGA·ASIC आधारित hardware का उपयोग होता है, और निर्णय nanosecond-level latency पर लिया जाता है
  • HLS4ML tool के जरिए PyTorch या TensorFlow models को synthesizable C++ code में बदलकर सीधे chip पर deploy किया जाता है, और lookup table आधारित structure से floating-point operations के बिना तुरंत output बनाया जाता है
  • LHC का Level-1 Trigger लगभग 1,000 FPGA से बना है और 50 nanoseconds के भीतर data evaluate करता है, जबकि बाद के चरणों में 25,600 CPU और 400 GPU अतिरिक्त filtering करते हैं
  • CERN, 2031 के High-Luminosity LHC upgrade को ध्यान में रखकर अगली पीढ़ी के ultra-small AI models विकसित कर रहा है, और यह approach autonomous systems·medical imaging जैसे ultra-low-latency applications तक फैल सकती है

अवलोकन

  • CERN ने ultra-small artificial intelligence models को सीधे silicon chips पर इम्प्लीमेंट करके Large Hadron Collider (LHC) में बनने वाले विशाल डेटा को real-time में filter करना शुरू किया है
    • collision data में से केवल वैज्ञानिक रूप से meaningful events को चुना जाता है और बाकी को तुरंत discard कर दिया जाता है
    • प्रति सेकंड सैकड़ों terabytes तक पहुंचने वाले data streams को संभालने के लिए GPU या TPU की जगह FPGA और ASIC आधारित custom hardware का उपयोग किया जाता है
  • ऐसे hardware-embedded AI models detector level पर microsecond से nanosecond latency में निर्णय लेते हैं
    • यह real-time selection process आधुनिक विज्ञान की सबसे compute-intensive tasks में से एक मानी जाती है

डेटा प्रोसेसिंग की चुनौती

  • LHC हर साल लगभग 40,000 exabytes raw data बनाता है, जो आज के पूरे internet traffic के लगभग एक-चौथाई के बराबर है
    • proton bunches 27km ring के भीतर प्रकाश की गति के करीब चलते हैं और हर 25 nanoseconds पर cross करते हैं
    • वास्तविक collisions दुर्लभ हैं, लेकिन हर collision से कई megabytes data बनता है
  • पूरे data को store या process करना असंभव है, इसलिए केवल लगभग 0.02% events ही बचाए जाते हैं
    • पहली filtering stage, Level-1 Trigger, लगभग 1,000 FPGA से बनी है और 50 nanoseconds के भीतर data evaluate करती है
    • AXOL1TL algorithm सीधे इन chips पर चलता है, वैज्ञानिक रूप से promising events की पहचान करता है और बाकी को तुरंत discard कर देता है

AI approach और tech stack

  • CERN के AI models को ultra-small और high-efficiency architecture के साथ डिज़ाइन किया गया है, और ये सामान्य industrial large-scale models से अलग detector-level ultra-low-latency inference के लिए optimized हैं
    • models को HLS4ML open source tool के जरिए PyTorch या TensorFlow आधारित models से synthesizable C++ code में बदला जाता है
    • बदला गया code FPGA, SoC, ASIC पर सीधे deploy किया जाता है, और GPU या TPU की तुलना में बहुत कम power और silicon area में काम करता है
  • chip resources का बड़ा हिस्सा neural network layers की जगह precomputed lookup tables को इम्प्लीमेंट करने में इस्तेमाल होता है
    • ये tables आम input patterns के results को पहले से store करके रखती हैं, जिससे ज़्यादातर detector signals के लिए floating-point operations के बिना तुरंत output मिल जाता है
    • यही hardware-first design philosophy nanosecond-level latency हासिल करने में मदद करती है
  • दूसरी filtering stage, High-Level Trigger, 25,600 CPU और 400 GPU वाले computing farm पर चलती है
    • Level-1 Trigger के बाद भी यह प्रति सेकंड कई terabytes data process करती है और इसे प्रतिदिन लगभग 1 petabyte scientific data तक compress करती है

आगे की योजना

  • LHC, 2031 में शुरू होने वाले High-Luminosity LHC (HL-LHC) upgrade की तैयारी कर रहा है
    • प्रति collision data volume मौजूदा स्तर से लगभग 10 गुना बढ़ने वाली है, और event sizes भी काफी बड़े होंगे
  • CERN इसके लिए अगली पीढ़ी के ultra-small AI models और FPGA·ASIC implementation optimization पर काम कर रहा है
    • पूरे real-time trigger system को मज़बूत किया जा रहा है, ताकि बहुत अधिक data rates पर भी ultra-low-latency performance बनी रहे
  • यह तैयारी आने वाले कई दशकों तक particle physics में नई discoveries को संभव बनाए रखने वाली core foundation मानी जा रही है

महत्व और प्रभाव

  • जहां दुनिया की AI industry बड़े models के scale-up पर ध्यान दे रही है, वहीं CERN सबसे छोटे, सबसे तेज़ और सबसे efficient AI models बना रहा है
    • ये models FPGA और ASIC पर सीधे इम्प्लीमेंट किए जाते हैं, और इन्हें “Tiny AI” के practical use case के रूप में देखा जा रहा है
  • LHC trigger system में ये models ऐसा performance देते हैं जिसे सामान्य AI accelerators हासिल नहीं कर सकते
    • nanosecond-level decision-making की extreme environment में ये minimum resources के साथ maximum efficiency दिखाते हैं
  • यह approach particle physics से आगे बढ़कर autonomous systems·high-frequency trading·medical imaging·aerospace जैसे उन क्षेत्रों में भी इस्तेमाल हो सकती है जहां ultra-low-latency real-time inference की ज़रूरत होती है
    • ऐसे समय में जब energy efficiency और compute resource reduction बेहद महत्वपूर्ण होते जा रहे हैं, CERN के models scale-up की जगह extreme specialization और hardware-level optimization का विकल्प पेश करते हैं

1 टिप्पणियां

 
GN⁺ 2026-03-30
Hacker News की राय
  • मैं इस पेपर के दो मॉडलों में से एक का लेखक हूँ
    गलतफ़हमी दूर करने के लिए कहूँ तो, ये मॉडल सीधे silicon पर उकेरे नहीं गए हैं, बल्कि FPGA पर deploy किए गए हैं
    axol1tl के मामले में weights fabric में hardwired हैं, लेकिन फिर भी यह reprogrammable है
    CERN के smartpixel या HG-Cal readout जैसे प्रोजेक्ट वास्तव में silicon target की दिशा में चल रहे हैं
    संबंधित slides: CERN presentation materials
    पेपर की approval process लंबी है, लेकिन कुछ महीनों में इसका और अधिक व्यापक version आने वाला है
    मॉडल शुरू में एक साधारण VAE-आधारित MLP था, और v5 से इसमें VICREG block जोड़ा गया, जो 40MHz पर 2 clocks के भीतर चलता है
    बाद में इसे hls4ml-da4ml, संबंधित paper के ज़रिए FPGA पर deploy किया गया
    CICADA मॉडल VAE पर आधारित है, और teacher-student architecture के ज़रिए anomaly detection score को supervised learning से distill करता है
    संदर्भ slides: CICADA presentation materials
    मेरा शोध QAT(fixed-precision quantization learning) और distributed arithmetic-आधारित NN deployment पर केंद्रित है
    संबंधित पेपर: arXiv:2405.00645, arXiv:2507.04535

    • यह वाकई बहुत दिलचस्प काम है
      मैंने भी अपने PhD के शुरुआती दौर में GNN accelerator को FPGA पर implement किया था, और CERN/Fermilab की टीमों के साथ सहयोग किया था
      अब मैंने दिशा बदलकर HLS और EDA से जुड़ा शोध शुरू किया है, और मुझे यह जानने की जिज्ञासा है कि आजकल trigger systems को hardware में implement करते समय मुख्य सीमाएँ क्या हैं
      commercial HLS tools के bugs, debugging की कठिनाई, और लंबे build times बड़े constraints लगते हैं
      इसलिए जानना चाहता हूँ कि क्या EDA tooling ही bottleneck है, या कोई और तकनीकी कारण इससे बड़ा है
  • इन्होंने convolution layers वाले autoencoder-आधारित neural network का उपयोग किया और पहले के experimental data पर उसे train किया
    संबंधित पेपर
    अगर इसमें यह स्पष्ट बताया जाता कि किस AI algorithm का इस्तेमाल हुआ, तो यह कहीं बेहतर लेख होता

    • आजकल कई बार “AI model” का मतलब लगभग linear regression ही निकलता है
    • ज़्यादातर implementation FPGA-आधारित है, इसलिए “silicon पर उकेरा गया” कहना कुछ बढ़ा-चढ़ाकर लगता है
    • माहौल ऐसा हो गया है कि अगर LLM न हो तो ध्यान ही नहीं मिलता, इसलिए “AI” शब्द का marketing tool की तरह इस्तेमाल होना खटकता है
    • तकनीकी लेखों में core algorithm को छोड़ देना सच में परेशान करने वाला है
    • आखिर में यह पता चलने पर कि यह anomaly detection की समस्या थी, बात समझना आसान हो गया
  • दरअसल आधुनिक CPU के branch predictor भी perceptron का इस्तेमाल करते हैं

    • उदाहरण के लिए Samsung Galaxy S7 chip के भीतर NN पर लेख और IEEE पेपर देखे जा सकते हैं
    • मुझे पता नहीं था कि ऐसी संरचना होती है, और मैं यह और जानना चाहता हूँ कि इसे कैसे design और train किया जाता है
    • आजकल “AI” शब्द कई बार ऐसे इस्तेमाल होता है जैसे उसका मतलब हो “समस्या समझे बिना बस black box फेंक दिया”
    • perceptron आखिरकार linear predictor ही है, इसलिए यह सरल है
    • HEP क्षेत्र में तो कई दशकों से L0 trigger के लिए FPGA इस्तेमाल होते रहे हैं
      Delphi के दौर में भी Higgs selection के लिए ANN पर पेपर थे, और वही कोशिशें आगे चलकर LHC तक पहुँचीं
  • संबंधित वीडियो साझा कर रहा हूँ
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    ScyllaDB Tech Talk पेज

  • यह प्रोजेक्ट 40MHz पर चलता है, लेकिन मेरे बनाए CflexHDL tool ने 148MHz पर real-time ray tracing हासिल की है
    demo वीडियो
    इस tool को Nlnet Foundation का समर्थन मिला है और CERN AI tools के साथ integration की भी योजना है
    मैं open source toolchain के महत्व पर ज़ोर देना चाहता हूँ

  • लेख में थोड़ी AI hyperbole है
    इसे मूलतः machine learning से हासिल hardcoded logic वाले chip के रूप में देखा जा सकता है

    • ML, AI का हिस्सा पहले से रहा है; यह ChatGPT के बाद पैदा हुई कोई नई अवधारणा नहीं है
    • LLM के weights भी आखिरकार सीखी हुई logic को ही समेटे होते हैं
    • “AI” जैसी अभिव्यक्ति marketing जैसी लगती है
      असल में यह inference-only state machine के ज़्यादा क़रीब है, और environment बदलने पर retraining नहीं बल्कि hardware respin की ज़रूरत पड़ती है
      ऐसी स्थिति में महसूस होता है कि “AI” शब्द सिर्फ़ सजावटी विशेषण नहीं है
  • दिलचस्प बात यह है कि आम AI के उलट, यहाँ मॉडल को hardware constraints झेलकर ही अपने अस्तित्व का औचित्य साबित करना पड़ता है
    ऐसे माहौल में सिर्फ़ latency ही नहीं, बल्कि determinism, power budget, और extreme load पर stability ज़्यादा महत्वपूर्ण होते हैं

  • “FPGAs को silicon पर उकेरा गया” जैसी अभिव्यक्ति अजीब लगती है
    अगर CERN ASIC का tape-out करे, तो वह सचमुच चौंकाने वाली बात होगी

    • वास्तव में CERN दूसरे उपयोगों के लिए custom ASICs design करता है
      संबंधित प्रस्तुति
    • संभव है कि यह किसी बाहरी vendor से बनवाया गया हो
    • कुल मिलाकर लगता है कि लेख का शीर्षक बाद में सुधार दिया गया
  • यह आजकल वाले LLM जैसा नहीं, बल्कि FPGA पर implement किया गया neural network है

    • LLM कंपनियों की marketing इतनी तेज़ है कि पहले मेरे मन में भी वही आया
    • अगर यह FPGA है, तो “silicon पर उकेरा गया” कहना सही नहीं है
      यह भी स्पष्ट नहीं कि इस मामले में ASIC सही विकल्प होता या नहीं
  • फीडबैक के लिए धन्यवाद
    मैंने लेख की सामग्री को VAE-आधारित AXOL1TL architecture के अनुसार संशोधित किया है, और संबंधित arXiv पेपर तथा Thea Aarrestad का प्रस्तुति वीडियो भी जोड़ा है

    • हालाँकि “CERN ने GPU/TPU-आधारित AI छोड़ दिया” वाला वाक्य तथ्यात्मक रूप से सही नहीं है
      CERN अब भी GPU का व्यापक उपयोग करता है, और स्थिति के अनुसार COTS GPU/CPU का सक्रिय रूप से इस्तेमाल करता है