3 पॉइंट द्वारा GN⁺ 2025-02-27 | 1 टिप्पणियां | WhatsApp पर शेयर करें
  • मौजूदा Self-Attention मेकैनिज़्म की जटिलता O(n²) है, इसलिए लंबे sequence पर इसकी scalability सीमित है
  • इस पेपर में Fast Fourier Transform(FFT) का उपयोग करने वाला FFTNet प्रस्तावित किया गया है
  • FFTNet O(n log n) समय जटिलता के साथ global token mixing करता है
  • frequency domain में सीखने योग्य spectral filter और modReLU activation function पेश किए गए हैं, जो महत्वपूर्ण frequency components को उभारते हैं
  • Long Range Arena(LRA) और ImageNet benchmark experiments में इसने मौजूदा Self-Attention तथा fixed Fourier transform models से बेहतर प्रदर्शन दिखाया

संबंधित शोध

  • Self-Attention की जटिलता : Transformer models को O(n²) computation की आवश्यकता होती है, इसलिए लंबे sequence को प्रोसेस करने में ये अप्रभावी हैं
  • Fourier-आधारित दृष्टिकोण : FNet जैसे models ने computation कम करने के लिए fixed Fourier transform का उपयोग किया, लेकिन उनमें input adaptability की कमी थी
  • Linear, sparse और low-rank approximation techniques : Performer, Linformer, BigBird आदि ने Self-Attention computation को approximate करने के तरीके प्रस्तावित किए
  • Orthogonal matrix decomposition techniques : orthogonal transform (DFT सहित) का उपयोग करने से model training stability बेहतर होती है
  • Adaptive spectral filtering : FFT-आधारित transform में learnable filter जोड़ने से यह मौजूदा तरीकों की तुलना में ज़्यादा flexible और expressive बनता है

FFTNet: adaptive spectral filtering technique

प्रेरणा

  • Self-Attention की जटिलता O(n²) है और लंबे sequence में यह अप्रभावी है
  • FFT O(n log n) में काम करता है और global interactions को कुशलता से encode कर सकता है

कार्यप्रणाली

  • Fourier transform (FFT लागू)
    • input sequence को frequency domain में बदलकर global dependencies को कुशलता से capture किया जाता है
  • Adaptive spectral filter लागू करना
    • global context vector का उपयोग करके learnable filter बनाए जाते हैं और महत्वपूर्ण frequency bands को dynamic रूप से उभारा जाता है
  • modReLU nonlinear activation
    • complex frequency domain में ReLU-आधारित activation लागू कर expressiveness बढ़ाई जाती है
  • Inverse Fourier transform (IFFT)
    • transformed data पर filtering और activation लागू करने के बाद उसे फिर से time domain में बदला जाता है

FFTNet का सैद्धांतिक आधार

  • O(n log n) computation के साथ global token mixing संभव है
  • Adaptive Attention: frequency domain में learnable filters दिए गए input के अनुसार frequency को समायोजित करते हैं
  • Nonlinear activation से representation क्षमता में वृद्धि: modReLU लागू करने से साधारण linear transform से आगे बढ़कर high-dimensional patterns सीखे जा सकते हैं
  • Parseval's theorem-आधारित stability guarantee: signal energy को सुरक्षित रखकर information loss को न्यूनतम किया जाता है

प्रयोगात्मक परिणाम

Long Range Arena (LRA) benchmark

  • FFTNet ने Transformer और FNet की तुलना में कुल मिलाकर अधिक accuracy दर्ज की
  • खासकर ListOps, Text, Retrieval, Image, Pathfinder tasks में इसने बेहतर प्रदर्शन किया और औसतन सबसे ऊँचा score दर्ज किया
  • Transformer ने कुछ tasks में अच्छा प्रदर्शन दिखाया, लेकिन long-term dependencies को संभालने में इसकी सीमाएँ रहीं
  • FNet FFT का उपयोग करता है, लेकिन fixed transform approach में adaptability की कमी होने से इसका कुल प्रदर्शन कम रहा
  • खास तौर पर Path-X task में Transformer memory overflow(OOM) के कारण विफल रहा, जबकि FFTNet ने स्थिर प्रदर्शन दिखाया

ImageNet classification experiment

  • FFTNet-आधारित Vision Transformer(FFTNetViT) ने मौजूदा ViT जैसी accuracy बनाए रखते हुए computation(FLOPs) को काफी कम किया
  • Base model के मामले में FFTNetViT ने ViT की तुलना में लगभग 38% कम FLOPs का उपयोग किया, फिर भी accuracy में हल्की बढ़ोतरी हुई
  • Large और Huge models में भी FFTNetViT ने ViT की तुलना में कम computation के साथ समान प्रदर्शन बनाए रखा
  • इससे पुष्टि होती है कि FFTNetViT उच्च computational efficiency प्रदान करता है

Ablation Study (घटक-आधारित महत्व विश्लेषण)

  • FFTNet के विभिन्न घटकों को हटाकर model performance पर उनके प्रभाव का विश्लेषण किया गया
  • FFTNet के प्रमुख घटकों को हटाने पर accuracy घटने की प्रवृत्ति देखी गई
    • Spectral gating हटाना: specific frequency को उभारने की क्षमता हटने से accuracy में हल्की गिरावट आई
    • Adaptive module हटाना: input के अनुसार filters को dynamically adjust करने की क्षमता हटने से accuracy और कम हुई
    • FFT की जगह convolution का उपयोग: global information को कुशलता से mix करने की क्षमता हटने से सबसे बड़ी performance गिरावट हुई
  • इससे पुष्टि होती है कि FFTNet का हर घटक performance improvement में महत्वपूर्ण भूमिका निभाता है

निष्कर्ष

  • FFTNet, Self-Attention की तुलना में computational efficiency वाला एक बेहतर विकल्प है
  • frequency domain में adaptive spectral filters और modReLU को मिलाकर यह मजबूत representation क्षमता देता है
  • प्रयोगों में LRA और ImageNet पर मौजूदा Self-Attention models की तुलना में बेहतर performance और efficiency दिखाई गई
  • O(n log n) जटिलता बनाए रखते हुए भी Self-Attention-स्तर का प्रदर्शन देने के कारण यह लंबे sequence processing के लिए लाभदायक है
  • FFTNet पर आधारित Vision Transformer(FFTNetViT) ने भी कम FLOPs के साथ ViT-जैसा प्रदर्शन हासिल किया

1 टिप्पणियां

 
GN⁺ 2025-02-27
Hacker News राय
  • मूल रूप से convolution theorem का उपयोग करता है: direct space में महंगा convolution, reciprocal space में simple multiplication बन जाता है

    • जब डेटा पर convolution operation होता है, तो उसे multiplication में बदलने के लिए conjugate domain में transform किया जाता है
    • यानी, डेटा के लिए प्राकृतिक domain में काम किया जाता है
  • Google ने 2022 में "FNet: Mixing Tokens with Fourier Transforms" नाम का आइडिया पेश किया था

    • बाद में उन्होंने पाया कि उनके TPU ज़्यादातर scenarios में FFT की तुलना में matrix multiplication में तेज़ हैं
  • Fourier transform "token" dimension पर किया जाता है। लेकिन कई applications में इस dimension का कोई खास मतलब नहीं होता

    • इसलिए permutation-invariant डेटा को प्रोसेस करने के लिए transformers एक बेहतरीन विकल्प हैं
    • finite groups के लिए कम-ज्ञात Fourier transforms का उपयोग करने वाले और experiments देखना चाहूँगा
    • अगर यह LLMs में अगली बड़ी चीज़ बनती है, तो सोचता हूँ inference engines (vLLM, llama.cpp आदि) के लिए इसे integrate करना कितना आसान होगा
  • गणित इतना कठिन है कि समझना मुश्किल हो रहा है। क्या कोई basic English में समझा सकता है कि यह attention mechanism के बराबर कैसे है, यह किन frequencies की बात कर रहा है, और tokens के बीच positional relationship को कैसे encode करता है

  • समझ नहीं आ रहा कि इस framework में causal masking को कैसे फिट किया जा सकता है। positional embedding का भी कोई ज़िक्र नहीं है, इसलिए लगता है कि तुलना जिस self-attention implementation से की गई है वह non-causal NoPE है

    • अगर नतीजे state of the art के करीब होते, तो शायद लेखक इसका ज़िक्र करता
  • कुछ साल पहले ही O(n log n) full-context mixing दिखाने वाले Hyena Operator का कोई ज़िक्र नहीं है

  • मुझे लगता है कि telemetry के युग में cloud telemetry पर FFT लागू करके epicycles और metastable systems को ढूँढना, इससे पहले कि वे ड्रामा पैदा करें, न करना एक बड़ी चूक है

    • "SLA के उल्लंघन की सबसे अधिक संभावना service deployment के 23-25 मिनट बाद होती है। सोचता हूँ ऐसा क्यों... ओह, नहीं।"
  • क्या किसी के पास यह सहज समझ है कि frequency domain में चीज़ों को देखना क्यों मददगार होता है

    • DC term तो समझ में आता है, लेकिन मुझे उम्मीद नहीं है कि input data इतना periodic होगा कि दूसरी frequencies meaningful हों
  • मैं big O notation को कुछ हद तक समझता हूँ, लेकिन computers या electrical engineering से जुड़ी ज़्यादातर चीज़ों की तरह यह भी समझना मुश्किल है

    • गणित में बहुत कमज़ोर होने के नाते, मैं उन लोगों से ईर्ष्या करता हूँ जो ऐसी चीज़ें समझ या सीख सकते हैं
    • FFT के बारे में मुझे बस इतना पता है कि यह signals को transform करता है, कुछ signal processing में काम आता है, और अतीत में nuclear explosions का पता लगाने में इसकी महत्वपूर्ण भूमिका थी
  • मुझे समझ नहीं आता कि attention की ज़रूरत क्यों है। fully connected layers भी सभी inputs पर "ध्यान" दे सकती हैं

    • बहुत छोटे datasets (0 - 500 tokens) पर attention training को लंबा कर देता है और नतीजे खराब बनाता है
    • लगता है कि इसका फायदा बड़े datasets पर दिखाई देता है
    • मैं AI में नया हूँ और अपना personal AI project कर रहा हूँ, इसलिए यह कोई सटीक reference नहीं है