TabPFN - टेबल डेटा के लिए Foundation Model

xguru · 2026-05-21T09:46:01+09:00

टेबल (structured) डेटा के लिए विशेष Foundation Model, जो scikit-learn शैली के fit/predict इंटरफ़ेस के साथ classification और regression कार्य सीधे चला सकता है बेस मॉडल TabPFN-2.6 को पूरी तरह synthetic डेटा पर train किया गया है, और पहली बार उपयोग के समय checkpoint अपने-आप डाउनलोड हो जाता है, इसलिए अलग training pipeline सेटअप की ज़रूरत नहीं है डेटा preprocessing की भी ज़रूरत नहीं: scaling, one-hot encoding आदि लागू किए बिना मूल डेटा को ज्यों का त्यों इनपुट करना चाहिए, और missing values को भी यह स्वयं संभाल सकता है GPU की सिफारिश की जाती है (~8GB VRAM या अधिक), और CPU पर लगभग 1,000 sample से कम ही चलाया जा सकता है; GPU न होने वाले environment के लिए TabPFN Client (cloud inference) भी उपलब्ध है batch prediction अनिवार्य है: हर individual sample पर predict कॉल करने से training set हर बार फिर से recompute होता है, इसलिए एक single call की तुलना में लगभग 100 गुना धीमा — test set को 1,000 के batch में विभाजित करने की सिफारिश की जाती है सर्वोत्तम performance रेंज 100,000 sample और 2,000 feature से कम है; 50,000~100,000 sample के लिए ignore_pretraining_limits=True सेटिंग, और 100,000 से अधिक पर Large Datasets Guide लागू करें TabPFN Extensions के साथ SHAP व्याख्या, outlier detection, synthetic डेटा generation, embedding extraction, hyperparameter optimization, Post-Hoc ensemble जैसी विस्तारित सुविधाएँ मिलती हैं HuggingFace पर कई specialized checkpoint उपलब्ध हैं: बड़े feature सेट (अधिकतम 1,000), बड़े sample सेट (30K+), छोटे sample सेट (3K से कम), और real डेटा fine-tuning version आदि Enterprise Edition में distillation engine आधारित low-latency inference, अधिकतम 10 million rows का समर्थन, और commercial license उपलब्ध है बिना कोड के उपयोग के लिए अलग से TabPFN UX (no-code graphical interface) भी उपलब्ध है कोड Prior Labs License (Apache 2.0 + attribution requirement) के तहत है, और TabPFN-2.5/2.6 model weights non-commercial license के तहत हैं

(github.com/PriorLabs)

9 पॉइंट द्वारा xguru 2026-05-21 | अभी कोई टिप्पणी नहीं है. | WhatsApp पर शेयर करें

टेबल (structured) डेटा के लिए विशेष Foundation Model, जो scikit-learn शैली के fit/predict इंटरफ़ेस के साथ classification और regression कार्य सीधे चला सकता है
बेस मॉडल TabPFN-2.6 को पूरी तरह synthetic डेटा पर train किया गया है, और पहली बार उपयोग के समय checkpoint अपने-आप डाउनलोड हो जाता है, इसलिए अलग training pipeline सेटअप की ज़रूरत नहीं है
डेटा preprocessing की भी ज़रूरत नहीं: scaling, one-hot encoding आदि लागू किए बिना मूल डेटा को ज्यों का त्यों इनपुट करना चाहिए, और missing values को भी यह स्वयं संभाल सकता है
GPU की सिफारिश की जाती है (~8GB VRAM या अधिक), और CPU पर लगभग 1,000 sample से कम ही चलाया जा सकता है; GPU न होने वाले environment के लिए TabPFN Client (cloud inference) भी उपलब्ध है
batch prediction अनिवार्य है: हर individual sample पर predict कॉल करने से training set हर बार फिर से recompute होता है, इसलिए एक single call की तुलना में लगभग 100 गुना धीमा — test set को 1,000 के batch में विभाजित करने की सिफारिश की जाती है
सर्वोत्तम performance रेंज 100,000 sample और 2,000 feature से कम है; 50,000~100,000 sample के लिए ignore_pretraining_limits=True सेटिंग, और 100,000 से अधिक पर Large Datasets Guide लागू करें
TabPFN Extensions के साथ SHAP व्याख्या, outlier detection, synthetic डेटा generation, embedding extraction, hyperparameter optimization, Post-Hoc ensemble जैसी विस्तारित सुविधाएँ मिलती हैं
HuggingFace पर कई specialized checkpoint उपलब्ध हैं: बड़े feature सेट (अधिकतम 1,000), बड़े sample सेट (30K+), छोटे sample सेट (3K से कम), और real डेटा fine-tuning version आदि
Enterprise Edition में distillation engine आधारित low-latency inference, अधिकतम 10 million rows का समर्थन, और commercial license उपलब्ध है
बिना कोड के उपयोग के लिए अलग से TabPFN UX (no-code graphical interface) भी उपलब्ध है
कोड Prior Labs License (Apache 2.0 + attribution requirement) के तहत है, और TabPFN-2.5/2.6 model weights non-commercial license के तहत हैं

TabPFN - टेबल डेटा के लिए Foundation Model

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.