Krea 2: open weights 12B इमेज मॉडल की तकनीकी रिपोर्ट

(krea.ai)

1 पॉइंट द्वारा GN⁺ 4 시간 전 | 1 टिप्पणियां | WhatsApp पर शेयर करें

Krea 2 एक इमेज जनरेशन foundation model है जो एक polished default की बजाय रचनात्मक खोज को प्राथमिकता देता है, और model weights व inference को permissive license के तहत जारी करता है
training process pretraining → midtraining → SFT → preference optimization → RL क्रम में आगे बढ़ती है, और data curation, captioning, prompt expansion, तथा style reference आउटपुट distribution को चरणबद्ध तरीके से निखारते हैं
architecture एक सरल DiT family पर आधारित है और GQA, gated sigmoid attention, SwiGLU, Qwen 3 VL, Qwen Image VAE और FLUX 2 VAE आदि को मिलाकर stability व efficiency का संतुलन बनाती है
Krea 2 ने text-to-image श्रेणी के Artificial Analysis leaderboard में top 10 में जगह बनाई, और independent labs के मॉडलों में दूसरा स्थान दर्ज किया
large-scale training के लिए PyTorch, FSDP2, tensor parallelism, Kubernetes, Virtual Kubelet, Weka और PostgreSQL आधारित सिस्टम बनाया गया, और अगले चरण के रूप में MoE, sparse attention, native 2K–4K, NVFP4, तथा Muon scaling की समीक्षा की जा रही है

रचनात्मक खोज के लिए बनाया गया इमेज foundation model

Krea 2 इमेज जनरेशन foundation model series है, जिसका लक्ष्य व्यापक सौंदर्य विविधता और उपयोगकर्ता का रचनात्मक नियंत्रण है
सार्वजनिक सामग्री Release page, Hugging Face weights/license, GitHub code/license, और Krea Image tool पर उपलब्ध है
model weights और inference permissive license के तहत जारी किए गए हैं
Krea का मानना है कि diffusion और flow-matching आधारित इमेज मॉडल high-resolution image, photorealism, stable structure, dense text rendering, broad world knowledge, और detailed prompt adherence तक काफी आगे बढ़ चुके हैं, लेकिन कई सिस्टम अब भी सीमित default aesthetics पर सिमट जाते हैं
Krea 2 एक polished default को optimize करने की बजाय कई styles, mood, composition, और visual directions को explore करने योग्य generative medium बनने का लक्ष्य रखता है
text-to-image श्रेणी के Artificial Analysis leaderboard में इसने top 10 में जगह बनाई और independent labs के मॉडलों में दूसरा स्थान हासिल किया

डेटा क्यूरेशन और captioning रणनीति

Krea टीम ने broad world knowledge और style coverage वाले pretraining dataset के लिए शुरू से large-scale data infrastructure और distributed training framework तैयार किया
टीम के अनुसार “अच्छे data mix” के लिए सिर्फ high-quality images नहीं, बल्कि विविधता और व्यापक domain coverage भी जरूरी है
aesthetic-score और image-quality-assessment आधारित filtering implicit bias पैदा कर सकती है
- motion blur या softness कभी-कभी जानबूझकर किया गया कलात्मक चयन हो सकता है, लेकिन उसे blurry image मानकर कम score दिया जा सकता है
- अगर caption image का सटीक वर्णन करता है, तो कम वांछनीय image भी downstream training में उपयोगी हो सकती है
pretraining dataset में duplicated samples, over-represented concepts, ऐसे samples जिन्हें VLM महत्वपूर्ण तत्वों के साथ सही तरह नहीं पकड़ पाता, undesired biases व artifacts पैदा करने वाले samples, low resolution पर स्थिर रूप से मॉडल करना कठिन high visual complexity वाले samples, और AI-generated samples को filter किया गया
Krea 2 के pretraining mix में AI-generated images का उपयोग नहीं किया गया
- synthetic data और distillation capability हासिल करने का shortcut बन सकते हैं
- टीम का मानना है कि थोड़ी मात्रा में AI-generated images भी model output distribution में bias ला सकती हैं और model quality की upper bound को व्यावहारिक रूप से तय कर देती हैं
- इन्हें छाँटने के लिए in-house classifiers डिज़ाइन किए गए
captioning को multi-stage तरीके से बनाया गया
- target image पर OCR model चलाकर visible text निकाला जाता है
- OCR result और metadata को captioning model को देकर extracted text और world knowledge शामिल करने वाला enriched caption बनाया जाता है
- context-rich long-form caption को सस्ते LLM की मदद से अलग-अलग लंबाई और format में दोबारा लिखा जाता है, ताकि मॉडल कई prompt styles के संपर्क में आए
long prompts ने dense supervision देकर तेज convergence और कम training loss दिलाया, जबकि downstream उपयोग के लिए short/medium prompt exposure भी बनाए रखा गया

रेज़ोल्यूशन-वार ट्रेनिंग डेटा और midtraining

pretraining data 256px, 512px, 1024px resolution stages से गुजरता है
- core capability को कुशलता से सीखाने के लिए अधिकांश FLOPs को low-resolution stage में आवंटित किया जाता है
- इसके बाद resolution बढ़ाते हुए high-fidelity generation capability दी जाती है
- low-resolution pretraining basic text-image alignment और structure सीखता है
low-resolution dataset billions of images के पैमाने का होता है, इसलिए यह कम-लागत वाले CPU-based filters पर काफी निर्भर करता है
- broken-file, resolution, aspect-ratio filters से अनुपयुक्त images हटाई जाती हैं
- Laplacian filters से extreme textures और noise patterns वाली images हटाई जाती हैं
- RGB entropy, white/black pixel ratios, custom heuristics, in-house classifiers से flat-color backgrounds और border artifacts कम किए जाते हैं
in-house classifier इस तरह बनाया जाता है कि large VLM से filtering task के लिए system prompt तैयार किया जाता है, pseudo-labeled dataset बनाया जाता है, और फिर small DINOv3 या SigLIP-2 आधारित classifier को train किया जाता है
- low-resolution चरण में GPU compute की ज़रूरत वाले filtering model को दक्षता के लिए 1B parameters से कम रखा जाता है
low-resolution deduplication में मुख्य रूप से md5, phash, colorhash को मिलाकर hash-based methods का उपयोग किया जाता है
- मूल 8x8 phash color को ध्यान में नहीं रखता, इसलिए false-positive rate अधिक थी
- अधिक robust deduplication के लिए 12x12 phash और colorhash को जोड़ा जाता है
training resolution बढ़ने पर image-quality और aesthetic filters पेश किए जाते हैं
- quality score का उपयोग केवल बहुत poor quality images हटाने के लिए किया जाता है, score-based oversampling के लिए नहीं
- OCR-based image-complexity score और text density के आधार पर ऐसी images को बाहर किया जाता है जिनमें low resolution पर text और content को अर्थपूर्ण ढंग से दिखाना कठिन हो
SigLIP-2 embeddings के ऊपर sparse autoencoder को train करके SAE आधारित tagging system बनाया गया, और इसका उपयोग explicit classifier के बिना स्पष्ट visual artifacts को filter करने में किया गया
midtraining, pretraining से अलग, उन image sources को स्पष्ट रूप से चुनता है जो specific visual domain में अच्छी stylistic coverage और high-quality images देते हैं
- pretraining, general pool से शुरू होने वाली bottom-up process है
- midtraining, पहले domains और sources चुनने वाली top-down curation है
- यह general pretraining distribution और high-quality SFT distribution के बीच एक smooth bridge का काम करता है
semantic clustering और retrieval-based strategies से world-knowledge coverage को मज़बूत किया जाता है
- FAISS से hierarchical k-means clustering की जाती है
- VLM cluster centroid के पास की images की जांच करके cluster को नाम देता है और ज़रूरत पड़ने पर flag करता है
- flagged clusters को human review से गुज़ारा जाता है ताकि low quality या problematic clusters हटाए जा सकें
- बचे हुए leaf clusters के भीतर SigLIP similarity से semantic deduplication किया जाता है
named entity coverage के लिए Danker से English Wikipedia पर PageRank चलाया जाता है और rank के आधार पर top 90% articles रखे जाते हैं
- Wikidata metadata से unrepresentable subjects हटाए जाते हैं
- बचे हुए लगभग 5 million concepts के लिए पूरे dataset captions पर full-text search की जाती है
- sampling के समय rare concepts का उल्लेख करने वाले captions की images को प्राथमिकता दी जाती है

आर्किटेक्चर चयन और ablation

Krea 2 ने ablation के ज़रिये एक सरल लेकिन उच्च-प्रदर्शन वाला diffusion transformer(DiT) आर्किटेक्चर विकसित किया
architecture ablation का मूल्यांकन stability, performance, efficiency, simplicity इन चार श्रेणियों में किया गया
- stability में loss/gradient spike में कमी और training stability को देखा गया
- performance में convergence speed और high resolution तथा लंबे horizon पर performance बनी रहती है या नहीं, यह देखा गया
- efficiency में यह देखा गया कि quality को नुकसान पहुँचाए बिना parameter count, FLOPs, memory, communication को घटाया जा सकता है या नहीं
- simplicity में यह जाँचा गया कि क्या अन्य श्रेणियों को नुकसान पहुँचाए बिना model को सरल बनाया जा सकता है
कई आर्किटेक्चरल निर्णय LLM space में adoption के रुझानों से प्रभावित थे, और यह माना गया कि LLM ecosystem के kernel और optimization को diffusion model में भी उपयोग किया जा सकता है
अंतिम आर्किटेक्चर के प्रमुख चयन इस प्रकार हैं
- Attention में GQA with gated sigmoid attention का उपयोग किया गया
- MLP को GeLU MLP से 4x expansion factor वाली SwiGLU layers में बदला गया
- Residual में standard residual को बनाए रखा गया
- Text encoder के रूप में Qwen 3 VL का उपयोग किया गया
- Modulation को per-block MLP modulation से बदलकर light modulation with bias किया गया
- Autoencoder के लिए Qwen Image VAE और FLUX 2 VAE का उपयोग किया गया
- Block design में single stream transformer block का उपयोग किया गया
- Norm में zero-center RMSNorm और QKNorm का उपयोग किया गया
- Positional encoding में 3D Axial RoPE को बनाए रखा गया
GQA ने केवल minimal degradation के साथ computational efficiency में सुधार किया
- MLA ने GQA की तुलना में थोड़ा gain दिखाया, लेकिन additional computational overhead के कारण इसे नहीं अपनाया गया
- gated sigmoid attention ने बड़ा performance gain नहीं दिखाया, लेकिन loss और gradient-norm curves में अधिक stable dynamics दिखाए
single-stream, dual-stream और hybrid-stream design के बीच performance का बड़ा अंतर नहीं था, और hybrid-stream थोड़ा बेहतर था, लेकिन simplicity के लिए single-stream blocks का उपयोग किया गया
MMDiT का per-block MLP modulation total parameter count का 20–30% तक ले सकता है, इसलिए Krea 2 ने इसे per-block tunable bias term से बदल दिया
timestep conditioning प्रयोगों में 256px पर 4–16 timestep tokens, AdaLN को replace करने के लिए पर्याप्त थे, लेकिन 512px और 1024px पर इनका performance AdaLN baseline से खराब था
अंतिम positional encoding, head dimensions को frame, height, width में आवंटित करने वाला 3D axial RoPE है
- text tokens के RoPE indices को zero पर सेट किया गया
- partial RoPE ने 256px से 512px तक scale करते समय अच्छे zero-shot inference परिणाम दिए, लेकिन high-resolution training के बाद final performance baseline से कम रही
autoencoder के लिए baseline के रूप में FLUX.1-dev autoencoder से शुरुआत की गई और इसकी तुलना Qwen Image VAE, DC-AE, FLUX 2 VAE और internal autoencoder से की गई
- DC-AE के बारे में माना गया कि reconstruction error के कारण यह fine detail resolution क्षमता पर एक hard upper limit लगाता है
- Qwen Image VAE और FLUX 2 VAE ने excellent reconstruction quality बनाए रखते हुए latent space में कहीं तेज convergence दिया
- शुरुआती models में Qwen Image autoencoder का उपयोग किया गया और बड़े models में FLUX 2 VAE अपनाया गया
text encoder के लिए T5-XXL, T5Gemma, umT5, Qwen 2.5 VL, Qwen 3 VL की तुलना की गई, और अंतिम text encoder के रूप में Qwen 3 VL का उपयोग किया गया
- VLM, text और image दोनों को शामिल करने वाला richer input space और अधिक मजबूत multilingual generalization प्रदान करता है
- केवल VLM feature की last layer का उपयोग करने के बजाय, सभी layers के hidden features को aggregate करने के लिए एक shallow attention layer पेश की गई
- autoregressive bias को कम करने के लिए token axis पर lightweight bidirectional transformer layers जोड़ी गईं

ट्रेनिंग पाइपलाइन, preference optimization, RL

training pipeline, modern LLM training pipeline से प्रेरित multi-stage संरचना है
pretraining, text-image alignment, text rendering, stylistic coverage, structural consistency जैसी basic capabilities स्थापित करता है
- final model को standard rectified-flow loss और v-parameterization के साथ train किया जाता है
- 256px stage के first epoch में iREPA का उपयोग कर early stage convergence को काफी तेज किया गया, फिर इसे हटा दिया गया
- 256px और 512px stages में 8-bit training के साथ bf16 baseline की तुलना में 15–20% training speed gain देखा गया
- 1024px से final RL stage तक standard bf16 training का उपयोग किया जाता है
high-resolution pretraining में resolution-dependent timeshift schedule का adaptation महत्वपूर्ण है
- training और inference, दोनों में shifted logit-normal sampling schedule का उपयोग किया जाता है
- resolution बढ़ने के साथ shift को क्रमिक रूप से बढ़ाया जाता है
- sweep केवल training shift पर लागू किया जाता है और inference shift schedule को constant रखा जाता है
pretraining के दौरान warmup-stable-decay learning-rate schedule का उपयोग किया जाता है और PMA लागू किया जाता है
- PMA, EMA के बराबर performance हासिल करता है, जबकि EMA के significant memory overhead से बचता है
optimizer के रूप में पूरी pipeline में AdamW को primary optimizer की तरह उपयोग किया जाता है
- Muon, initial steps में AdamW की तुलना में तेजी से converge हुआ, लेकिन longer horizons पर कम performance और stability issues दिखाए
- MMDiT की first और last linear layers को Muon parameters से बाहर रखने और Nesterov momentum जोड़ने पर, इसने low/high resolution दोनों में AdamW baseline को लगातार पीछे छोड़ा
- हाल की pretraining run में समय की सीमाओं के कारण Muon को नहीं अपनाया गया, और अगली pretraining cycle में इसे अपनाने की योजना है
SFT stage में highly aesthetic images के small dedicated set को curate किया गया
- उद्देश्य model को aesthetically desirable directions की ओर और अधिक bias करना है
- यह earlier checkpoints में आम high-saturation और texture issues को हल करने में विशेष रूप से मदद करता है
- domain-specific SFT checkpoints को train करने के बाद model merging के जरिए generalist SFT checkpoint बनाया गया
preference optimization, post-training stack का पहला चरण है और यह two-stage pipeline से बना है
- चरण 1 में large-scale synthetic preference-pair generation pipeline के जरिए initial refinement किया जाता है
- preference pairs का majority कम-से-कम एक on-policy sample शामिल करता है
- चरण 2 calibration stage है, जिसमें केवल human annotations का उपयोग किया जाता है
- human annotations, ऐसे in-house कर्मियों द्वारा इकट्ठा किए जाते हैं जो model की strengths, weaknesses और quirks से परिचित हैं
PO में policy divergence एक common phenomenon के रूप में दिखाई देता है
- DPO-प्रकार के methods, preferred sample likelihood और dispreferred sample likelihood के बीच margin बढ़ाने के लिए प्रोत्साहित करते हैं
- कई preference-dataset mixtures में यह देखा गया कि model, objective को इस तरह हासिल करता है कि वह दोनों samples की generation likelihood को घटाता है, लेकिन अलग-अलग rate पर
- divergence, model को general pretraining distribution से दूर ले जाता है और training के बाद के चरणों में high-frequency artifacts के रूप में दिखाई देता है
- इसे कम करने के लिए STPO नामक DPO variant डिज़ाइन किया गया
RL, training pipeline का final stage है
- multi-reward GRPO-style method का उपयोग किया जाता है
- reward models में general aesthetic model, prompt-following reward, text-rendering reward, और artifact and structure reward शामिल हैं
- general aesthetic model, PO stage में एकत्र किए गए preference data पर open-source VLM को finetune करके प्राप्त किया जाता है
prompt-specific rubric reward, prompt को verifiable requirements में विभाजित करता है और यह आकलन करता है कि generated image उन्हें पूरा करती है या नहीं
- यह prompt following को generic image quality तक सीमित नहीं करता, बल्कि fine-grained prompt constraints को संतुष्ट करने पर केंद्रित रहता है
structural artifacts को कम करने के लिए dedicated artifact reward model को train किया गया
- extra fingers, malformed limbs, distorted text जैसी errors इंसानों के लिए स्पष्ट होती हैं, लेकिन general-purpose VLM judges इन्हें अक्सर miss कर देते हैं
पूरी RL stage को CFG के बिना train किया जाता है
- यह conditional model distribution को तेजी से बेहतर बनाता है, जिससे training की शुरुआत में no-CFG samples, guided samples के काफी ज्यादा करीब आ जाते हैं
- inference time पर CFG को अतिरिक्त control knob के रूप में सक्रिय रखा जा सकता है
RL stage के बाद optional timestep-distillation stage शामिल है
- DMD, DMD2, Decoupled DMD, piFlow, APT की समीक्षा की गई, लेकिन Trajectory Distribution Matching(TDM) को अपनाया गया
- TDM, timesteps के दौरान DMD लागू कर trajectory level पर distribution matching करता है

प्रॉम्प्ट विस्तार और स्टाइल रेफरेंस

प्रशिक्षण के दौरान मॉडल इमेज के घने visual details का वर्णन करने वाले समृद्ध captions का उपयोग करता है, लेकिन वास्तविक user input छोटे, अस्पष्ट होते हैं और अभिव्यक्ति की आदतें भी विविध होती हैं
prompt expander सरल या अपर्याप्त user prompt को user intent को ओवरराइट किए बिना अधिक समृद्ध visual दिशा में बदलता है
- इसे मौजूदा open-source LLM के ऊपर 2-चरणीय SFT और RL pipeline से प्रशिक्षित किया गया है
- लक्ष्यों में केवल image quality सुधार ही नहीं, बल्कि creative variation और controllable exploration भी शामिल हैं
SFT data लंबे captions से synthetic “user captions” बनाकर तैयार किया जाता है
- synthetic user captions छोटे, conversational और semi-instructional prompts होते हैं, जिनमें target caption के कई visual details जानबूझकर छोड़े जाते हैं
- इससे underspecified user prompt → expanded model-friendly caption रूप का paired data बनाया जाता है
- reasoning ability को सुरक्षित रखने के लिए synthetic thinking traces भी बनाए जाते हैं
targeted distribution shaping भी सीमित मात्रा में लागू की जाती है
- visually rich and artistic imagery को oversample किया जाता है
- जिन prompts को photorealistic descriptions में expand होना चाहिए, उनमें lightweight photographic-medium bias जोड़ा जाता है
- लक्ष्य house style को थोपना नहीं, बल्कि expressive art-directed imagery और straightforward photorealistic requests दोनों को शामिल करना है
prompt expander RL का लक्ष्य target caption imitation से आगे बढ़कर image quality को बेहतर बनाते हुए user intent को बनाए रखने वाले expansions उत्पन्न करना है
- इसे GDPO और multi-reward objective के साथ प्रशिक्षित किया जाता है
- image-level rewards resulting generations की quality और preference को मापते हैं
- prompt-level verifiable rewards यह जांचते हैं कि expansion original request के प्रति वफादार है या नहीं
- safety और constraint checks को overall reward के gates के रूप में उपयोग किया जाता है
prompt expander की failure modes में से एक diversity collapse है
- जब image rewards हावी हो जाते हैं, तो यह एक single safe high-reward house style सीख सकता है
- quality और alignment के साथ-साथ intra-group visual diversity को reward करने के लिए prompt groups पर DINOv3 embedding diversity score जोड़ा जाता है
- variation को बनाए रखने के लिए training के दौरान diversity reward को लगातार active रखना आवश्यक है
style-reference system base model के ऊपर बनाया गया है
- user text से image generate करते हुए एक या अधिक reference images के जरिए output style को guide कर सकते हैं
- multiple styles की smooth semantic mixing, हर style reference strength का continuous control, और complex styles के लिए state-of-the-art adherence इसके design goals हैं
- सामान्य failure modes में से एक यह था कि style image का content और subject matter final image में leak हो जाता था
- style-reference module के प्रशिक्षण के लिए एक self-supervised technique तैयार की गई, और बाद में preference-optimization step के जरिए outputs को अतिरिक्त रूप से align किया गया

वितरित प्रशिक्षण इंफ्रास्ट्रक्चर और संचालन

Krea का वितरित प्रशिक्षण framework PyTorch आधारित होकर शुरुआत से बनाया गया था, और मुख्य रूप से DTensor abstraction तथा torchtitan प्रोजेक्ट द्वारा समर्थित torch native features का उपयोग करता है
- अधिकतर pretraining और post-training runs में FSDP2 और Megatron-LM शैली tensor parallelism का साथ में उपयोग किया जाता है
- TP size 2 से बड़े configurations में torch.compile फ्लैग के जरिए async-TP सक्षम किया जाता है, जिससे naive TP की तुलना में मध्यम स्तर का speedup मिलता है
- autoencoder parameters को सभी devices पर replicate किया जाता है, जबकि केवल text encoder और मुख्य MMDiT backbone को shard किया जाता है
- node के भीतर कनेक्शन के लिए NVLinkSharp और nodes के बीच कनेक्शन के लिए InfiniBand का उपयोग किया जाता है
प्रशिक्षण दक्षता के लिए थोड़ा चौड़ा मॉडल इस्तेमाल किया गया, जिसका hidden dimension बड़ा है
- hidden size बढ़ने पर हर layer की computational intensity बढ़ती है, जिससे FSDP2 prefetching के जरिए latency को छिपाना आसान हो जाता है
- layers की संख्या घटाने से all-gather और reduce-scatter operations की संख्या कम हो जाती है
- इस बदलाव से pretraining runs में कुल मिलाकर NCCL से जुड़ी errors काफी कम हुईं
- बड़े matrix multiplication sizes, 8-bit training के quantization/dequantization overhead को offset करने में मदद करते हैं
optimization strategy का केंद्र torch.compile है
- attention के लिए default रूप से नवीनतम cuDNN kernels का उपयोग किया जाता है, और जरूरत पड़ने पर FlexAttention या FlashAttention 3 का इस्तेमाल होता है
- low resolution पर selective activation checkpointing का उपयोग किया जाता है
- high resolution पर activation memory पर हावी होने लगते हैं, इसलिए full activation checkpointing का उपयोग किया जाता है
data loading का base format Parquet है
- हर row में image reference, crop/resize size, caption और अन्य metadata stored रहता है
- बड़े runs में, समान aspect ratio वाली image batches लोड करने के लिए rows को पहले से shuffle और pack किया जाता है
- packing की वजह से latents को एक ही autoencoder pass में encode किया जा सकता है
बड़े पैमाने के distributed training में एक single GPU failure या straggler पूरे run को रोक सकता है
- Krea के scale पर तेज और बार-बार होने वाला checkpointing तथा बेहतर startup time, MTBF और MTTR को optimize करने के लिए पर्याप्त था
research एक ही Kubernetes cluster पर चलती है जो production inference के साथ GPU साझा करता है
- इसे इस तरह design किया गया है कि जरूरत पड़ने पर research पूरा GPU pool ले सके
- जब cluster के सभी GPU training run को allocate हो जाते हैं, तो Krea का inference workload अपने आप कहीं और migrate हो जाता है
- traffic failover को system संभालता है, जिससे local GPU न बचे होने पर भी production responsiveness बनी रहती है
Kueue workload scheduling का मुख्य घटक था
- Kueue, Workload priority और Kubernetes Pod priority को मिलाकर 2-tier priority system देता है
- यह multi-node training के लिए जरूरी gang-scheduling को संभव बनाता है
- “borrowing”, “lending”, “reclamation” queueing primitives utilization को अधिकतम करने में मदद करते हैं
जब सभी GPU research को allocate होते हैं, तब inference को दूसरी जगह scale करने वाले components के लिए Virtual Kubelet का उपयोग होता है
- जब pod किसी virtual Kubernetes node पर schedule होता है, तो Krea code pod specification को target provider के compatible रूप में बदल देता है
- provider-side failure होने पर दोनों तरफ की state को reconcile किया जाता है
- recovery Kubernetes को सौंप दी जाती है और system failure को detect करके Kubernetes तक पहुंचाता है
बड़े पैमाने के pretraining में observability वह क्षेत्र था जहाँ सबसे अधिक सीख मिली
- GPU, PCIe, NVLink और InfiniBand से जुड़े subsystem metrics के बिना इस scale पर training संभव नहीं थी
- metrics को DCGM और custom DaemonSet के संयोजन से collect किया जाता है
- GPU के 75–78°C से ऊपर जाते ही throttling शुरू हो जाती है, कुल throughput घटता है और training instability बढ़ती है
- DCGM_FI_PROF_PIPE_TENSOR_ACTIVE यह तय करने के लिए preferred indicator था कि training उम्मीद के मुताबिक चल रही है या नहीं
- InfiniBand metrics fabric instability, link flapping, packet error, congestion, symbol error और throughput disparity की diagnosis के लिए जरूरी थे
GPU count scaling कठिन था
- 128 GPU से कम वाले runs बहुत स्थिर थे और अक्सर कई दिनों तक बिना समस्या चलते थे
- GPU count बढ़ाने पर runs कहीं अधिक बार crash होने लगे
- बहुत बड़े scale पर 24 घंटे से अधिक चलने वाला एक भी run पूरा नहीं हो सका
- कई crashes का कोई स्पष्ट कारण नहीं था और सभी metrics healthy दिखने के बावजूद वे NCCL timeout की तरह सामने आते थे
शुरुआती बड़ी गलतियों में से एक Ceph को अपनाना था, जिसके बाद Weka पर switch किया गया
- filesystem से जुड़ी समस्याएं और downtime तेज़ी से कम हुए, और performance भी लगभग उसी स्तर तक बेहतर हुई
- Weka, Krea 2 training में aggressive checkpointing को संभव बनाने वाला एक प्रमुख घटक था
- checkpoint लगभग 30 सेकंड में पूरा हो जाता था, इसलिए checkpointing में बहुत कम समय नष्ट होता था

डेटा वेयरहाउस और जॉब क्यू

K2 डेटा कलेक्शन और क्यूरेशन के लिए PostgreSQL server cluster-केंद्रित custom warehousing और queueing system बनाया गया
हर Krea tablet server को “krablet” कहा जाता है
- हर krablet में एक Postgres instance होता है जो एक data shard रखता है, और mutation को asynchronous batch/queue करके lock contention घटाने के लिए “funnel” server deployment शामिल होता है
सभी read को बड़े पैमाने के “RPC” server deployment के ज़रिए proxy किया जाता है
- RPC server, PgBouncer जैसे traditional connection pooler की जगह लेते हैं
- हर RPC server database के सभी shard के लिए connection pool बनाए रखता है
krablet system केवल metadata में 208TB तक scale हुआ, और contended UPSERT transaction के प्रति सेकंड दसियों हज़ार अनुरोध संभाल सकता है
- यह सभी research data के लिए single source of truth देता है
- यह stream-processing layer को data layer के समान बनने देता है
सामान्य job-processing workflow में Postgres table को queue की तरह इस्तेमाल किया जाता है
- OCR worker उन row को ढूंढकर process करता है जिनमें contains_text IS NULL होता है
- embed worker उन row को process करता है जिनमें embedding_path IS NULL और contains_text = FALSE होता है
- FOR UPDATE SKIP LOCKED से row को claim किया जाता है और last_tried_at जैसे column अपडेट किए जाते हैं
यह queue model, Kafka या Ray से अलग retry behavior रखता है
- failure होने पर row को drop नहीं किया जाता और न ही dead-letter queue में भेजा जाता है
- process न हो पाई row भी last_tried_at के atomic update की वजह से queue के अंत में retry होती है
- यह head-of-line blocking को भी रोकता है
worker की संख्या को dynamic तरीके से adjust किया जा सकता है
- processing job, Kubernetes पर deploy होते हैं और data resharding के बिना मनचाहे तरीके से scale up/down किए जा सकते हैं
- job को 1 worker या 1000 worker के साथ चलाया जा सकता है
- Prometheus scaling metric की मदद से pipeline के हर हिस्से को available work के आधार पर autoscale किया जा सकता है
researcher की सुविधा के लिए “pluck” नाम का system दिया गया है
- यह notebook में उपयोग के लिए उपयुक्त global map API देता है
- t.map एक handle लौटाता है जिससे user live progress देखने के लिए attach कर सकता है
- UDF को cloudpickle से pickle किया जाता है और remote worker पर चलाया जाता है
अगली पीढ़ी के research के लिए krablet और FOR UPDATE SKIP LOCKED queue semantics को बनाए रखते हुए ऐसा successor system बनाया जा रहा है जो object storage के ऊपर LSM tree में data store करेगा
- संबंधित काम के लिए supercomputing / distributed systems team की hiring link दी गई है: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072ad0f4c9

आगे की दिशा

Krea 2 में stability और iteration speed को प्राथमिकता देते हुए अपेक्षाकृत conservative architecture और optimizer चुने गए
अगले pretraining cycle में modern LLM transformer design को diffusion transformer पर लागू करने की योजना है
- विचाराधीन दिशाओं में MoE, sparse attention के जरिए native 2K–4K resolution scale, NVFP4 pretraining, और Muon scaling शामिल हैं
- उनका मानना है कि मौजूदा model अभी undertrained है और लंबी training से मदद मिलेगी
मौजूदा Krea 2 training pipeline, multi-reward RL stage पर समाप्त होती है
- Krea ने internal expert की मदद से पहले ही verify किया है कि OPD और MOPD, diffusion model के लिए प्रभावी distillation method हैं
- वे जल्द और नतीजे साझा करने की उम्मीद रखते हैं
production diffusion model के लिए कई परस्पर-निर्भर model से बना एक जटिल configuration चाहिए होता है
- latent diffusion model serving के लिए आम तौर पर autoencoder, diffusion transformer, text encoder, और prompt-expansion model की ज़रूरत होती है
- stack के अनुसार style-reference model या upscaler जैसे अतिरिक्त module भी शामिल हो सकते हैं
- कई ऐसे component को बनाए रखना, जिन्हें अलग-अलग train करना पड़ता है लेकिन जो एक-दूसरे पर निर्भर भी हैं, research team coordination को कठिन बनाता है
Krea की योजना है कि अगले pretraining cycle में architecture को सरल बनाया जाए और कई component को एक single model के तहत integrate किया जाए
Krea 2 मुख्य रूप से creative exploration के लिए image generation पर केंद्रित था, और आगे robust editing, image reference, तथा native 2K/4K generation तक capability बढ़ाने की योजना है
उनका मानना है कि केवल पारंपरिक natural language prompting अब users की पूरी request range को support करने के लिए पर्याप्त नहीं है
- user prompt में natural language, tag, detailed JSON, bounding box, instruction, visual guideline, Markdown जैसी कई prompting style देखी गई हैं
- prompt expansion कुछ हद तक मदद कर सकता है, लेकिन उनका मानना है कि model का इन prompt को native तरीके से समझना भी एक core capability होना चाहिए

1 टिप्पणियां

GN⁺ 4 시간 전

Hacker News की रायें

नवीनतम text-to-image model के weights सार्वजनिक किए गए हैं, और साथ में training process को काफ़ी गहराई से समझाने वाला लेख भी आया है
असली training और data infrastructure जैसी वे चीज़ें भी काफ़ी शामिल हैं जिनके बारे में आमतौर पर ज़्यादा विस्तार से नहीं लिखा जाता, इसलिए इसमें रुचि रखने वालों के लिए कुछ काम की बातें होंगी
- open-weights image generation model पर इतना बड़ा technical report प्रभावशाली है
  इस क्षेत्र को लगातार देखते रहने वाले के तौर पर, final product के पीछे हुए experiments और मेहनत के बारे में पढ़ना सचमुच दिलचस्प है, और अगर वे community को experiment करने के लिए कुछ fine-tuning tools भी जारी कर दें तो model की संभावनाओं को और आगे बढ़ाया जा सकेगा
- जिज्ञासा है कि Krea porn या gore जैसी content को कैसे handle करता है
  बड़े models में, legal होने पर भी, safety के नाम पर इस तरह की content को काफ़ी सख्ती से exclude करने का trend निराशाजनक रहा है
- Ideogram4, Flux2, Qwen-Image, ZiT, Krea को देखें तो open weights की तरफ़ काफ़ी positive movement बढ़ी है
  मूल Flux.1 Krea पिछले साल जुलाई से मेरी GenAI Showdown benchmark site में शामिल था, और इस field में वह बहुत पुरानी बात लगती है। नए model को भी ठीक से test करना चाहूंगा
मैं Krea का co-founder और CTO Diego Rodriguez हूं। इस बार हमने weights और मौजूदा industry standards के हिसाब से काफ़ी ठोस technical report जारी की है
report में data curation/captioning, model architecture, post-training, reinforcement learning pipeline, prompt expansion, style reference और infrastructure को विस्तार से शामिल किया गया है
weights दो तरह के हैं: Krea 2 Turbo guidance और timestep को distill करके inference को तेज़ करने वाला model है, और Krea 2 RAW hacking और fine-tuning को ध्यान में रखकर बनाया गया model है
open LLM community models को अलग-अलग sizes और training pipeline के कई stages में release करने में अच्छी है; इस बार हमने intermediate training stage और post-training stage, दोनों के checkpoints जारी किए हैं। image·multimedia side में यह दुर्लभ है, इसलिए हमें इस पर गर्व है
Artificial Analysis text-to-image benchmark के हिसाब से image quality Nano Banana के समान स्तर की है: https://artificialanalysis.ai/image/leaderboard/text-to-imag...
individuals और small businesses के लिए उदार license भी जोड़ा है
OSS release intro: https://www.krea.ai/krea-2-open-source / Huggingface model: https://www.krea.ai/krea-2/huggingface / GitHub repository: https://www.krea.ai/krea-2/github / Reddit AMA: https://www.reddit.com/r/StableDiffusion/comments/1udnm0a/we... / technical report: https://www.krea.ai/blog/krea-2-technical-report
results आ गए हैं, और खासकर Turbo model 8 steps पर जितना तेज़ है, उसे देखते हुए सचमुच प्रभावशाली है
locally host किए जा सकने वाले models में इससे आगे सिर्फ़ Ideogram 4 निकला था, लेकिन वह काफ़ी धीमा है। फर्क minutes बनाम seconds का है
nine-pointed star, Count Rugen, और लोगों से भरी flat earth जैसे मेरे usual “model killers” पर यह टूट गया, लेकिन कुल मिलाकर इसने अपनी class से ऊपर performance दी और locally hostable models में सबसे ज़्यादा score किया; overall में Ideogram 4 के ठीक नीचे रहा और 15 tests में से 6 pass किए
सिर्फ़ locally hostable models की तुलना वाला GenAI link: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...
- यह पहली बार सुना कि text-to-image models में भी model killers होते हैं, और यह मज़ेदार लगा
  test method के तौर पर इतने अजीब तरह से specific items तक पहुंचना दिलचस्प है
open-weights models का और बढ़ना अच्छी बात है, और यह deep-dive लेख भी मुझे सचमुच पसंद आया
कई styles बना सकने के लिए manifold को broad बनाए रखने वाला approach भी अच्छा है। मुझे यह कुछ style presets के लिए ही tight-tune करने से बेहतर लगता है
हालांकि Nano Banana 2 या Images 2.0 जैसे advanced image-to-image/agentic composition models पहले से काफ़ी मजबूत आ रहे हैं, इसलिए अब यह कुछ हद तक “पिछली लड़ाई लड़ने” जैसा भी लगता है
basic Qwen 3 VL को cross में लगाने का तरीका उस स्तर के image-to-image के करीब पहुंच पाएगा या नहीं, इस पर मुझे काफ़ी शक है, और robust image-to-image editing, adjustment, character consistency, और style transfer में अभी इस्तेमाल हो रही चीज़ों के generalization के लिहाज़ से बहुत महत्वपूर्ण है। style transfer वाला हिस्सा भी कम explained लगता है
उस स्तर तक पहुंचना आसान नहीं होगा, लेकिन image models का अगला मोर्चा साफ़ तौर पर यही है। Ideogram लगता है उसी दिशा में build कर रहा है, लेकिन open-weights side में अभी तक मैंने यह ज़्यादा नहीं देखा
- skepticism समझ आता है, लेकिन internally moodboard जैसे कई cases में यह model Nano Banana से ज़्यादा इस्तेमाल होता है। NBP से 4 गुना सस्ता होना भी मदद करता है
  agentic workflows Krea 2 के साथ compatible हैं, इसलिए वह हिस्सा मुझे ठीक से समझ नहीं आया। अगर आप editing model की बात कर रहे हैं तो वह भी तैयार हो रहा है
  text-to-image benchmarks में भी यह समान स्तर पर है; ऊपर वाले comment में डाले Artificial Analysis link को देख सकते हैं
  Nano Banana या ChatGPT को दुबारा train करके customer का brand समझाना संभव नहीं है, और हमारे customers लगातार इसी बात की शिकायत करते हैं। ऊपर से यह open source है, इसलिए 1:1 comparison आसान नहीं है
- यह model भी image-to-image support करता है, मुझे नहीं पता Qwen 3 VL में समस्या क्या है
  style transfer explain नहीं किया गया, यह कहना भी अस्पष्ट है। page पर “reference” 11 बार आता है, और सच में पढ़ने पर लगा कि इसे काफ़ी cover किया गया है
Krea ने मॉडल weights डाउनलोड करने की सुविधा दी है, इसके लिए आभार, लेकिन license में ऐसे clause हों तो यह open source नहीं है: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
Commercial use तभी allowed है जब पूरी company का annual revenue पिछले 12 महीनों के आधार पर 1 million dollars से कम हो; उससे अधिक होने पर अलग enterprise license चाहिए
साथ ही Krea model, derivatives और outputs को relevant laws, contracts और acceptable use policy के विरुद्ध इस्तेमाल नहीं किया जा सकता, और distribution के समय prohibited, harmful या illegal content generation को detect, prevent और mitigate करने के लिए reasonable content filters लागू करने होंगे
Acceptable use policy का भी पालन करना होगा, और policy page https://www.krea.ai/krea-2-use-policy में Krea या distributor द्वारा लागू safeguards, use restrictions, content filters, provenance labeling और watermarking को bypass करने पर रोक लगाने वाले clauses भी शामिल हैं
लगता है Turbo का GGUF conversion पहले ही आ चुका है: https://huggingface.co/Abiray/Krea-2-Turbo-GGUF
- RAW यहाँ है: https://huggingface.co/vantagewithai/Krea-2-Raw-GGUF
careers page पर एक दिलचस्प item है
जिन्हें पता है कि पुराने जमाने का Mellanox कैसा था, उन्हें यह पसंद आ सकता है: https://jobs.ashbyhq.com/krea/ebe94024-eef6-4306-a019-10072a...
Model अच्छा है, लेकिन Qwen VAE इस्तेमाल किया गया है, यह थोड़ा अफसोस की बात है
- अगर realism को push करके देखना हो, तो website और API वाला Krea 2 Large FLUX 2 VAE पर trained है
  दोनों इस्तेमाल करने के बाद मुझे लगता है कि realistic textures सीखने में Flux VAE को हल्की बढ़त है, लेकिन अंतर उतना बड़ा नहीं है जितना सोचा था। Qwen VAE भी ablation experiments में कुल मिलाकर बहुत अच्छा रहा और diverse styles generate करना सीखने में मजबूत था
- कुछ लोगों ने कहा था कि इसकी जगह wan2.1 VAE इस्तेमाल करने से यह issue solve हो जाता है
  अभी खुद try करने का समय नहीं मिला
Krea 2 इस्तेमाल करने का इंतजार है। मैं Z-Image Turbo रोज इस्तेमाल कर रहा हूँ, और realistic images व illustrations के लिए stock photo subscription की जगह ले चुका है
Training cost कितनी आई होगी, यह जानने की उत्सुकता है
- Coffee तो पक्का बहुत लगी
  Training cost का सही estimate लगाना मुश्किल है, क्योंकि inference और research workloads साथ में चलाने वाले shared Kubernetes cluster का इस्तेमाल किया गया था
ऐसे model को self-host करते समय लोग क्या इस्तेमाल करते हैं, यह जानना चाहता हूँ
ollama और open-webui try किए, लेकिन image generation बिल्कुल support नहीं था
- मैंने अभी यह model try नहीं किया है, लेकिन ComfyUI इसे निश्चित रूप से support करेगा, और आदत पड़ जाने पर interface भी ठीक लगा
  अगर अटकें, तो पहले workflow copy-paste करके शुरू कर सकते हैं
- Koboldcpp image generation support करता है, लेकिन Krea2 support के लिए next release का इंतजार करना होगा
  https://github.com/LostRuins/koboldcpp

Krea 2: open weights 12B इमेज मॉडल की तकनीकी रिपोर्ट

रचनात्मक खोज के लिए बनाया गया इमेज foundation model

डेटा क्यूरेशन और captioning रणनीति

रेज़ोल्यूशन-वार ट्रेनिंग डेटा और midtraining

आर्किटेक्चर चयन और ablation

ट्रेनिंग पाइपलाइन, preference optimization, RL

प्रॉम्प्ट विस्तार और स्टाइल रेफरेंस

वितरित प्रशिक्षण इंफ्रास्ट्रक्चर और संचालन

डेटा वेयरहाउस और जॉब क्यू

आगे की दिशा

संबंधित पढ़ाई

1 टिप्पणियां

Hacker News की रायें