Airflow को बड़े पैमाने पर चलाते हुए सीखे गए सबक
(shopify.engineering)Shopify इसका उपयोग data extraction, machine learning model training, Apache Iceberg table maintenance, और DBT-आधारित data modeling आदि के लिए कर रहा है
- cloud storage का उपयोग करते समय file access धीमा हो सकता है
→ GCS + NFS से performance में सुधार - metadata volume बड़ा होने पर Airflow operations धीमे हो सकते हैं
→ retention policy का उपयोग करके इसे 28 दिनों पर सेट किया - DAGs को users और teams से जोड़ना मुश्किल हो सकता है
→ centralized metadata store का उपयोग - DAG authors के पास बहुत अधिक permissions होती हैं
→ DAG policy का उपयोग - consistent load balancing सुनिश्चित करना कठिन है
→ standardized schedules बनाकर traffic burst कम करना - resource contention के कई बिंदु होते हैं
→ Pools, Priority Weight, Celerey Queue और Isolated Workers का उपयोग
अभी कोई टिप्पणी नहीं है.