HiveQL को Spark SQL में माइग्रेट करते समय आने वाली समस्याओं का समाधान

yechoi · 2023-09-05T18:35:38+09:00

LINE डेटा प्लेटफ़ॉर्म टीम ने Hive के उपयोग को धीरे-धीरे बंद करके Spark environment में माइग्रेट करने की दिशा तय की माइग्रेशन का तरीका - engine बदलने के बाद समस्या होने पर query में बदलाव query बदलाव के उदाहरण: अस्थायी टेबल का उपयोग करने के मामले में (CREATE TEMPORARY TABLE) ANSI policy का उल्लंघन करने वाले implicit type conversion का उपयोग करने के मामले में (Store Assignment Policy) उपयोग में रहे UDF में समस्या होने के मामले में नया UDF पेश करने के मामले में map type पर set operation का उपयोग करने के मामले में कई partitions हटाने की आवश्यकता होने के मामले में माइग्रेशन के बाद कुछ खास डेटा गायब मिला, इसलिए troubleshooting की गई पाँच तरह की समस्या-स्थितियाँ और उनके समाधान: query चलाने के बाद कुछ परिणाम गायब हो जाने की समस्या partition directory के नीचे subdirectory मौजूद होने पर डेटा न पढ़ पाने की समस्या job चलते समय partition directory हट जाने से उस partition का उपयोग करने वाली query के fail होने की समस्या एक partition से डेटा पढ़कर उसी table के दूसरे partition में लिखते समय AnalysisException(Cannot overwrite a path that is also being read from) होने की समस्या परिणाम duplicate होकर दोगुना load होने की समस्या OpenChat के अलावा, वर्तमान में संभाले जा रहे कई domains की सैकड़ों queries को भी इस साल के भीतर पूरी तरह Spark में माइग्रेट करने की योजना

LINE डेटा प्लेटफ़ॉर्म टीम ने Hive के उपयोग को धीरे-धीरे बंद करके Spark environment में माइग्रेट करने की दिशा तय की
माइग्रेशन का तरीका - engine बदलने के बाद समस्या होने पर query में बदलाव
query बदलाव के उदाहरण:
- अस्थायी टेबल का उपयोग करने के मामले में (CREATE TEMPORARY TABLE)
- ANSI policy का उल्लंघन करने वाले implicit type conversion का उपयोग करने के मामले में (Store Assignment Policy)
- उपयोग में रहे UDF में समस्या होने के मामले में
- नया UDF पेश करने के मामले में
- map type पर set operation का उपयोग करने के मामले में
- कई partitions हटाने की आवश्यकता होने के मामले में
माइग्रेशन के बाद कुछ खास डेटा गायब मिला, इसलिए troubleshooting की गई
पाँच तरह की समस्या-स्थितियाँ और उनके समाधान:
- query चलाने के बाद कुछ परिणाम गायब हो जाने की समस्या
- partition directory के नीचे subdirectory मौजूद होने पर डेटा न पढ़ पाने की समस्या
- job चलते समय partition directory हट जाने से उस partition का उपयोग करने वाली query के fail होने की समस्या
- एक partition से डेटा पढ़कर उसी table के दूसरे partition में लिखते समय AnalysisException(Cannot overwrite a path that is also being read from) होने की समस्या
- परिणाम duplicate होकर दोगुना load होने की समस्या
OpenChat के अलावा, वर्तमान में संभाले जा रहे कई domains की सैकड़ों queries को भी इस साल के भीतर पूरी तरह Spark में माइग्रेट करने की योजना

HiveQL को Spark SQL में माइग्रेट करते समय आने वाली समस्याओं का समाधान

संबंधित पढ़ाई

अभी कोई टिप्पणी नहीं है.