TL;DR
- मुख्य सारांश: fine-tuned मॉडल OpenAI के मॉडल से अधिक सटीक था, लेकिन evaluation को implement करना कठिन था।
- मुख्य बिंदु: fine-tuning प्रक्रिया में काफी कोड छिपा हुआ था और execution speed धीमी थी। सिस्टम न होने पर maintenance की जटिलता बढ़ जाती।
डेटासेट लोडिंग
- डेटासेट: Hugging Face Hub के public repository से test dataset का उपयोग किया गया।
- डेटासेट संरचना: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' आदि।
prediction जोड़ना
- prediction जोड़ना: dataset की हर row में prediction result जोड़ा गया, और compute-heavy steps से बचने के लिए इसे iteratively किया गया।
- Pydantic object का उपयोग: data validation और quality control functionality को संभालने के लिए data को Pydantic object में व्यवस्थित किया गया।
JSON validity test
- prediction result: मॉडल को JSON string output करने के लिए सेट किया गया।
- GPT मॉडल का उपयोग: prediction के लिए GPT-4o और GPT-4 Turbo मॉडल का उपयोग किया गया।
- समस्या: GPT मॉडल एक ही prompt पर train नहीं किए गए थे, इसलिए सटीक तुलना करना कठिन था।
asynchronous prediction
- asynchronous processing: बहुत सारे events को process करने के लिए prediction asynchronous तरीके से किया गया।
- retry logic: GPT-3.5-turbo की rate limit को ध्यान में रखते हुए retry logic जोड़ा गया।
डेटासेट transform और push
- डेटासेट transform: prediction results को dataset में जोड़कर Hugging Face Hub पर push किया गया।
- function का उपयोग: transform और push process को बार-बार करने के लिए function का उपयोग किया गया।
fine-tuned मॉडल prediction जोड़ना
- local मॉडल: locally trained मॉडल के prediction results को dataset में जोड़ा गया।
- OpenAI मॉडल: OpenAI की one-click fine-tuning service से train किए गए मॉडल के prediction results भी जोड़े गए।
- विभिन्न मॉडल: Mistral, Llama3, Solar LLM जैसे विभिन्न मॉडलों के prediction results जोड़े गए।
अंतिम evaluation
- evaluation metrics: JSON validity test, start date accuracy, state-wise accuracy, target group accuracy, event type accuracy आदि विभिन्न evaluation metrics का उपयोग किया गया।
- अंतिम परिणाम: fine-tuned मॉडल ने OpenAI मॉडल की तुलना में अधिक accuracy दिखाई।
GN⁺ की राय
- fine-tuning का महत्व: fine-tuned मॉडल ने OpenAI के base मॉडल से अधिक accuracy दिखाई, जो task-specific मॉडल के महत्व को रेखांकित करता है।
- evaluation की जटिलता: evaluation implementation कठिन होने से system-level approach की आवश्यकता महसूस होती है।
- विभिन्न मॉडलों का उपयोग: तुलना-आधारित evaluation के लिए कई मॉडलों का उपयोग करना दिलचस्प है। इससे मॉडलों की ताकत और कमजोरियों को अधिक स्पष्ट रूप से समझा जा सकता है।
- open source का उपयोग: Hugging Face Hub जैसे open source platform का उपयोग करके dataset को manage और share करना उपयोगी रहा।
- asynchronous processing की आवश्यकता: यह दिखाता है कि बहुत अधिक data process करते समय asynchronous तरीका अधिक efficient होता है।
1 टिप्पणियां
Hacker News राय