1 पॉइंट द्वारा GN⁺ 2024-07-02 | 1 टिप्पणियां | WhatsApp पर शेयर करें

TL;DR

  • मुख्य सारांश: fine-tuned मॉडल OpenAI के मॉडल से अधिक सटीक था, लेकिन evaluation को implement करना कठिन था।
  • मुख्य बिंदु: fine-tuning प्रक्रिया में काफी कोड छिपा हुआ था और execution speed धीमी थी। सिस्टम न होने पर maintenance की जटिलता बढ़ जाती।

डेटासेट लोडिंग

  • डेटासेट: Hugging Face Hub के public repository से test dataset का उपयोग किया गया।
  • डेटासेट संरचना: 'name', 'eventrefnumber', 'text', 'StartDate', 'eventtype', 'province', 'citydistrict', 'village', 'targetgroup', 'commander', 'position', 'minkilled', 'mincaptured', 'capturedcharacterisation', 'killedcharacterisation', 'killq', 'captureq', 'killcaptureraid', 'airstrike', 'noshotsfired', 'dataprocessed', 'flagged', 'glossarymeta', 'minleaderskilled', 'minfacilitatorskilled', 'minleaderscaptured', 'minfacilitatorscaptured', 'leaderq' आदि।

prediction जोड़ना

  • prediction जोड़ना: dataset की हर row में prediction result जोड़ा गया, और compute-heavy steps से बचने के लिए इसे iteratively किया गया।
  • Pydantic object का उपयोग: data validation और quality control functionality को संभालने के लिए data को Pydantic object में व्यवस्थित किया गया।

JSON validity test

  • prediction result: मॉडल को JSON string output करने के लिए सेट किया गया।
  • GPT मॉडल का उपयोग: prediction के लिए GPT-4o और GPT-4 Turbo मॉडल का उपयोग किया गया।
  • समस्या: GPT मॉडल एक ही prompt पर train नहीं किए गए थे, इसलिए सटीक तुलना करना कठिन था।

asynchronous prediction

  • asynchronous processing: बहुत सारे events को process करने के लिए prediction asynchronous तरीके से किया गया।
  • retry logic: GPT-3.5-turbo की rate limit को ध्यान में रखते हुए retry logic जोड़ा गया।

डेटासेट transform और push

  • डेटासेट transform: prediction results को dataset में जोड़कर Hugging Face Hub पर push किया गया।
  • function का उपयोग: transform और push process को बार-बार करने के लिए function का उपयोग किया गया।

fine-tuned मॉडल prediction जोड़ना

  • local मॉडल: locally trained मॉडल के prediction results को dataset में जोड़ा गया।
  • OpenAI मॉडल: OpenAI की one-click fine-tuning service से train किए गए मॉडल के prediction results भी जोड़े गए।
  • विभिन्न मॉडल: Mistral, Llama3, Solar LLM जैसे विभिन्न मॉडलों के prediction results जोड़े गए।

अंतिम evaluation

  • evaluation metrics: JSON validity test, start date accuracy, state-wise accuracy, target group accuracy, event type accuracy आदि विभिन्न evaluation metrics का उपयोग किया गया।
  • अंतिम परिणाम: fine-tuned मॉडल ने OpenAI मॉडल की तुलना में अधिक accuracy दिखाई।

GN⁺ की राय

  1. fine-tuning का महत्व: fine-tuned मॉडल ने OpenAI के base मॉडल से अधिक accuracy दिखाई, जो task-specific मॉडल के महत्व को रेखांकित करता है।
  2. evaluation की जटिलता: evaluation implementation कठिन होने से system-level approach की आवश्यकता महसूस होती है।
  3. विभिन्न मॉडलों का उपयोग: तुलना-आधारित evaluation के लिए कई मॉडलों का उपयोग करना दिलचस्प है। इससे मॉडलों की ताकत और कमजोरियों को अधिक स्पष्ट रूप से समझा जा सकता है।
  4. open source का उपयोग: Hugging Face Hub जैसे open source platform का उपयोग करके dataset को manage और share करना उपयोगी रहा।
  5. asynchronous processing की आवश्यकता: यह दिखाता है कि बहुत अधिक data process करते समय asynchronous तरीका अधिक efficient होता है।

1 टिप्पणियां

 
GN⁺ 2024-07-02
Hacker News राय
  • OpenPipe के संस्थापक: data extraction वह क्षेत्र है जिसमें fine-tuned models उत्कृष्ट होते हैं। OpenPipe के शोध के अनुसार, Llama 3 8B मॉडल ने कई कार्यों में GPT-4 को पीछे छोड़ दिया। महत्वपूर्ण बात यह है कि उच्च-गुणवत्ता वाला training data कैसे बनाया जाए
  • छोटे specialized models ने information extraction और text classification में बेहतर प्रदर्शन दिखाया। मैं छोटे मॉडलों के प्रदर्शन को शामिल करने वाला शोध देखना चाहूँगा
  • underdetermined systems के equations के अनंत हल होते हैं। open source AI models का उपयोग करके SOTA benchmarks को पार किया जा सकता है। मौजूदा तकनीक से intelligent systems नहीं बनाए जा सकते, और एक नए breakthrough की ज़रूरत है
  • data extraction और structuring ही वास्तविक काम में उपयोगी LLM का एकमात्र गंभीर अनुप्रयोग है। छोटे models तेज़, सस्ते और offline काम के लिए उपयुक्त होते हैं। अधिक experiments और specific fine-tuning संभव है
  • fine-tuned model का उद्देश्य यही है। hosting और local options को मिलाने वाली fine-tuning प्रक्रिया देखना अच्छा है
  • मैं ऐसे उदाहरण देखना चाहूँगा जहाँ GPT-4 गलत था और जहाँ सबसे अच्छा मॉडल सही था। इसे temperature 0 पर फिर से आज़माना भी अच्छा होगा। temperature 0 structured data extraction में बड़ा अंतर ला सकता है
  • मैंने मिलते-जुलते विषय पर एक paper लिखा है: paper link
  • Predibase में 700 से अधिक fine-tuning experiments किए गए और GPT-4 से तुलना की गई। 85% मामलों में इसने GPT-4 को पीछे छोड़ दिया। परिणाम यहाँ देखे जा सकते हैं
  • सभी models को जितना संभव हो उतना open source बनाया जाना चाहिए। स्वतंत्रता और गुणवत्ता के लिए open source आम तौर पर बेहतर है
  • target news article की संभावित विवादास्पद सामग्री ChatGPT की summary क्षमता को प्रभावित कर सकती है