दीपसेक दुनिया भर में शॉकवेव्स भेज रहा है। उसकी वजह यहाँ है। : Sciencealert

Listen to this article


चीनी आर्टिफिशियल इंटेलिजेंस (एआई) की कंपनी दीपसेक ने तकनीकी समुदाय के माध्यम से शॉकवेव्स भेजे हैं, जिसमें बेहद कुशल एआई मॉडल जारी हैं जो ओपनईएआई और एन्थ्रोपिक जैसी अमेरिकी कंपनियों से अत्याधुनिक उत्पादों के साथ प्रतिस्पर्धा कर सकते हैं।


2023 में स्थापित, दीपसेक ने अपने प्रतियोगियों की नकदी और कंप्यूटिंग शक्ति के एक अंश के साथ अपने परिणाम प्राप्त किए हैं।


दीपसेक के “रीज़निंग” आर 1 मॉडल, पिछले सप्ताह जारी, शोधकर्ताओं के बीच उत्साह, निवेशकों के बीच सदमे और एआई हैवीवेट से प्रतिक्रियाओं को उकसाया। कंपनी ने 28 जनवरी को एक मॉडल के साथ पीछा किया जो छवियों के साथ -साथ पाठ के साथ भी काम कर सकता है।


तो दीपसेक ने क्या किया है, और यह कैसे किया?

दीपसेक ऐप
(जस्टिन सुलिवन/गेटी इमेजेज)

दीपसेक ने क्या किया

दिसंबर में, दीपसेक ने अपना वी 3 मॉडल जारी किया। यह एक बहुत शक्तिशाली “मानक” बड़ा भाषा मॉडल है जो Openai के GPT-4O और एन्थ्रोपिक के क्लाउड 3.5 के समान स्तर पर प्रदर्शन करता है।


जबकि ये मॉडल त्रुटियों से ग्रस्त हैं और कभी -कभी अपने स्वयं के तथ्य बनाते हैं, वे प्रश्नों का उत्तर देने, निबंध लिखने और कंप्यूटर कोड उत्पन्न करने जैसे कार्यों को अंजाम दे सकते हैं। समस्या-समाधान और गणितीय तर्क के कुछ परीक्षणों पर, वे औसत मानव से बेहतर स्कोर करते हैं।


V3 को लगभग 5.58 मिलियन अमेरिकी डॉलर की रिपोर्ट की गई लागत पर प्रशिक्षित किया गया था। उदाहरण के लिए, यह GPT-4 की तुलना में नाटकीय रूप से सस्ता है, जिसकी लागत विकसित करने के लिए US $ 100 मिलियन से अधिक है।


दीपसेक ने लगभग 2,000 विशेष कंप्यूटर चिप्स का उपयोग करके V3 को प्रशिक्षित करने का दावा किया है, विशेष रूप से NVIDIA द्वारा बनाए गए H800 GPU। यह फिर से अन्य कंपनियों की तुलना में बहुत कम है, जो अधिक शक्तिशाली H100 चिप्स के 16,000 तक का उपयोग कर सकता है।


20 जनवरी को, दीपसेक ने एक और मॉडल जारी किया, जिसे R1 कहा जाता है। यह एक तथाकथित “रीज़निंग” मॉडल है, जो जटिल समस्याओं के माध्यम से कदम दर कदम के माध्यम से काम करने की कोशिश करता है। ये मॉडल कई कार्यों में बेहतर प्रतीत होते हैं जिनके संदर्भ में संदर्भ की आवश्यकता होती है और कई परस्पर संबंधित भाग होते हैं, जैसे कि पढ़ने की समझ और रणनीतिक योजना।


R1 मॉडल V3 का एक ट्विक किया गया संस्करण है, जिसे सुदृढीकरण लर्निंग नामक एक तकनीक के साथ संशोधित किया गया है। R1 पिछले साल जारी Openai के O1 के समान स्तर पर काम करता है।


दीपसेक ने छोटे ओपन-सोर्स मॉडल के “रीज़निंग” संस्करण बनाने के लिए उसी तकनीक का उपयोग किया जो घर के कंप्यूटर पर चल सकते हैं।


इस रिलीज़ ने दीपसेक में रुचि का एक बड़ा हिस्सा उछाल दिया है, अपने वी 3-संचालित चैटबॉट ऐप की लोकप्रियता को बढ़ाते हुए और तकनीकी शेयरों में बड़े पैमाने पर मूल्य दुर्घटना को ट्रिगर किया है क्योंकि निवेशक एआई उद्योग का पुनर्मूल्यांकन करते हैं। लेखन के समय, चिपमेकर एनवीडिया ने लगभग 600 बिलियन अमेरिकी डॉलर का मूल्य खो दिया है।


कितनी दीपसेक ने किया

दीपसेक की सफलताएं अधिक दक्षता प्राप्त करने में रही हैं: कम संसाधनों के साथ अच्छे परिणाम प्राप्त करना। विशेष रूप से, डीपसेक के डेवलपर्स ने दो तकनीकों का बीड़ा उठाया है जिन्हें एआई शोधकर्ताओं द्वारा अधिक व्यापक रूप से अपनाया जा सकता है।


पहले को “स्पार्सिटी” नामक एक गणितीय विचार के साथ करना है। एआई मॉडल में बहुत सारे पैरामीटर होते हैं जो इनपुट के लिए उनकी प्रतिक्रियाओं को निर्धारित करते हैं (V3 में लगभग 671 बिलियन होते हैं), लेकिन इन मापदंडों का केवल एक छोटा सा अंश किसी भी इनपुट के लिए उपयोग किया जाता है।


हालांकि, भविष्यवाणी करना कि किन मापदंडों की आवश्यकता होगी आसान नहीं है। दीपसेक ने ऐसा करने के लिए एक नई तकनीक का उपयोग किया, और फिर केवल उन मापदंडों को प्रशिक्षित किया। नतीजतन, इसके मॉडलों को पारंपरिक दृष्टिकोण की तुलना में बहुत कम प्रशिक्षण की आवश्यकता थी।


अन्य ट्रिक को कंप्यूटर मेमोरी में V3 जानकारी कैसे संग्रहीत करता है, इसके साथ क्या करना है। दीपसेक ने प्रासंगिक डेटा को संपीड़ित करने के लिए एक चतुर तरीका पाया है, इसलिए इसे जल्दी से स्टोर करना और एक्सेस करना आसान है।


इसका क्या मतलब है

दीपसेक के मॉडल और तकनीकों को मुफ्त एमआईटी लाइसेंस के तहत जारी किया गया है, जिसका अर्थ है कि कोई भी उन्हें डाउनलोड और संशोधित कर सकता है।


हालांकि यह कुछ एआई कंपनियों के लिए बुरी खबर हो सकती है – जिनके मुनाफे को स्वतंत्र रूप से उपलब्ध, शक्तिशाली मॉडल के अस्तित्व से मिटा दिया जा सकता है – यह व्यापक एआई अनुसंधान समुदाय के लिए बहुत अच्छी खबर है।


वर्तमान में, बहुत सारे एआई अनुसंधान के लिए कम्प्यूटिंग संसाधनों की भारी मात्रा तक पहुंच की आवश्यकता होती है। खुद जैसे शोधकर्ता जो विश्वविद्यालयों में आधारित हैं (या बड़ी तकनीकी कंपनियों को छोड़कर) में परीक्षण और प्रयोग करने की सीमित क्षमता है।


अधिक कुशल मॉडल और तकनीक स्थिति को बदलते हैं। प्रयोग और विकास अब हमारे लिए काफी आसान हो सकता है।


उपभोक्ताओं के लिए, एआई तक पहुंच भी सस्ती हो सकती है। अधिक एआई मॉडल उपयोगकर्ताओं के अपने उपकरणों, जैसे लैपटॉप या फोन, के बजाय “क्लाउड में” एक सदस्यता शुल्क के लिए चलाने के बजाय चलाए जा सकते हैं।

उन शोधकर्ताओं के लिए जिनके पास पहले से ही बहुत सारे संसाधन हैं, अधिक दक्षता का प्रभाव कम हो सकता है। यह स्पष्ट नहीं है कि क्या डीपसेक का दृष्टिकोण समग्र रूप से बेहतर प्रदर्शन के साथ मॉडल बनाने में मदद करेगा, या बस ऐसे मॉडल जो अधिक कुशल हैं।बातचीत

टोंग्लिआंग लियू, मशीन लर्निंग के एसोसिएट प्रोफेसर और सिडनी एआई सेंटर के निदेशक, सिडनी विश्वविद्यालय

यह लेख एक क्रिएटिव कॉमन्स लाइसेंस के तहत बातचीत से पुनर्प्रकाशित है। मूल लेख पढ़ें।



Source link

Leave a Comment