नए प्रोटीनों को संश्लेषित करना – जैविक जीवन के निर्माण ब्लॉक – अपार क्षमता का एक वैज्ञानिक क्षेत्र है, और एक नया विकसित एआई मॉडल प्रकृति में पाए जाने वाले नए प्रोटीन मार्ग के लिए निर्देश बनाने का वादा करता है।
अमेरिका में वैज्ञानिकों ने ESMGFP (ग्रीन फ्लोरोसेंट प्रोटीन) नामक एक नए प्रोटीन को संश्लेषित करने के लिए इवोल्यूशनरीस्केल मॉडल 3 (ESM3) का उपयोग किया है, जो केवल अपनी निकटतम प्राकृतिक सापेक्ष TAGRFPP के साथ अपनी सामग्री का 58 प्रतिशत साझा करता है।
यह 500 मिलियन वर्षों के विकास के बराबर है, एआई द्वारा संसाधित किया जा रहा है, अनुसंधान टीम का अनुमान है, और यह कस्टम-निर्मित प्रोटीन बनाने का तरीका खोलता है जो विशिष्ट उपयोगों के लिए डिज़ाइन किया जा सकता है, या मौजूदा प्रोटीन से अधिक कार्यों को अनलॉक कर सकता है।

न्यूयॉर्क में इवोल्यूशनरीस्केल के संस्थापक थॉमस हेस के नेतृत्व में शोधकर्ताओं ने अपने प्रकाशित पेपर में, “तीन अरब से अधिक वर्षों के विकास से प्राकृतिक प्रोटीन के स्थान पर जीव विज्ञान की एक छवि पैदा की है।”
“यहां हम दिखाते हैं कि विकासवादी डेटा पर पैमाने पर प्रशिक्षित भाषा मॉडल कार्यात्मक प्रोटीन उत्पन्न कर सकते हैं जो ज्ञात प्रोटीन से बहुत दूर हैं।”
मैं जो काम कर रहा है उसे साझा करने के लिए बहुत उत्साहित हूं @Evoscaleai। ESM3 प्रोग्रामिंग बायोलॉजी के लिए एक मल्टीमॉडल जेनरेटिव नकाबपोश भाषा मॉडल है। यहाँ ESM3 के पीछे वास्तुकला पर एक छोटा धागा है। 🧵https: //t.co/jldhyrapny
– थॉमस हेस (@थायस 427) 25 जून, 2024
ESM3 को एक प्रभावशाली 3.15 बिलियन प्रोटीन अनुक्रमों (एक प्रोटीन में अमीनो एसिड का क्रम), 236 मिलियन प्रोटीन संरचनाओं (उनके 3 डी आकृतियों), और 539 मिलियन प्रोटीन एनोटेशन (वर्णनात्मक लेबल) पर प्रशिक्षित किया गया था।
डेटा के उन विशाल ट्रॉव्स में पैटर्न को स्पॉट करके, एआई मॉडल यह समझ सकता है कि प्रोटीन बिल्डिंग और फंक्शन में क्या काम करता है और क्या नहीं करता है – उसी तरह से कि चैट एक नई कविता की रचना कर सकता है जो मनुष्यों द्वारा लिखी गई लाखों कविताओं को पढ़ने के बाद राइम करता है।
ESMGFP को अतिरिक्त विशेष बनाता है कि यह काम करता है: यह इसके रिश्तेदार TAGRFP की तरह ही फ्लोरोसेंट है। फ्लोरोसेंट प्रोटीन कुछ महासागर जीवों को अपनी चमक देते हैं, और उनके उपयोग के रूप में मार्कर का उपयोग चिकित्सा और जैव प्रौद्योगिकी में बहुत महत्व है।
“हमने प्रतिदीप्ति की कार्यक्षमता को चुना क्योंकि इसे प्राप्त करना मुश्किल है, मापने में आसान है, और प्रकृति में सबसे सुंदर तंत्रों में से एक है,” टीम लिखती है।

एआई प्रोटीन संश्लेषण में परीक्षण और त्रुटि का एक बहुत दूर ले जाता है, जबकि वर्तमान में हम प्रोटीन से दूर का पता लगाने की क्षमता को जोड़ते हैं।
“प्रोटीन को एक संगठित स्थान के भीतर मौजूदा के रूप में देखा जा सकता है जहां प्रत्येक प्रोटीन हर दूसरे द्वारा पड़ोसी होता है जो एक पारस्परिक घटना दूर है,” शोधकर्ताओं ने लिखा है। “विकास की संरचना इस स्थान के भीतर एक नेटवर्क के रूप में दिखाई देती है, सभी प्रोटीनों को उन रास्तों से जोड़ती है जो विकास उनके बीच ले सकते हैं।”
विकास होने के लिए, टीम का कहना है कि प्रत्येक प्रोटीन को अगले एक सिस्टम के बिना बदलना होगा, जिसमें यह एक हिस्सा है जो अपनी समग्र कार्यक्षमता को खो देता है। एक भाषा मॉडल इस स्थान में प्रोटीन को पहचानता है।
ESM3 द्वारा डिज़ाइन किए गए प्रोटीन को अभी भी मान्य, संश्लेषित और परीक्षण करने की आवश्यकता है, जिसमें समय लगता है, लेकिन टीम यहां आगे की प्रगति करने के लिए आश्वस्त है। बहुत दूर-दूर के भविष्य में हम दवाओं से लेकर बायोमेट्रिक तक हर चीज के लिए प्रोटीन का उत्पादन कर सकते हैं, बस कुछ चतुर एआई के साथ।
शोधकर्ताओं ने बताया, “प्रोटीन भाषा मॉडल स्पष्ट रूप से विकास की भौतिक बाधाओं के भीतर काम नहीं करते हैं, बल्कि इसके बजाय संभावित रास्तों की भीड़ के एक मॉडल का निर्माण कर सकते हैं,” शोधकर्ताओं ने बताया।
शोध में प्रकाशित किया गया है विज्ञान।