هوش مصنوعی کد DNA گیاهی را رمزگشایی می‌کند

پایگاه خبری DA1news: در یک پیشرفت چشمگیر در تقاطع هوش مصنوعی و زیست‌شناسی گیاهی، یک مطالعه جدید به رهبری میلینگ زو، های‌وی چای و ژی‌چیانگ شیا از دانشگاه هاینان، از آغاز دوران تحول‌آفرین در تحقیقات ژنومیک گیاهی خبر می‌دهد.

به گزارش گروه علمی اخبار روزانه کشاورزی، دانشمندان با مهار قدرت مدل‌های زبانی بزرگ (LLM) – معماری‌های هوش مصنوعی که در اصل برای پردازش زبان انسانی طراحی شده‌اند – اکنون در حال کشف واژگان پیچیده جاسازی شده در ژنوم گیاهی هستند. این کار پیشگامانه، که در مجله Tropical Plants منتشر شده است، جزئیات چگونگی رمزگشایی این مدل‌های مبتنی بر هوش مصنوعی از زبان پیچیده توالی‌های ژنتیکی را برای باز کردن بینش‌های بیولوژیکی بی‌سابقه و پیشبرد نوآوری کشاورزی شرح می‌دهد.

از لحاظ تاریخی، حوزه ژنومیک گیاهی به دلیل پیچیدگی فوق‌العاده ذاتی DNA گیاهی با مشکل مواجه شده است. مجموعه‌داده‌های عظیم، متغیر و اغلب با برچسب‌گذاری ضعیف، چالش‌های قابل‌توجهی را برای تکنیک‌های یادگیری ماشین سنتی ایجاد می‌کنند، که به حجم زیادی از داده‌های با کیفیت بالا و برچسب‌گذاری شده نیاز دارند. برخلاف زبان‌های انسانی، که سرشار از دستور زبان و معناشناسی ساختاریافته هستند، توالی‌های ژنومی یک روش اساساً متفاوت از اطلاعات بیولوژیکی را نشان می‌دهند – رشته‌هایی از نوکلئوتیدها که عناصر تنظیمی و عملکردی آن‌ها الگوهای سلسله مراتبی پیچیده‌ای را منعکس می‌کنند. مطالعه اخیر با بازاندیشی در توالی‌های ژنومی به عنوان یک سیستم زبان‌مانند، با این چالش مقابله می‌کند و در نتیجه مدل‌های زبان بزرگ را قادر می‌سازد تا توابع ژنتیکی را با دقت قابل توجهی پردازش و پیش‌بینی کنند.

جوهر این تحقیق در شناخت موازی‌های ساختاری چشمگیر بین زبان طبیعی و کدهای ژنومی نهفته است. DNA را می‌توان به عنوان توالی‌ای از «کلمات» متشکل از حروف نوکلئوتیدی – آدنین، تیمین، سیتوزین و گوانین – تصور کرد که با هم ترکیب می‌شوند تا «جملات» یا موتیف‌های معنی‌داری را تشکیل دهند که بیان ژن و عملکرد سلولی را تنظیم می‌کنند. با آموزش LLM‌ها بر روی مجموعه‌داده‌های عظیمی از توالی‌های ژنومی گیاهی، محققان نشان داده‌اند که این مدل‌ها می‌توانند یاد بگیرند که ویژگی‌های پیچیده‌ای مانند پروموترها، تقویت‌کننده‌ها و سایر عناصر تنظیمی را که فعالیت ژن را در بافت‌ها و مراحل مختلف رشد هماهنگ می‌کنند، شناسایی کنند.

این مطالعه عملکرد چندین معماری LLM را بررسی می‌کند که به طور خاص برای تجزیه و تحلیل ژنومیک گیاهی طراحی شده‌اند. مدل‌های فقط رمزگذار (Encoder-only)، مانند DNABERT، بر تفسیر توالی‌های ورودی برای استخراج نمایش‌های معنی‌دار تمرکز دارند. مدل‌های فقط رمزگشا (Decoder-only) مانند DNAGPT وظایف تولیدی را تسهیل می‌کنند، الگوهای توالی پایین‌دست یا حاشیه‌نویسی‌های عملکردی را پیش‌بینی می‌کنند. علاوه بر این، هیبریدهای رمزگذار-رمزگشا مانند ENBED درک و پیش‌بینی دو جهته را امکان‌پذیر می‌سازند و قابلیت مدل را افزایش می‌دهند. محققان از یک روش‌شناسی دقیق شامل پیش‌آموزش اولیه بر روی داده‌های ژنومی خام گسترده، و سپس تنظیم دقیق استفاده کردند.