یادگیری بازنمایی عناصر زیستی-پزشکی با استفاده از گراف‏های ناهمگن

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده فناوری اطلاعات و مهندسی کامپیوتر، دانشگاه شهید مدنی آذربایجان، تبریز، ایران.

چکیده

چکیده: گراف‌های ناهمگن چارچوبی قدرتمند برای مدل‌سازی و تحلیل مسائل پیچیده دنیای واقعی فراهم می‌کنند. این گراف‌ها با نمایش انواع مختلف گره‌ها و روابط میان آن‌ها، امکان ادغام و تفسیر داده‌های متنوع را مهیا می‌سازند. یادگیری بازنمایی مؤثر از اجزای گراف‌های ناهمگن، یکی از چالش‌های اساسی در توسعه الگوریتم‌های یادگیری ماشین و یادگیری عمیق است، چرا که این بازنمایی‌ها نقش کلیدی در بهبود دقت پیش‌بینی و کشف الگوهای پنهان ایفا می‌کنند. روش‌های سنتی و گراف‌های همگن با توجه به محدودیت در نمایش تنوع داده‌های زیستی در حوزه بیوانفورماتیک عملکرد مطلوبی ندارند. در مقابل، گراف‌های ناهمگن با بهره‌گیری از اطلاعات ساختاری پیچیده، قادر به مدل‌سازی مؤثرتر روابط زیستی هستند. در این مقاله، رویکرد نوین BioGraph2vec برای یادگیری بازنمایی عناصر زیستی-پزشکی با استفاده از گراف‌های ناهمگن ارائه شده است. این روش با ترکیب داده‌های توالی پروتئین‌ها و اطلاعات تعاملات زیستی، گراف‌هایی شامل پروتئین‌های میزبان و پاتوژن و روابط میان آن‌ها ایجاد می‌کند. برای استخراج بازنمایی دقیق از گره‌ها، از مکانیزم‌های توجه و انتقال پیام استفاده می‌شود تا ویژگی‌های مهم هر گره در بستر شبکه شناسایی گردد. در ادامه، بازنمایی‌های به‌دست‌آمده به مدل‌های یادگیری ماشین داده می‌شوند تا تعاملات احتمالی بین پروتئین‌ها پیش‌بینی شوند. ارزیابی روش پیشنهادی بر روی مجموعه داده‌های متنوع نشان می‌دهد که ادغام داده‌های زیستی در قالب گراف‌های ناهمگن، همراه با تکنیک‌های پیشرفته یادگیری بازنمایی، می‌تواند به بهبود تحلیل داده‌های بیوانفورماتیکی و شناسایی الگوهای پیچیده در سیستم‌های زیستی منجر شود.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Representation Learning for Biomedical Entities using Heterogeneous Graphs

نویسندگان [English]

  • Shadi Zeynali Moghanjoughi
  • Esmaeil Nourani
  • Asgarali Bouyer
Faculty of Information Technology and Computer Engineering, Azarbaijan Shahid Madani University, Tabriz, Iran.
چکیده [English]

Abstract: Heterogeneous graphs provide a powerful framework for modeling and analyzing complex real-world problems. These graphs, by representing different types of nodes and their relationships, enable the integration and interpretation of diverse data. Learning effective representations of the components of heterogeneous graphs is one of the fundamental challenges in the development of machine learning and deep learning algorithms, since these representations play a key role in improving prediction accuracy and discovering hidden patterns. In the field of bioinformatics, traditional methods and homogeneous graphs do not perform well due to their limitations in representing the diversity of biological data. In contrast, heterogeneous graphs, by leveraging complex structural information, are capable of more effectively modeling biological relationships. In this paper, we present a novel approach, BioGraph2vec, for learning representations of biomedical entities using heterogeneous graphs. This method combines protein sequence data and biological interaction information to create graphs that include host and pathogen proteins and the relationships between them. To extract precise node representations, attention mechanisms and message passing techniques are utilized to identify the important features of each node within the network. The obtained representations are then provided to machine learning models to predict potential interactions between proteins. Evaluation of this method on diverse datasets shows that integrating biological data in the form of heterogeneous graphs, together with advanced representation learning techniques, can lead to improved bioinformatics data analysis and better identification of complex patterns in biological systems.

کلیدواژه‌ها [English]

  • Representation Learning
  • Heterogeneous Graphs
  • Biomedical Entities
  • ‌Bioinformatics
  • Machine Learning

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 10 اردیبهشت 1405
  • تاریخ دریافت: 11 تیر 1404
  • تاریخ بازنگری: 30 مهر 1404
  • تاریخ پذیرش: 10 اردیبهشت 1405