پیش بینی ژن‏ های بیماری با استفاده از دسته‏ بند تک‌کلاسی ماشین بردار پشتیبان

نویسندگان

دانشگاه تربیت مدرس

چکیده

چکیده: در بحث شناسایی و دسته‏بندی ژن‏های بیماری، متخصصان تنها به دسته‏بندی یک کلاس خاص، یعنی ژن‏های بیماری علاقمند هستند و توجهی به کلاس‏های دیگر، یعنی ژن‏های غیربیماری ندارند. در مباحث یادگیری ماشین، این کاربرد تحت عنوان دسته‏بندی تک‌کلاسی مطرح می‌شود. روش‏های موجود مبتنی بر یادگیری معمولا ژن‏های شناخته شده بیماری را به عنوان مجموعه آموزشی مثبت، و ژن‏های ناشناخته را به عنوان مجموعه آموزشی منفی برای ایجاد یک دسته‏بند دودویی استفاده می‌کنند. از آنجاییکه در پایگاه داده‏های موجود در علم ژنتیک مجموعه ژن غیربیماری وجود ندارد، ما در این مقاله با استفاده از روش دسته‏بند تک‏کلاسی ماشین بردار پشتیبان و در نظر گرفتن تنها ژن‏های بیماری‏زا اقدام به شناسایی داده‏های بدون برچسب‏ می‏کنیم. روش پیشنهادی نسبت به روش‏های موجود از لحاظ معیار‏های دقت، بازخوانی و معیارF1  نتایج بهتری را ارایه می‌دهد.

کلیدواژه‌ها


عنوان مقاله [English]

Candidate disease gene prediction using One-Class classification

نویسندگان [English]

  • Akram Vasighi Zaker
  • Saeed Jalili
چکیده [English]

Abstract: In disease gene identification and classification, users are only interested in classifying one specific class, disease genes, without considering other classes (non-disease genes). This situation is referred to as one-class classification. Existing machine learning-based methods typically use known disease gene as positive training set and unknown genes as negative training set to build a classifier. Since there are not any non-disease gene set, in this paper we apply OCSVM (one-class support vector machines) method for one-class classification of genes to identify disease genes. Our experimental results show the superiority of our proposed method in terms of better precision, recall, and F1-measures than existing methods.

کلیدواژه‌ها [English]

  • disease gene identification
  • one-class classification
  • OCSVM(One-Class Support Vector Machine)