روشی جدید برای تفکیک و طبقه‌بندی توالی‌های سرطانی و غیرسرطانی DNA با استفاده از الگوریتم‌های مبتنی بر LPC و SVD

نویسندگان

چکیده

سرطان یکی از بیماری‌هایی است که روند رو به افزایش ابتلا به آن، محققان را به مطالعه ابعاد مختلف آن ترغیب می‌کند. منشا ژنتیکی سرطان، لزوم بررسی اجزای ژنی درونی سلول را نشان می‌دهد. در این مقاله سعی شده است تا با بهره‌گیری از تکنیک‌های تحلیل توالی‌های DNA موجود، برخی مولفه‌ها و ویژگی‌های خاص ژنتیکی منحصر به فرد از توالی‌های بزرگ DNA استخراج و آشکار شوند. شبیه‌سازی الگوریتم پیشنهادی روی توالی‌های عضو خاصی از بدن انسان که از یک بانک اطلاعاتی معتبر تهیه شده است، انجام گرفته است. در الگوریتم ارائه شده از روش نگاشت منحنی Z برای تبدیل رشته‌های DNA به سیگنال بهره گرفته شده است. روش پیشنهادی ارائه شده برای تحلیل سیگنال‌های توالی‌های DNA به منظور استخراج ویژگی، مبتنی بر الگوریتم پیشگوی خطی (LPC) است که از تکنیک‌های محاسباتی ماتریس کواریانس و تجزیه مقدار منفرد (SVD) به منظور انتخاب ویژگی و کاهش ابعاد بهره می‌گیرد. با مقایسه برخی پارامترهای آماری، تفکیک و تمایز خوبی بین نمونه‌های سرطانی و غیرسرطانی مشاهده می‌شود که قابل طبقه‌بندی است. این سطح تمایز بیان‌گر مفهوم جهش بیولوژیکی و تغییرات ژنتیکی بیماری سرطان است.

کلیدواژه‌ها


عنوان مقاله [English]

An innovative approach in order for discrimination of cancer and non-cancer DNA sequences by LPC and SVD based Algorithms

نویسندگان [English]

  • Amin Khodaei
  • Behzad Mozaffary TazehKand
چکیده [English]

The growing pace of cancer has encouraged researchers to deliberate several aspects of this malignant disease. Genetic-induced nature of cancer, heighten the importance of studying intra-cell components. This paper has been carried out with the aim of making some specific and unique features clear from those long DNA sequences by employing well-established DNA sequence analysis techniques. The identical part of human body DNA sequences have been used to simulate proposing algorithm. Z-Curve mapping method has been utilized in order to conversion of DNA alphabetic strings to digital signals. This method has made use of Linear Predictive Coding (LPC) model to analyze resultant data for feature extraction. In addition, this paper is beneficiary of a certain singular value decomposition (SVD) computational approaches to select significant features for dimension reduction. Finally, statistical parameters discriminate cancerous samples from non-cancerous ones. This discrimination represents the biological mutation concept which expresses the genetic changes of cancer disease.

کلیدواژه‌ها [English]

  • Cancer
  • DNA Protein Coding Region
  • Linear Predictive Coding
  • Singular Value Decomposition
  • Support Vector Machine