طبقه‌بندی متون فارسی مبتنی بر شبکه‌های عصبی عمیق

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده مهندسی برق و کامپیوتر، دانشگاه تبریز، تبریز، ایران

چکیده

امروزه با توجه به رشد روزافزون حجم اسناد الکترونیکی، طبقه‌بندی متون بر اساس روش‌های مختلفی در میان محققین بازیابی اطلاعات و متون عمومیت یافته است. با توجه به اهمیت موضوع و کارهایی که در این زمینه در زبان‌های مختلف دنیا انجام گرفته است، نیاز به طبقه‌بندی متون فارسی به خوبی احساس می‌شود. به طور کلی روش‌های طبقه‌بندی متون را می‌توان به روش‌های سنتی (مبتنی بر انتخاب ویژگی و یادگیری ماشین) و روش‌های مبتنی بر یادگیری عمیق تقسیم‌بندی کرد. روش‌های مبتنی بر یادگیری عمیق به دلیل توانایی اشتراک وزن به طور قابل توجهی سبب کاهش تعداد متغیرهای آزاد آموزش‌پذیر شبکه و در نتیجه افزایش تعمیم‌پذیری شده است و نتایج بهتری به نسبت سایر روش‌ها می‌دهد. در زبان فارسی روش‌های مبتنی بر یادگیری عمیق بسیار اندکی برای طبقه‌بندی متون ارائه‌شده است. در این مقاله دو مدل شبکه عصبی عمیق شامل شبکه عصبی پیچشی ParsCNN و شبکه عصبی با حافظه بلند کوتاه- مدت دوسویه سلسه‌مراتبی با لایه توجه ParsBiLSTM برای طبقه‌بندی متون فارسی تشریح شده است. کارایی سیستم‌های مبتنی بر شبکه عصبی عمیق بر روی مجموعه داده همشهری بررسی شده و از نظر سه معیار ارزیابی دقت، فراخوانی و مقیاس-F مورد مطالعه قرار گرفته است. نتایج آزمایش‌ها نشان می‌دهد که روش ParsCNN میزان دقت 69/0، فراخوانی 7/0 و مقیاس-F 69/0؛ همچنین روش ParsBiLSTM میزان دقت 72/0، فراخوانی 73/0 و مقیاس-F 72/0 دارند که نشان‌دهنده کارایی بالاتر این روش‌ها نسبت به روش‌های طبقه‌بندی متون فارسی مورد مطالعه است.

کلیدواژه‌ها


عنوان مقاله [English]

Persian Text Classification Based on Deep Neural Networks

نویسندگان [English]

  • Mohammad-Reza Feizi-Derakhshi
  • Zeynab Mottaghinia
  • Meysam Asgari-Chenaghlu
Department of Computer Engineering, University of Tabriz, Tabriz, Iran
چکیده [English]

Nowadays, according to the growing volume of electronic documents, the classification of text has attracted the attention of information retrieval researchers. Considering the importance of text classification and the efforts done in this field in several languages in the world, the necessity of Persian text classification is understood. In general, we can classify text classification methods into two classes, including traditional methods (based on feature selection and machine learning) and methods based on deep learning. Deep learning methods, due to the ability of weight sharing, significantly reduce the number of trainable parameters and thus increase generalization and provide better results than other methods. There are a few methods based on deep learning for Persian text classification. In this study, we propose to use CNN and BLSTM with an attention layer for Persian text classification named ParsCNN and ParsBiLSTM. The experimental results on the Hamshahri dataset show that the ParsCNN method has a precision of 0.69, a recall of 0.7, and, an F-score of 0.69; Also, the ParsBiLSTM method has a precision of 0.72, a recall of 0.73 and, an F-score of 0.72, which indicates the methods based on deep Neural Networks have better performance than other approaches.

کلیدواژه‌ها [English]

  • Text classification
  • Deep Neural Networks
  • Word Vector Representation
  • Word Embedding
  • Machine Learning