ارزیابی روش‌های یادگیری کلاسیک و یادگیری عمیق در تجزیه و تحلیل احساسات داده‌های تلگرام فارسی

نوع مقاله : مقاله پژوهشی

نویسندگان

گروه آموزشی هوش مصنوعی، دانشکده مهندسی کامپیوتر، دانشگاه یزد، یزد، ایران

چکیده

امروزه اینترنت و به خصوص شبکه‌های اجتماعی مانند توییتر، فیس‌بوک و تلگرام به بستری برای تبادل ایده‌ها و به اشتراک‌گذاری نظرات کاربران تبدیل شده است. تجزیه و تحلیل احساسات بر اساس نظرات کاربران در این شبکه‌ها می‌تواند کمک شایانی در توضیح و پیش‌بینی پدیده‌های اجتماعی و همچنین یافتن محصولات یا خدمات مناسب برای افراد، شرکت‌ها و سازمان‌ها نماید. تاکنون پژوهش‌های زیادی بر روی داده‌های شبکه‌های اجتماعی به زبان انگلیسی انجام شده است؛ اما برای زبان فارسی پژوهش‌های محدودی انجام شده است. در این مقاله یک سیستم تجزیه و تحلیل احساسات بر روی داده‌های تلگرام فارسی پیشنهاد شده است. برای این منظور، چند روش‌ استخراج ویژگی شامل بردار رخداد، فراوانی اصطلاح-معکوس فراوانی سند و ماتریس تعبیه کلمات جهت بازنمایی داده‌های متنی به عددی بررسی شده ‌است. سپس جهت طبقه‌بندی داده‌ها روش‌های مختلف یادگیری ماشین کلاسیک شامل ماشین بردار پشتیبان، درخت تصمیم، K نزدیک‌ترین همسایه، بیز ساده و رگرسیون منطقی، تلفیق روش‌های کلاسیک و همچنین روش‌های یادگیری عمیق شامل شبکه عصبی عمیق، شبکه عصبی پیچشی و شبکه‌های حافظه طولانی کوتاه مدت یک‌طرفه و دوطرفه بررسی شده است. در نهایت ارزیابی و تحلیل نتایج بر روی داده‌های جمع‌آوری شده از تلگرام فارسی نشان می‌دهد که بهترین کارایی توسط روش استخراج ویژگی ماتریس تعبیه کلمات به همراه شبکه‌ حافظه طولانی کوتاه مدت دوطرفه با دقت 67/90، صحت 01/90، فراخوان 54/89 و معیار F، 77/89 درصد به دست آمده‌ است.

کلیدواژه‌ها


عنوان مقاله [English]

Evaluating Machine learning and Deep-learning methods in Sentiment Analysis on Persian Telegram Message

نویسندگان [English]

  • Fatemeh Zare Mehrjardi
  • Mahdi Yazdian-Dehkordi
  • Alimohammad Latif
Department of Computer Engineering Yazd University, Yazd, Iran
چکیده [English]

Today, the Internet, especially social networks such as Twitter, Facebook, and Telegram, has become a platform for exchanging ideas and sharing user opinions. Sentiment analysis based on user opinions in these networks can help explain and predict social phenomena and find suitable products or services for individuals, companies, and organizations. So far, a lot of research has been done on social media data in English; But limited research has been done for the Persian language. In this paper, a Sentiment analysis system on Persian Telegram data is proposed. For this purpose, several feature extraction methods including Countvectorizer, TF-IDF, and word embedding matrix have been studied to represent textual data numerically. Then, to classify the data, different classical machine learning methods including support vector machine, decision tree, K-nearest neighbor, Naïve Bayes, and logistic regression, the combination of classical methods as well as deep learning methods including deep neural network (DNN), convolutional neural network (CNN), long short-term memory network and bidirectional long short-term memory network has been investigated. Finally, the evaluation and analysis of the results on the data collected from Persian Telegram shows that the best performance has been obtained by word embedding and bidirectional long short-term memory network with an accuracy of 90.67%, precision of 90.01%, recall of 89.54% and F1 of 89.77%.

کلیدواژه‌ها [English]

  • Sentiment Analysis
  • Telegram Message
  • Machine Learning
  • Deep Learning
  • svm