استفاده از تکنولوژی داده‌های عظیم برای نظرکاوی

نویسندگان

1 دانشگاه ولیعصر (عج) رفسنجان

2 دانشگاه فردوسی مشهد

چکیده

نظرات، نقش مهم و تعیین کننده­ای در فرایند تصمیم­گیری چه برای مشتریان و چه برای سازمان­های تجاری ایفا می‌کنند. از این رو، وجود سیستم­های خودکار نظرکاوی برای داده­های نظری موجود در وب، ضروری به نظر می‌رسد. از طرفی، با حجم بالا و رشد روزافزون داده­های نظری روی وب، فرایند نظرکاوی می‌تواند با چالشی بزرگ روبه‌رو شود؛ چرا که پردازش و تحلیل این حجم عظیم از داده­ها با تکنولوژی­های متداول، ممکن است عملی نباشد. در صورتیکه که سیستم‌های کاوش نظرات به تکنولوژی‌های داده‌های عظیم مجهز شوند، بدون نگرانی از مدیریت، ذخیره‌سازی و مدیریت حجم روزافزون داده‌های نظری، می‌توانند به کار خود ادامه دهند. با آنکه در سال‌های اخیر تحقیقات زیادی در حوزه تحلیل حسی نظرات انجام شده است، اما تلاش‌های کمی در حوزه کاوش داده‌های نظری در حیطه زبان فارسی در مقیاس بالا انجام گرفته است. از این رو، در این تحقیق، دو روش نظرکاوی برای داده­های زبان فارسی با استفاده از یک لغت­نامه حسی زبان فارسی در بستر تکنولوژی داده‌های عظیم ارائه شده­است. برای ذخیره‌سازی و پردازش داده‌های نظری از چارچوب متداول و کارای هدوپ و مدل برنامه‌نویسی نگاشت_کاهش (MapReduce) استفاده شده است. چارچوب پیشنهاد شده  برای نظرکاوی، دارای قابلیت بکارگیری و مقیاس پذیری برای بسیاری از روش‌های تحلیل حسی بر روی حجم بالای نظرات می‌باشد. علاوه بر این، در این پژوهش آزمایش‌های متعددی انجام شده است که کارایی استفاده از تکنولوژی‌های داده‌های عظیم را در موقعیت‌های مختلف مورد بررسی قرار می‌دهد. نتایج به دست آمده حاکی از آن است که چارچوب پیشنهادی برای نظرکاوی به شکلی کارا عمل کرده و نه تنها برای حجم‌های بالا بلکه در حجم‌های حدود 20 مگابایت شاهد افزایش 100 برابری در کارامدی هستیم. این ضریب در حجم‌های بالاتر بیشتر به شکل محسوس‌تری افزایش می‌یابد.

کلیدواژه‌ها


عنوان مقاله [English]

Exploiting Big Data Technology for Opinion Mining

نویسندگان [English]

  • Fatemeh Pourgholamali 1
  • Mohsen Kahani 2
  • Ehsan Asgarian 2
چکیده [English]

Reviews have an important role in decision making process either for customers or commercial organizations. Hence, it is necessary to develop methods which mine the reviews of customers automatically. This task is referred to Opinion mining or sentiment analysis. Opinion mining covers a wide range of sub-problems in text mining, natural language processing, classification, etc. However with the fast growth of opinion data on the web, the opinion mining process will face some serious problems. Storing, managing and processing such a large volume of data with the traditional approaches are very hard and in some cases impossible. In this paper, we propose two appraches for sentiment analysis of Persian reviews. These approaches are developed based on a Persian sentiment lexicon and a programming language model for distributed systems, called Mapreduce in the Hadoop framework. We examine our proposed appraches with various stations and discussed the effectiveness of the Big Data technology for the opinion mining task.

کلیدواژه‌ها [English]

  • Sentiment analysis
  • Opinion Mining
  • Big data
  • Hadoop
  • Mapreduce
  • Natural Language Processing
  • Information retrieval
  1. [1] Asgarian E., Kahani M., Sharifi S., Hesnegar: Persian sentiment wordnet. Signal and Data Processing, 15(1), pp.71-86, 2018. [2] Asgarian E., Kahani M., Sharifi S., The Impact of Sentiment Features on the Sentiment Polarity Classification in Persian Reviews, Cognitive Computation, pp. 1-19, 2017. [3] Benedetto F., Tedeschi A., Big Data Sentiment Analysis for Brand Monitoring in Social Media Streams by Cloud Computing, Sentiment Analysis and Ontology Engineering, Springer International Publishing, pp. 341-377, 2016. [4] Cui Y., Kara S., Chan K. C., Manufacturing big data ecosystem: A systematic literature review. Robotics and computer-integrated Manufacturing, 62, p. 101861, 2020. [5] Daneshpour N. Optimizing Process of Data Extraction, Transformation and Load in Data Warehouse Based on Parallel Processing. Soft Computing Journal (SCJ). 4 (2) pp. 18-31, 2016. [6] Dean J., Ghemawat S., Mapreduce: Simplified data processing on large clusters, Communications of the ACM 51(1), pp. 107-113, 2004. [7] Dipty S., Study of Sentiment Analysis Using Hadoop, Big Data Analytics. Springer, Singapore, pp. 363-376, 2018. [8] Farahmandpoor Z, Nikmehr H, Mansoorizade M, Tabibzadeh Ghamsary O. A Novel Intelligent Persian Authorship System based on Writing Style. Soft Computing Journal (SCJ), 1 (2) pp. 26-35, 2013. [9] Haratian N., Safaee A.A., Cloud services discovery through Ontology Evolution in Persian language. Soft Computing Journal (SCJ), 4 (2) pp. 84-93, 2016. [10] Hasan M.M., Popp J., Oláh J., Current landscape and influence of big data on finance. Journal of Big Data, 7(1), pp. 1-17, 2020. [11] Jena R.K., Sentiment mining in a collaborative learning environment: capitalising on big data. Behaviour & Information Technology, 38(9), pp. 986-1001, 2019. [12] Kucuktunc O., Cambazoglu B., Weber I., Ferhatosmanoglu H., A large-scale sentiment analysis for Yahoo! Answers, Proceedings of the fifth ACM international conference on Web search and data mining, ACM. pp. 633-642, 2012. [13] Khuc V., Shivade C., Ramnath R., Ramanathan, J., Towards building large scale distributed systems for twitter sentiment analysis, In Proceedings of the 27th annual ACM symposium on applied computing, pp. 459-464, 2012. [14] Lin, C., He, Y., Everson, R., Ruger, S. Weakly supervised joint sentiment-topic detection from text. IEEE Transactions on Knowledge and Data engineering, 24(6), pp. 1134-1145, 2012. [15] Liu, B. Sentiment analysis: Mining opinions, sentiments, and emotions. Cambridge university press, 2020. [16] Mihanović A., Gabelica H., Krstić Ž., Big data and sentiment analysis using KNIME_ Online reviews vs. social media, In Information and Communication Technology, Electronics and Microelectronics, pp. 1464-1468, 2014. [17] Pang B., Lee L., Vaithyanathan S., Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 79-86, 2002. [18] Park D., Lee J., Han I., The effect of on-line consumer reviews on consumer purchasing intention: The moderating role of involvement, International Journal of Electronic Commerce, 11(4), pp. 125-148, 2007. [19] Sehgal D., Agarwal A.K., Real-time Sentiment Analysis of Big Data Applications Using Twitter Data with Hadoop Framework, Soft Computing: Theories and Applications, Springer, Singapore, pp. 765-772, 2018. [20] Shayaa, S., Jaafar, N.I., Bahri, S., Sulaiman, A., Wai, P.S., Chung, Y.W., Piprani, A.Z., Al-Garadi, M.A., Sentiment analysis of big data: Methods, applications, and open challenges. IEEE Access, 6, pp. 37807-37827, 2018. [21] Turney P., Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews. In Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL), pp. 417-424, 2002. [22] Yadav, A., Vishwakarma, D.K., Sentiment analysis using deep learning architectures: a review. Artificial Intelligence Review, 53(6), pp. 4335-4385. 2020. [23] Zahedi, E., Baniasadi, Z., Saraee, M. A distributed joint sentiment and topic modeling using Spark for big opinion mining. In Electrical Engineering (ICEE), Iranian Conference on. IEEE, pp. 1475-1480, 2017.