تشخیص اولین لحظه حقیقت در خرید برخط با استفاده از روش‌های پیش‌پردازش داده‌ها و طبقه‌بندهای تلفیقی

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران.

چکیده

این مقاله اقدام به ارائه یک استراتژی، با هدف افزایش دقت تشخیص زودهنگام خریداران از مشتریان در حال گشت و گذار در یک فروشگاه برخط، نموده است. این روزها مردم تمایل به کاوش برخط برای پیدا کردن اقلام مورد نیاز خود و خرید از طریق تراکنش‌های برخط دارند. با این حال، تعداد خریداران واقعی هنوز در مقایسه با تعداد کل بازدیدکنندگان از این وبگاه‌ها بسیار کم است. تحلیل رفتاری، پیش‌بینی و شناسایی زودهنگام بازدیدکنندگانی که قصد خرید از فروشگاه برخط را دارند، زمینه ارائه محتوای سفارشی مناسب‌تر برای آنها را فراهم می‌آورد. از دیدگاه مدیریتی به این زمان به اصطلاح اولین لحظه حقیقت گفته می‌شود. مزیت اصلی این پیش‌بینی کاهش خطر از دست دادن کاربران با احتمال خرید بالا و افزایش نرخ تبدیل می‌باشد. به دلیل ثابت بودن چارچوب پیش‌بینی و تشخیص در داده‌کاوی، تمرکز این مقاله بر استفاده بهینه از روش‌های پیش‌پردازش، با هدف بهبود کیفیت داده‌های ورودی به الگوریتم‌های طبقه‌بندی می‌باشد. به همین دلیل، در استراتژی پیشنهادی، مجموعه‌ای از الگوریتم‌های تبدیل محتوای اسمی به عددی، نرمال‌سازی، تشخیص داده‌های پرت، انتخاب ویژگی و متوازن‌سازی بکار گرفته شده است. سپس داده‌های اصلاح شده به مجموعه‌ای از الگوریتم‌های طبقه‌بندهای مختلف، شامل درخت تصمیم C4.5 و پرسپترون چند لایه و الگوریتم‌های طبقه‌بندی تلفیقی جنگل تصادفی، Bagging و Gradient Boosting داده شده است. ارزیابی نتایج نشان می‌دهد که بیشترین مقدار دقت به دست آمده در این پژوهش با استفاده از طبقه‌بندهای تلفیقی به 94.42 % رسیده است که در مقام مقایسه با بهترین نتایج کارهای پیشین، دقت تشخیص افزایش داشته است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Detecting the First Moment Of Truth in Online Shopping Using Data Preprocessing Methods and Ensemble Classifiers

نویسندگان [English]

  • Mohsen Amir Afzali
  • Hossein Ghaffarian
Department of Computer Engineering, Faculty of Engineering, Arak University, Arak, Iran.
چکیده [English]

In this article, we present a strategy with the aim of increasing the accuracy of early detection of buyers from customers browsing in an online store. The main advantage of this detection is reducing the risk of losing users with high purchase probability and increasing the conversion rate. Due to the consistency of the prediction and diagnosis framework in data mining techniques, the focus of this article is on the optimal use of pre-processing methods, with the aim of improving the quality of input data to classification algorithms. For this reason, in the proposed strategy, we use a set of algorithms for converting nominal content into numerical, normalization, outlier data detection, feature selection and balancing. Then, we give the modified data to a set of different classification algorithms, including C4.5 decision tree and multi-layer perceptron, and combined classification algorithms of random forest, bagging and gradient boosting. The evaluation of the results shows that the highest amount of accuracy obtained in this research by using ensemble classifiers has reached 94.42%, which compared with the best results of previous works, the accuracy of diagnosis has increased.

کلیدواژه‌ها [English]

  • Online Shopping
  • First Moment of Truth
  • Data Mining
  • Pre-processing
  • Ensemble Classifier
[1] I. Kurniawan, M.F. Akbar, D.F. Saepudin, M.S. Azis, and M. Tabrani, “Improving the effectiveness of classification using the data level approach and feature selection techniques in online shoppers purchasing intention prediction,” J. Physics Conf. Series, vol. 1641, no. 012083, pp. 1-8, 2020, doi: 10.1088/1742-6596/1641/1/012083.
[2] I.O. Adam, M.D.  Alhassan, and Y. Afriyie, “What drives global B2C Ecommerce? An analysis of the effect of ICT access, human resource development and regulatory environment,” Technol. Anal.  Strateg. Manag., vol. 32, no. 7, pp. 835-850, 2020, doi: 10.1080/09537325.2020.1714579.
[3] D. Blanchard, Supply chain management best practices, Third Edition, Wiley, 2021.
[4] J. Wolny, and N. Charoensuksai, “Mapping customer journeys in multichannel decision-making,” J. Direct Data Digit. Mark. Pract., vol. 15, no. 4, pp. 317-326,  2014, doi: 10.1057/dddmp.2014.24.
[5] N. Gudigantala, P. Bicen, and M. Eom, “An examination of antecedents of conversion rates of e-commerce retailers,” Manag. Res. Rev., vol. 39, no. 1, pp. 82-114, 2016, doi: 10.1108/MRR-05-2014-0112.
[6] G. Suchacka, M. Skolimowska-Kulig, and A. Potempa, “A k-nearest neighbors method for classifying user sessions in e-commerce scenario,” J. Telecommun. Inf. Technol., pp. 64-69, 2015.
[7] C.O. Sakar, S.O. Polat, M. Katircioglu, and Y. Kastro, “Real-time prediction of online shoppers’ purchasing intention using multilayer perceptron and LSTM recurrent neural networks,” Neural Comput. Appl., vol. 31, pp. 6893-6908, 2019, doi: 10.1007/s00521-018-3523-0.
[8] UCI Machine Learning Repository, Accessed August 2023, Available: https://archive.ics.uci.edu/ml/datasets/Online+Shoppers+Purchasing+Intention+Dataset
[9] K. Baati, and M. Mohsil, “Real-time prediction of online shoppers’ purchasing intention using random forest,” in IFIP Int. Conf. Artif. Intell. Appl. Innov. 16th IFIP WG 12.5 Int. Conf. (AIAI), Neos Marmaras, Greece, 2020, Part I 16, pp. 43-51, doi: 10.1007/978-3-030-49161-1_4.
[10] M.R. Kabir, F.B. Ashraf, and R. Ajwad, “Analysis of different predicting model for online shoppers’ purchase intention from empirical data,” in 22nd Int. Conf. Comput. Inf. Technol. (ICCIT), 2019, pp. 1-6, doi: 10.1109/ICCIT48885.2019.9038521.
[11] R. Obiedat, “A comparative study of different data mining algorithms with different oversampling techniques in predicting online shopper behavior,” Int. J. Adv. Trends Comput. Sci. Eng., vol. 9, no. 3, pp. 3575-3583, 2020, doi: 10.30534/ijatcse/2020/164932020.
[12] Z. Sharifi Mehrjard, H. Momeni, and H. Adabi Ardekani, “A review of machine learning algorithms to diagnose autism using EEG signal,” Soft Comput. J., vol. 13, no. 1, pp. 2-19, 2024, doi: 10.22052/SCJ.2023.248522.1110 [In Persian].
[13] M. Mousavi, S. Hosseini, and M.R. Omidi, “Improved Deep Neural Network Algorithm for Covid-19 Detection in Internet of Things,” Soft Comput. J., vol. 12, no. 2, pp. 54-71, 2024, doi: 10.22052/SCJ.2023.248686.1117 [In Persian].
[14] E. Saberi, E. Radmand, J. Pirgazi, and A. Kermani, “Buying and selling strategy in the Iranian stock market using machine learning models along with feature selection using the Cuckoo Search algorithm,” Soft Comput. J., vol. 12, no. 2, pp: 130-145, 2024, doi: 10.22052/SCJ.2023.252793.1144 [In Persian].
[15] E.H.A. Rady and A.S. Anwar, “Prediction of kidney disease stages using data mining algorithms,” Inf. Med. Unlocked, vol.  15, pp: 1-7, 2019, doi: 10.1016/j.imu.2019.100178.
[16] S.A. Alasadi and W.S. Bhaya, “Review of data preprocessing techniques in data mining,” J. Eng. Appl. Sci., vol. 12, no. 16, pp. 4102-4107, 2017, doi: 10.36478/jeasci.2017.4102.4107.
[17] J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques, Third Edition, Morgan Kaufmann, 2012, doi: 10.1016/C2009-0-61819-5.
[18] A. Zimek and P. Filzmoser, “There and back again: Outlier detection between statistical reasoning and data mining algorithms,” Wiley Interdisciplinary Reviews: Data Mining Knowl. Discov., vol. 8, no. 6, pp. 1-37 ,2018, doi: 10.1002/widm.1280.
[19] M.M. Breunig, H.P. Kriegel, R.T. Ng, and J. Sander, “LOF: identifying density-based local outliers,” in Proc. 2000 ACM SIGMOD Int. Conf. Manag. Data, 2000, pp. 93-104, doi: 10.1145/342009.335388.
[20] C.F. Tsai, W.C. Lin, Y.H. Hu, and G.T. Yao, “Under-sampling class imbalanced datasets by combining clustering analysis and instance selection,” Inf. Sci., vol. 477, pp. 47-54, 2019, doi: 10.1016/j.ins.2018.10.029.
[21] H. Han, W.Y. Wang, and B.H. Mao, “Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning,” in Int. Conf. Intell. Comput., 2005, pp. 878-887, doi: 10.1007/11538059_91.
[22] P. Yildirim, “Filter based feature selection methods for prediction of risks in hepatitis disease,” Int. J. Mach. Learn. Comput., vol.  5, no. 4, pp. 258-263, 2015, doi: 10.7763/IJMLC.2015.V5.517.