تشخیص اولین لحظه حقیقت در خرید برخط با استفاده از روش‌های پیش‌پردازش داده‌ها و طبقه‌بندهای تلفیقی

نوع مقاله : مقاله پژوهشی

نویسندگان

دانشکده فنی و مهندسی، دانشگاه اراک، اراک، ایران.

چکیده

این مقاله اقدام به ارائه یک استراتژی، با هدف افزایش دقت تشخیص زودهنگام خریداران از مشتریان در حال گشت و گذار در یک فروشگاه برخط، نموده است. این روزها مردم تمایل به کاوش برخط برای پیدا کردن اقلام مورد نیاز خود و خرید از طریق تراکنش‌های برخط دارند. با این حال، تعداد خریداران واقعی هنوز در مقایسه با تعداد کل بازدیدکنندگان از این وبگاه‌ها بسیار کم است. تحلیل رفتاری، پیش‌بینی و شناسایی زودهنگام بازدیدکنندگانی که قصد خرید از فروشگاه برخط را دارند، زمینه ارائه محتوای سفارشی مناسب‌تر برای آنها را فراهم می‌آورد. از دیدگاه مدیریتی به این زمان به اصطلاح اولین لحظه حقیقت گفته می‌شود. مزیت اصلی این پیش‌بینی کاهش خطر از دست دادن کاربران با احتمال خرید بالا و افزایش نرخ تبدیل می‌باشد. به دلیل ثابت بودن چارچوب پیش‌بینی و تشخیص در داده‌کاوی، تمرکز این مقاله بر استفاده بهینه از روش‌های پیش‌پردازش، با هدف بهبود کیفیت داده‌های ورودی به الگوریتم‌های طبقه‌بندی می‌باشد. به همین دلیل، در استراتژی پیشنهادی، مجموعه‌ای از الگوریتم‌های تبدیل محتوای اسمی به عددی، نرمال‌سازی، تشخیص داده‌های پرت، انتخاب ویژگی و متوازن‌سازی بکار گرفته شده است. سپس داده‌های اصلاح شده به مجموعه‌ای از الگوریتم‌های طبقه‌بندهای مختلف، شامل درخت تصمیم C4.5 و پرسپترون چند لایه و الگوریتم‌های طبقه‌بندی تلفیقی جنگل تصادفی، Bagging و Gradient Boosting داده شده است. ارزیابی نتایج نشان می‌دهد که بیشترین مقدار دقت به دست آمده در این پژوهش با استفاده از طبقه‌بندهای تلفیقی به 94.42% رسیده است که در مقام مقایسه با بهترین نتایج کارهای پیشین، دقت تشخیص افزایش داشته است.

کلیدواژه‌ها

موضوعات


عنوان مقاله [English]

Detecting the first moment of truth in online shopping using data preprocessing methods and ensemble classifiers

نویسندگان [English]

  • Mohsen Amir Afzali
  • Hossein Ghaffarian
Department of Computer Engineering, Faculty of Engineering, Arak University, Arak, Iran.
چکیده [English]

In this article, we present a strategy with the aim of increasing the accuracy of early detection of buyers from customers browsing in an online store. Nowadays, people tend to explore online to find the items they need and buy through online transactions. However, the number of actual buyers is still very low compared to the total number of visitors to these sites. Behavioral analysis, prediction and early identification of visitors who intend to buy from the online store provide the basis for providing more suitable customized content for them. From a managerial point of view, this time is called the First Moment of Truth (FMoT). The main advantage of this precedent is reducing the risk of losing users with high purchase probability and increasing the conversion rate. Due to the consistency of the prediction and diagnosis framework in data mining, the focus of this article is on the optimal use of pre-processing methods, with the aim of improving the quality of input data to classification algorithms. For this reason, in the proposed strategy, we use a set of algorithms for converting nominal content into numerical, normalization, outlier data detection, feature selection and balancing. Then, we give the modified data to a set of different classification algorithms, including the C4.5 decision tree and multi-layer perceptron, and combined classification algorithms of random forest, bagging, and gradient boosting. The evaluation of the results shows that the highest amount of accuracy obtained in this research by using ensemble classifiers has reached 94.42%, which compared with the best results of previous works, the accuracy of diagnosis has increased.

کلیدواژه‌ها [English]

  • Online shopping
  • First moment of truth
  • Data mining
  • Preprocessing
  • Ensemble classifier
[1] I. Kurniawan, M.F. Akbar, D.F. Saepudin, M.S. Azis, and M. Tabrani, “Improving the effectiveness of classification using the data level approach and feature selection techniques in online shoppers purchasing intention prediction,” J. Physics Conf. Series, vol. 1641, no. 012083, pp. 1-8, 2020, doi: 10.1088/1742-6596/1641/1/012083.
[2] I.O. Adam, M.D.  Alhassan, and Y. Afriyie, “What drives global B2C Ecommerce? An analysis of the effect of ICT access, human resource development and regulatory environment,” Technol. Anal.  Strateg. Manag., vol. 32, no. 7, pp. 835-850, 2020, doi: 10.1080/09537325.2020.1714579.
[3] D. Blanchard, Supply chain management best practices, Third Edition, Wiley, 2021.
[4] J. Wolny, and N. Charoensuksai, “Mapping customer journeys in multichannel decision-making,” J. Direct Data Digit. Mark. Pract., vol. 15, no. 4, pp. 317-326,  2014, doi: 10.1057/dddmp.2014.24.
[5] N. Gudigantala, P. Bicen, and M. Eom, “An examination of antecedents of conversion rates of e-commerce retailers,” Manag. Res. Rev., vol. 39, no. 1, pp. 82-114, 2016, doi: 10.1108/MRR-05-2014-0112.
[6] G. Suchacka, M. Skolimowska-Kulig, and A. Potempa, “A k-nearest neighbors method for classifying user sessions in e-commerce scenario,” J. Telecommun. Inf. Technol., pp. 64-69, 2015.
[7] C.O. Sakar, S.O. Polat, M. Katircioglu, and Y. Kastro, “Real-time prediction of online shoppers’ purchasing intention using multilayer perceptron and LSTM recurrent neural networks,” Neural Comput. Appl., vol. 31, pp. 6893-6908, 2019, doi: 10.1007/s00521-018-3523-0.
[8] UCI Machine Learning Repository, Accessed August 2023, Available: https://archive.ics.uci.edu/ml/datasets/Online+Shoppers+Purchasing+Intention+Dataset
[9] K. Baati, and M. Mohsil, “Real-time prediction of online shoppers’ purchasing intention using random forest,” in IFIP Int. Conf. Artif. Intell. Appl. Innov. 16th IFIP WG 12.5 Int. Conf. (AIAI), Neos Marmaras, Greece, 2020, Part I 16, pp. 43-51, doi: 10.1007/978-3-030-49161-1_4.
[10] M.R. Kabir, F.B. Ashraf, and R. Ajwad, “Analysis of different predicting model for online shoppers’ purchase intention from empirical data,” in 22nd Int. Conf. Comput. Inf. Technol. (ICCIT), 2019, pp. 1-6, doi: 10.1109/ICCIT48885.2019.9038521.
[11] R. Obiedat, “A comparative study of different data mining algorithms with different oversampling techniques in predicting online shopper behavior,” Int. J. Adv. Trends Comput. Sci. Eng., vol. 9, no. 3, pp. 3575-3583, 2020, doi: 10.30534/ijatcse/2020/164932020.
[12] Z. Sharifi Mehrjard, H. Momeni, and H. Adabi Ardekani, “A review of machine learning algorithms to diagnose autism using EEG signal,” Soft Comput. J., vol. 13, no. 1, pp. 2-19, 2024, doi: 10.22052/SCJ.2023.248522.1110 [In Persian].
[13] M. Mousavi, S. Hosseini, and M.R. Omidi, “Improved Deep Neural Network Algorithm for Covid-19 Detection in Internet of Things,” Soft Comput. J., vol. 12, no. 2, pp. 54-71, 2024, doi: 10.22052/SCJ.2023.248686.1117 [In Persian].
[14] E. Saberi, E. Radmand, J. Pirgazi, and A. Kermani, “Buying and selling strategy in the Iranian stock market using machine learning models along with feature selection using the Cuckoo Search algorithm,” Soft Comput. J., vol. 12, no. 2, pp: 130-145, 2024, doi: 10.22052/SCJ.2023.252793.1144 [In Persian].
[15] E.H.A. Rady and A.S. Anwar, “Prediction of kidney disease stages using data mining algorithms,” Inf. Med. Unlocked, vol.  15, pp: 1-7, 2019, doi: 10.1016/j.imu.2019.100178.
[16] S.A. Alasadi and W.S. Bhaya, “Review of data preprocessing techniques in data mining,” J. Eng. Appl. Sci., vol. 12, no. 16, pp. 4102-4107, 2017, doi: 10.36478/jeasci.2017.4102.4107.
[17] J. Han, M. Kamber, and J. Pei, Data mining: concepts and techniques, Third Edition, Morgan Kaufmann, 2012, doi: 10.1016/C2009-0-61819-5.
[18] A. Zimek and P. Filzmoser, “There and back again: Outlier detection between statistical reasoning and data mining algorithms,” Wiley Interdisciplinary Reviews: Data Mining Knowl. Discov., vol. 8, no. 6, pp. 1-37 ,2018, doi: 10.1002/widm.1280.
[19] M.M. Breunig, H.P. Kriegel, R.T. Ng, and J. Sander, “LOF: identifying density-based local outliers,” in Proc. 2000 ACM SIGMOD Int. Conf. Manag. Data, 2000, pp. 93-104, doi: 10.1145/342009.335388.
[20] C.F. Tsai, W.C. Lin, Y.H. Hu, and G.T. Yao, “Under-sampling class imbalanced datasets by combining clustering analysis and instance selection,” Inf. Sci., vol. 477, pp. 47-54, 2019, doi: 10.1016/j.ins.2018.10.029.
[21] H. Han, W.Y. Wang, and B.H. Mao, “Borderline-SMOTE: a new over-sampling method in imbalanced data sets learning,” in Int. Conf. Intell. Comput., 2005, pp. 878-887, doi: 10.1007/11538059_91.
[22] P. Yildirim, “Filter based feature selection methods for prediction of risks in hepatitis disease,” Int. J. Mach. Learn. Comput., vol.  5, no. 4, pp. 258-263, 2015, doi: 10.7763/IJMLC.2015.V5.517.