بهبود فرآیند استخراج، تبدیل و بارگذاری در پایگاه داده تحلیلی با کمک پردازش موازی

نویسندگان

دانشگاه تربیت دبیر شهید رجایی

چکیده

پایگاه داده تحلیلی جهت نگهداری داده ها با ساختاری مناسب برای تحلیل بکار می رود. فرآیند استخراج، تبدیل و بارگذاری عبارت است از تبدیل بعضی از داده های منبع به فرم مناسب، و انتقال آن ها به پایگاه داده تحلیلی که شامل سه مرحله کلی استخراج، تبدیل و بارگذاری داده است. در طی این مراحل، داده ها از یک یا چند پایگاه داده منبع به یک پایگاه داده تحلیلی منتقل می شوند. معمولا ساختار منبع داده (مدل رابطه ای و...) و پایگاه داده تحلیلی (شمای ستاره ای) مشخص است اما فرآیند نگاشت داده ها دارای ساختار مشخصی نیست و متناسب با داده های موجود به روش های گوناگون و با ابزارهای مختلف پیاده سازی می شود. این فرآیند از نظر هزینه و زمان، بخش عمده فرآیند ساخت پایگاه داده تحلیلی را تشکیل می دهد. از این رو روش های متعددی جهت بهبود زمان اجرای این رویه ارائه شده است. در این مقاله سعی بر این شده که با استفاده از تکنیک های موازی سازی و طراحی بهینه برای مدل استخراج، تبدیل، بارگذاری از زمان اجرای این فرآیند کاسته شود. در نتیجه این طراحی زمان اجرای پروسه حدود 29% کاهش داشته است.

کلیدواژه‌ها


عنوان مقاله [English]

Optimizing Process of Data Extraction, Transformation and Load in Data Warehouse Based on Parallel Processing

نویسنده [English]

  • Negin Daneshpour
چکیده [English]

Abstract

Data Warehouses are used to store data in a structure that facilitates data analysis. The process of Extracting, Transforming, and Loading (ETL) covers the process of retrieving required data from the source system and loading them to the data warehouse. Although the structure of source data (e.g. ER model) and DW (e.g. star schema) are usually specified, there is a clear lack of a standard model to represent the ETL scenarios. Using various tools, the ELT process is designed in many different ways based on the source and destination of data structure. The ETL process has time and cost bottlenecks in process of building DW. According to previously proposed different methods on reducing time and efficiency of the ETL process, this paper tries to propose a more efficient method. This paper represents a reduction of the execution time of the ETL process using the parallel processing techniques leading to reduction rate of 29% in execution time.

کلیدواژه‌ها [English]

  • ETL process
  • Analytical database
  • OLAP
  • Big data