بررسی مشکلات الگوریتم خوشه بندی DBSCAN و مروری بر بهبودهای ارائه‌شده برای آن

نویسندگان

دانشگاه صنعتی امیرکبیر

چکیده

خوشه‌بندی یک از تکنیک‌های مهم کشف دانش در پایگاه داده‌ است. الگوریتم‌های خوشه‌بندی مبتنی بر چگالی یکی از روش‌های اصلی برای خوشه‌بندی در داده‌کاوی هستند. عدم محدودیت به شکل خوشه‌ها، ساده و قابل‌فهم بودن از جمله مزایای این الگوریتم‌ها است. DBSCAN الگوریتم پایۀ روش‌های خوشه‌بندی مبتنی بر چگالی است. این الگوریتم قابلیت کشف خوشه‌های با اندازه و اشکال متفاوت را از حجم زیادی از داده‌ها دارد و در مقابل نویز نیز مقاوم است. علی‌رغم وجود این مزایا، این الگوریتم دارای مشکلاتی نظیر سخت بودن تعیین مقدار دقیق پارامترهای ورودی، عدم‌تشخیص خوشه‌های با چگالی متفاوت و عدم‌تشخیص صحیح خوشه‌ها در هنگام نزدیک بودن خوشه‌ها به هم نیز می‌باشد.
از سال 1996 که DBSCAN ارائه شده تا به امروز، الگوریتم‌های بسیار زیادی در جهت بهبود DBSCAN ارائه ‌شده‌اند. در این مقاله ابتدا، مشکلات الگوریتم DBSCAN بررسی می‌شوند. سپس به مرور و بررسی الگوریتم‌هایی که در جهت بهبود مشکلات الگوریتم DBSCAN ارائه ‌شده‌اند می‌پردازیم تا‌ با نقاط ضعف و قوت این الگوریتم‌ها و میزان موفقیت این الگوریتم‌ها در بهبود الگوریتم DBSCAN آشنا شویم. همچنین، با توجه به مطالعات انجام‌شده، اقدام به پیاده‌سازی برخی از این الگوریتم‌ها نموده‌ایم و آن‌ها را بر روی مجموعه داده‌های استاندارد، بر اساس معیارهای ارزیابی خوشه‌بندی تست کرده‌ایم تا بهتر بتوانیم دربارۀ این الگوریتم‌ها قضاوت کنیم.
 

کلیدواژه‌ها


عنوان مقاله [English]

A study on DBSCAN Clustering algorithm issues and a survey on its improvements

نویسندگان [English]

  • Ali Zadedehbalaei
  • Alireza Bagheri
  • Hamed Afshar
چکیده [English]

Clustering is an important knowledge discovery technique in the database. Density-based clustering algorithms are one of the main methods for clustering in data mining. These algorithms have some special features including being independent from the shape of the clusters, highly understandable and ease of use. DBSCAN is a base algorithm for density-based clustering algorithms. DBSCAN is able to detect clusters with different sizes and shapes in huge amounts of data and is also resistant to noise. Despite its advantages, this algorithm has its own drawbacks such as the difficulty in determining appropriate values for input parameters, inability to detect clusters with different density and inability to detect appropriate clusters when they are too close.
Since 1996 that DBSCAN has been introduced, many different algorithms have been proposed as improvements of DBSCAN. In this paper, firstly the drawbacks of DBSCAN algorithm are discussed. Secondly, we review and discuss DBSCAN improvement algorithms in order to know the pros and cons of each algorithm and their success in improving DBSCAN algorithm. We also implemented some of these algorithms according to our studies and tested them according to the clustering evaluation criteria on standard data sets, so that we would to be able to judge the algorithms better.

کلیدواژه‌ها [English]

  • Spatial clustering
  • DBSCAN
  • Density based
  • Different densities
  • Parameter determination
  • Spatial database