یک سیستم نوین هوشمند تشخیص هویت نویسنده فارسی زبان بر اساس سبک نوشتاری - مقاله برگزیده هفدهمین کنفرانس ملی انجمن کامپیوتر ایران

نویسندگان

چکیده

پیشرفت سریع ارتباطات اینترنتی و استفاده‌ی نادرست از ناشناس بودن متون آنلاین، باعث به وجود آمدن مسائل امنیتی شده است. هویت ناشناس ابزارهای اینترنتی مانند ایمیل‌ها، وبلاگ‌ها و وب‌سایت‌ها به روش‌های ارتباط مورد علاقه‌ای برای کاربردهای جنایی تبدیل شده است. روابط سیاسی و اجتماعی جهان باعث توجه زیادی به زبان فارسی شده است. که این موضوع خود موجب فراوانی متون فارسی در اینترنت گردیده است. در این مقاله یک روش هوشمند writeprint معرفی شده است که به شناسایی یک نویسنده فارسی زبان بر اساس سبک نوشتاری او کمک می‌کند. در این تحقیق از ویژگی‌های واژگانی، نحوی، معنایی و وابسته به کاربرد، برای شناسایی هویت استفاده شده است. و کارایی انواع مختلف این ویژگی‌ها و همچنین اثرات روش‌های دسته‌بندی KNN و Delta به همراه ترکیب این روش‌ها با الگوریتم ژنتیک روی دو پایگاه داده‌ی جمع‌آوری شده بررسی شده است. در کنار سایر ویژگی‌ها برای پیاده سازی روش پیشنهادی یک pos tagger طراحی شده است که از ساختار کلمات برای تشخیص اسم، صفت و قید استفاده می‌نماید. آزمایشات انجام شده در این تحقیق نشان دادند که در بین روش‌های دسته‌بندی بررسی شده، ترکیب KNN و الگوریتم ژنتیک دقت بالاتری را در تشخیص هویت مالک اثر ادبی تولید کرد.

کلیدواژه‌ها


عنوان مقاله [English]

A Novel Intelligent Persian Authorship System based on Writing Style

نویسندگان [English]

  • Zeinab Farahmandpoor
  • Hooman Nikmehr
  • Moharram Mansoorizade
  • Omid Tabibzadeh Ghamsary
چکیده [English]

The rapid development of communication by the Internet and the misuse of the anonymity embedded in the nature of online written documents have led to serious security issues. Anonymous identity of the Internet tools such as emails, blogs, and Web sites have made them target methods of interest for criminal activities. On the other hand, world social and political relations have made a great interest in Persian language leading to the spread of Persian manuscripts in the Internet. In this paper, an intelligent writeprint technique is introduced to demonstrate a Persian authorship based on his/her writing style. In this research, we used specific features of: (1) lexical, syntactic and semantic and (2) the application for identifying the Persian writer. Moreover, we reviewed: (1) the impact of the features performance and (2) KNN and Delta classification methods combined with the genetic algorithm on a database. To make implementation of the proposed approach possible, we designed a pos-tagger to detect Persian nouns, adjectives and adverbs using the word structure. The experimental results showed that, among others, the KNN and genetic algorithm combination method is more accurate in the Persian authorship recognition.

کلیدواژه‌ها [English]

  • Authorship
  • Delta classification
  • KNN classification
  • Writing style
  • writeprint