تشخیص سرقت ادبی در متون علمی مبتنی بر بلوک‌بندی متن و معیار مشابهت کسینوسی

نوع مقاله : مقاله پژوهشی

نویسندگان

گروه مهندسی کامپیوتر، موسسه آموزش عالی نقش جهان، اصفهان، ایران

چکیده

در دهه اخیر با گسترش دسترسی به شبکه جهانی اینترنت، سرعت و سهولت در دسترسی به ایده‌ها، مستندات، مقالات، دست نوشته‌ها و داده‌های جمع‌آوری شده توسط دیگران افزایش یافته است. این موضوع باعث شده است که تبادل اطلاعات و افکار بین محققین و تولیدکنندگان علوم آسان‌تر شود، اما در مقابل باعث آسان شدن اعمال رونوشت غیرمجاز، خلاصه نویسی بدون ذکر منبع و در کل سرقت متون ادبی شده است. از آنجایی که دانشگاه‌ها و مراکز آموزشی، منابع علمی و پژوهشی را با سهولت در دسترس اغلب کاربران قرار می‌دهند، تشخیص میزان اصالت متون علمی در این مراکز مهم‌تر و بالطبع آن از حساسیت بیشتری برخوردار است. در این پژوهش روشی ارائه شده تا با استفاده از بلاک‌بندی قطعات اسناد، مقایسه بین قطعات مرتبط انجام شود. در روش پیشنهادی پس از دسته‌بندی اسناد به دو دسته اسناد اصلی و اسناد مشکوک، پیش‌پردازشی با هدف حذف ایست واژه‌ها و جمله‌بندی جدید صورت پذیرفته است. سپس اسناد قطعه‌بندی شده و با استفاده از شباهت کسینوسی، میزان شباهت متون با یکدیگر تعیین شده است. روش پیشنهادی در آزمون 50 سند موجود در مجموعه داده‌ها، دقت 94 درصدی را کسب کرده که به نسبت به یکی از روش‌های مشابه بهبود 2 درصدی داشته است.

کلیدواژه‌ها


عنوان مقاله [English]

Detection of plagiarism in scientific texts based on text blocking and cosine similarity criteria

نویسندگان [English]

  • Negar Majma
  • Sara Bashtin
Department of Computer Engineering, Naqsh Jahan Institute of Higher Education, Isfahan, Iran
چکیده [English]

In the last decade, with the expansion of the World Wide Web, the speed and ease of access to ideas, documents, articles, manuscripts, and data collected by others has increased. This has made the exchange of information and ideas between researchers and producers of science easier, but on the other hand, it has made it easier to apply unauthorized copies, write summaries without mentioning the source, and steal literary texts in general. Since universities and educational centers make scientific and research resources easily available to most users, recognizing the authenticity of scientific texts in these centers is more important and, of course, more sensitive. In this research, a method is presented to compare the related parts using the blocking of document parts. In the proposed method, after classifying the documents into two categories of main documents and suspicious documents, preprocessing has been done with the aim of eliminating word stops and new wording. Then the documents are segmented and using cosine similarity, the degree of similarity of the texts with each other is determined. The proposed method in the test of 50 documents in the data set has an accuracy of 94%, which is an improvement of 2% compared to one of the similar methods.

کلیدواژه‌ها [English]

  • Plagiarism
  • Recognizing the authenticity of scientific texts
  • Cosine distance
  • Block text
  • Text processing