پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی

word 906 KB 31056 79
1393 کارشناسی ارشد مهندسی کامپیوتر
قیمت: ۱۰,۲۷۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • پایان­­نامه کارشناسی ارشد رشته مهندسی کامپیوتر

    گرایش: نرم ­افزار

    چکیده

    تمرکز این پایان­نامه روی جستجوی شباهت­ های مبتنی بر گراف، در متون مربوط به زبان­ های طبیعی است. نیاز به یک روش قوی برای ارائه متون، مسئله مهمی در زمینه تشخیص پلاگاریسم است، ما در این پروژه با توجه به این نیاز، روشی قدرتمند را برای ارائه زبان طبیعی معرفی نموده و از آن در تشخیص پلاگاریسم بهره برده­ایم. برای این منظور مفهوم "فاصله اصلاح گراف" را بیان نموده و از آن برای محاسبه فاصله­ی بین دو گراف استفاده کرده­ایم. جملات توسط گراف­های وابستگی ارائه شده­اند که در آن­ها کلمات توسط وابستگی­هایشان به هم متصل شده­اند. گراف وابستگی ساختار گرامری جملات را استخراج می­کند. روش شباهت مبتنی بر گراف در مسئله تشخیص پلاگاریسم به کار برده شده است. مزیت اصلی ارائه مبتنی بر گراف، مربوط به توانایی این روش در تشخیص شباهت­های بین کلمات است. ارزیابی­ها نشان دادند که نتایج حاصل از گراف وابستگی نسبت به روش­های مقایسه مستقیم گراف­ها نتایج بهتری دارند. استفاده از فاصله اصلاح گراف برای مقایسه دو گراف منجر به بهبود نتایج گراف وابستگی می­شود و کارایی آن را بالا می­برد.

     

    کلیدواژه:  فاصله اصلاح گراف، پردازش زبان طبیعی، گراف­ های وابستگی، تشخیص پلاگاریسم

    فصل اول

    مقدمه

    برخی افراد ممکن است خواسته یا نا­خواسته از کارهای محققان استفاده کنند در حالیکه حتی نامی از نویسنده­ی اصلی اثر ذکر نکرده باشند، این عمل پلاگاریسم نامیده می­شود. پلاگاریسم عمل عمدی یا غیر­عمدی کپی کردن یا استفاده از ایده­ها و کارهای دیگران است بدون آنکه اطلاعاتی درباره منبع اصلی ذکر شده باشد. بر اساس بررسی­های صورت گرفته بر روی موضوع پلاگاریسم و تعداد مقالات بیشمار مندرج در وب و انعکاس نگرانی از وقوع آن مشخص است که اکثر مراکز آموزشی و پژوهشی در صفحات الکترونیکی خود در اقصی نقاط جهان چه در کشورهای در حال رشد آسیا و افریقا، تحت تاثیر ناشران با سابقه مجلات  پژوهشی و نیز حفظ حیثیت علمی مراکز خود به معرفی همه جانبه این پدیده ضد اخلاقی و ضد اجتماعی به عنوان یک جرم مبادرت کرده­اند. پلاگاریسم یک مشکلی در انجمن علمی است و به سرعت در حال رشد است، بدلیل آنکه  داده و اطلاعات از بین اسناد الکترونیکی و اینترنت سریع و آسان از طریق کپی و درج از آن منابع بدست می­آید. این مشکل زمانی رخ می­دهد که محتوای اسناد غیرقانونی و بدون اجازه و بدون نقل قول پیدا شود که این مشکل به عنوان پلاگاریسم شناخته شده است و پلاگاریسم می تواند  شامل طیف وسیعی از دستبردهای آگاهانه تا کپی کردن اتفاقی مطالب دیگران باشد. هدف اصلی این پایان­نامه بیان روش مبتنی بر گراف برای ارائه متن و استفاده از آن در تشخیص پلاگاریسم است. بخش­هایی که در ادامه این فصل می­آیند دلایل استفاده از این روش را بیان  نموده و به شرح مسئله­ی تشخیص پلاگاریسم می­پردازند. به علاوه یک راه­ حل برای این مسئله ارائه می­دهند. در نهایت ساختار پایان نامه معرفی و مطالبی که در فصل­های بعدی به آنها پرداخته خواهد شد، مرور خواهند شد.

    مسئله­ی پیدا کردن شباهت بین دو متن، یک مسئله معمول در زمینه­ی پردازش زبان­های طبیعی است. به منظور ارزیابی شباهت­ها بین دو متن، هر متن نیاز به روشی برای ارائه دارد. یک روش متن ساده است، که در آن یک لیست از کلمات، یک جمله را شکل می­دهند. متنِ ساده معمولا به دلیل سادگی مورد استفاده قرار می­گیرد، اما فاقد اطلاعات واضح راجع به ساختار گرامری است.

    بعضی از جنبه­های زبان با استفاده از روش­های ارائه­ی ساختاری از قبیل گراف­های وابستگی که شامل کلمات متصل به هم است، بهتر ارائه می­شوند.

    گراف­های وابستگی ساختار گرامری یک جمله را استخراج نموده، و به گستره­ی همان جمله محدود می­شوند. یکی از مزایای اصلی ارائه­ی مبتنی بر گراف این است که گراف­های وابستگی در بیشتر موارد حساس به ترتیب کلمات نیستند. این مزیت باعث می­شود که شباهت بین جملاتی که ترتیب کلمات در آنها به هم ریخته شده است، پیدا شود.

    یک ارائه­ی قویتر پایه­های بهتری را برای مشخص کردن شباهت­ها در وضعیت­های پیچیده فراهم می­کند. دو جمله­ی ارائه شده در گراف وابستگی شکل­های 1-1 و 1-2 را در نظر بگیرید. انسان باید بتواند مشخص کند که این جملات دارای معانی یکسانی هستند. با این حال، تشخیص اتوماتیک شباهت این دو جمله به دلیل جایگزینی کلمات دچار مشکل خواهد شد. اگر از ارائه متن ساده استفاده شود، تنها کلمات مشترک "به"، "خارج"، "از"، "شوت" و "توپ" خواهند بود. کلمه­ی "شوت" و "توپ" تنها کلماتی هستند که منظور جمله را می­رسانند. با دقت در گراف­های وابستگی، واضح است که شباهت ساختاری بین جملات وجود دارد.

    با افزایش میزان دسترسی به متون موجود در وب، پلاگاریسم ساده و ساده­تر شده است. میزان زیادی از متون پلاگاریسم در زمینه­ی درسی و تحصیلی سال به سال افزایش پیدا می­کنند. در نتیجه، نیاز شدیدی به تشخیص خودکار پلاگاریسم احساس می­شود.

       1-1 توضیح مسئله

    مهم­ترین بخش این پایان­نامه پیاده­سازی یک الگوریتم برای محاسبه فاصله­ی اصلاح گراف است، که شباهت بین دو گراف را محاسبه می­کند. الگوریتم مبتنی بر محاسبه­ی تعداد عملیات ویرایشی مورد نیاز برای تبدیل یک گراف به گراف دیگر است[1]. هر عمل ویرایش یک هزینه­ی ویرایش دارد، که مشخص می­کند یک عمل چقدر هزینه می­برد.

    تشخیص پلاگاریسم اتوماتیک یک زمینه­ی تحقیقاتی است که در اصل روی شباهت متنی بنا شده است. مسئله­ی بکارگیری شباهت متن مبتنی بر گراف برای تشخیص پلاگاریسم در سوال تحقیقی 1 بیان شده است.

    سوال تحقیقی 1 : آیا شباهت مبتنی بر گراف، در یک فاصله اصلاح گراف مشخص، در تشخیص پلاگاریسم قابل بکارگیری و از لحاظ محاسباتی امکان­پذیر هست؟

    سیستم­های تشخیص پلاگاریسم آزمایشی اغلب مبتنی بر ارائه­های ساده­تر متن، از قبیل تطبیق nگرام و مدل فضای بردار هستند [2 و 3]. در نتیجه، روش می­تواند نسبتا منحصر به فرد باشد. به دلیل منحصر بودن روش، بعضی از جزئیات پیاده­سازی تعریف شده نیستند. سوال تحقیقاتی 2 مسئله­ای را بیان می­کند که جزئیات الگوریتم را مشخص می­نماید.

    سوال تحقیقی 2 :  بهترین روش برای محاسبه­ی فاصله ویرایش گراف بین جملات، به ویژه از لحاظ هزینه­ی ویرایش و ارائه گراف در زمینه تشخیص پلاگاریسم چیست ؟

    به منظور ارزیابی کارایی الگوریتم محاسبه فاصله­ی ویرایش گراف، کارایی آن در مقایسه با سیستم­های آزمایشی موجود مقایسه می­شود. سوال تحقیقی 3 مسئله­ی مقایسه­ی الگوریتم با روش­های موجود را مطرح می­کند.

    سوال تحقیقی 3 :  شباهت مبتنی بر گراف با سایر روش­ها در تشخیص پلاگاریسم، از قبیل بازیابی مبتنی بر اندیس و تطبیق nگرام، چگونه مقایسه می­شود؟

        1-2 راه­ حل­ها

    اهداف زیر پاسخ به سوالاتی که در بخش قبل مطرح شدند را تضمین می­کنند.

    هدف تحقیقی 1 :  سیستم تشخیص پلاگاریسم مبتنی بر فاصله ویرایش گراف مورد آزمایش، پیاده­سازی خواهد شد. سیستم باید بتواند متون زیادی را ارزیابی کند و پلاگاریسم را در سطح جمله تشخیص دهد.

    هدف تحقیقی 2 : چند تابع برای محاسبه­ی هزینه­ی ویرایش پیاده­سازی ارائه خواهند شد. روش­های مختلف با یکدیگر مقایسه شده و سیستم­های حاصل ارزیابی می­شوند.

    هدف تحقیقی 3 :  خروجی سیستم آزمایشی با سیستم­های تشخیص پلاگاریسم موجود مقایسه می­شود. این مقایسه ارزیابی تجربی سیستم محسوب می­شود.

     

        1-3 مشکلات موجود در پیاده­سازی الگوریتم

    یکی از مهم­ترین مشکلاتی که در پیاده­سازی نرم­افزار تشخیص پلاگاریسم معنایی در زبان فارسی وجود دارد، به خود زبان فارسی برمی­گردد. همان­طور که می­دانیم زبان فارسی زبانی بسیار پیچیده است و دارای دستور زبانی با استثنائات فراوان بوده و به دلیل اشتراکاتی که با زبان عربی دارد، در کاراکترهایی که در عربی و فارسی مشترکند دچار مشکل شده و باعث می­گردد برخی موارد نادرست تشخیص داده شود.

    از طرفی برخلاف زبان انگلیسی که دارای علائم جمع محدودی است، زبان فارسی دارای علامت­های جمع زیادی می­باشد و از طرفی برخی از کلمات وقتی به حالت جمع در می­آیند شکل ظاهری آن­ها تغییر می­کند.

    همچنین در مورد افعال در زبان فارسی که تقریباً شبیه به زبان عربی است دارای اشکال مختلفی است و بسته به چندم شخص بودن تغییر می­کند. این استثنائات و هزاران مسئله شبیه این موارد که به دلیل دستور زبان غنی و پیچیده زبان فارسی است سبب می­شود که کار تشخیص پلاگاریسم را با مشکلات زیادی مواجه نماید و نیاز باشد تا جوانب زیادی را در پیاده­سازی الگوریتم مد نظر قرار دهیم.

    یکی دیگر از مشکلاتی که در زمینه تشخیص پلاگاریسم معنایی ممکن است پیش بیاید این است که تنها نمی­توان به دیکشنری مترادف­های کلمات بسنده کرد، چرا که ممکن است کاربرانی که اقدام به عمل غیرانسانی پلاگاریسم و کپی­برداری از کارهای دیگران می­کنند، در برخی موارد به جای جایگزین کردن کلمات مترادف بجای اصل آن­ها، با اندکی تغییر در ساختار و شکل ظاهری جملات، از متضاد کلمات بجای اصل آن­ها استفاده نمایند. حتی گاهی بدون جایگزین کردن کلمات می توان با اندکی تغییر در ساختار جمله­ها، جملاتی مشابه ایجاد کرد.  بنابراین ذکر این نکته مهم لازم است که پلاگاریسم معنایی را نمی­توان چیزی جدا از پلاگاریسم ساختار و یا ایده و یا حتی انواع مختلف پلاگاریسم دانست.

       1-4 ساختار پایان­نامه

    ساختار پایان­نامه به صورت زیر است:

    فصل2- تحقیقات انجام شده­ در زمینه­ی تشخیص پلاگاریسم و محاسبه فاصله ویرایش گراف را معرفی و شرح می­دهد،

    فصل3- تئوری مورد نیاز برای پیاده­سازی روش­ ارائه شده در فصل 4 را ارائه می­کند،

    فصل4- سیستم تشخیص پلاگاریسم ارائه شده در این پایان نامه را توضیح می­دهد،

    فصل5- نتایج حاصل از سیستم فعلی را با سیستم­های موجود مقایسه می­کند و مورد تحلیل و ارزیابی قرار می­دهد،

    فصل6- شامل نتیجه­گیری و کارهایی که در آینده می­توان انجام داد می­باشد.

     

     

    فصل دوم

     

    پیشینه­ی تحقیق

     

    این فصل کارهای انجام شده در زمینه­ی تشخیص پلاگاریسم را معرفی می­کند و سپس به طور خاص کارهای انجام شده در زمینه­ی روش مبتنی برگراف را توضیح داده و به معرفی روش­های محاسبه میزان شباهت بین گراف­ها می­پردازد.

    2-1  تشخیص پلاگاریسم

    این روزها فضای تقلبات علمی و مدارک بی­اعتبار بیش از بیش مطرح و بزرگ و در حال رشد است. پلاگاریسم یک مشکلی در انجمن علمی است و به سرعت در حال رشد بوده و بدلیل آنکه  داده و اطلاعات از بین اسناد الکترونیکی و اینترنت سریع و آسان از طریق کپی و درج از آن منابع بدست می آید. این مشکل زمانی رخ می­دهد که محتوای اسناد غیر قانونی و بدون اجازه و بدون نقل قول پیدا شود که این مشکل به عنوان پلاگاریسم شناخته می­شود . پلاگاریسم عمل عمدی یا غیر­عمدی کپی کردن یا استفاده از ایده ها و کارهای دیگران است بدون آنکه اطلاعاتی درباره منبع اصلی ذکر شده باشد این یک مشکل جهانی است که در مراحل مختلف زندگیمان رخ می­دهد. اخیرا در کنفرانسی درباره آفت­ های اجتماعی که گریبان گیر جوانان است, اعلام شد حدود 60 درصد دانشجویان دانشگاه­ها تقلب می­کنند. همه این امور پلاگاریسمی، یک اثر منفی روی فرایند یادگیری دارد. پلاگاریسم می­تواند یک جرم الکترونیکی باشد. موضوع پلاگاریسم یک موضوع بحرانی است که به راه­حل­هایی نیاز دارد که به وسیله­ی علوم و دانش کامپیوتر مطرح می­شود. پلاگاریسم یعنی برداشتن تمامی یا قسمتی از متن یک نویسنده­ و نام بردن به عنوان آثار خود بدون نقل قول و بدون ذکر نام نویسنده.

    همه موارد زیر بعنوان یک پلاگاریسم مطرح شده هستند:

    کپی کردن ایده­ها و کلمات از دیگران بدون نسبت دادن به آن­ها

    ضعف و کوتاهی در قرار دادن نقل قول ("  ") در عبارت نقل قول­­دار

    اطلاعات نادرست دادن درباره منبع نقل قول

    خیانت (عدم امانت­داری) ادبی در مطبوعات ( ادبیات)

    یک راه دیگر پلاگاریسم شامل پلاگاریسم ترجمه بدون ذکر منابع

    محتوای لغات شبیه متن را به کلمات متفاوتی تغییر دادن

    استفاده عقیده­های دیگران یا منابعی را که کار کرده­اند نادرست هستند و یا وجود ندارند  [4 و 5].

    تشخیص پلاگاریسم در زبان­های طبیعی با استفاده از روش­های آماری و کامپیوتری از سال 1990 میلادی و یا مطالعه بر روی مکانیزم­های تشخیص کپی در داکیومنت­های دیجیتال آغاز شد.

    در زمان­های قبل­­تر تشخیص پلاگاریسم در زبان­های طبیعی از سال 1970 میلادی با مطالعه بر­روی پلاگاریسم در کدهای برنامه­نویسی پاسکال و C آغاز شد.

    دکتر فرخ حبیب­زاده در مقاله­اش پلاگاریسم را در 2 بخش پلاگاریسم ایده­ها - افکار و پلاگاریسم  اصطلاحات - واژه ها نام برد.

    پلاگاریسم متنی و پلاگاریسم کد از جمله پلاگاریسم­هایی می باشند که بیشتر از بقیه پلاگاریسم­ها اتفاق می­افتند و به خاطر این رایج بودن به دنبال حل این مشکل می­باشیم [6].

    به طور خلاصه، پلاگاریسم می­تواند در پنج کلاس زیر دسته­بندی شود:

    پلاگاریسم کپی پیست

    جابجایی کلمات

    پلاگاریسم استیل و قالب

    پلاگاریسم مفاهیم

    پلاگاریسم ایده­ها

    به همین دلیل محققان بر آن آمدند که راه حل­های هوشمندانه و علمی را برای حل این مشکل بیابند. ابتدا از روشهای دستی برای تشخیص پلاگاریسم استفاده می­شد که به دلیل وقت گیر بودن آن کم­کم تحقیقات بر ­روی ایجاد روش­های اتوماتیک تشخیص پلاگاریسم متمرکز گردید. نرم افزارهایی برای کشف پلاگاریسم اسناد مثل Turnitin : که بیشتر دانشگاه ها از UK و USA  تصدیق و تصویب کردند و یا wcopyfind و چندین وسیله­های دیگر برای تشخیص پلاگاریسم مثل ,DIFF , SCAM , COPS  MOSS  YAP, TURNITIN, EVE.

    هیچ­گونه افرادی وجود ندارند که موضوعاتی با یک زبان و یک موضوع کاملا شبیه به هم و با یک متنِ دقیقا شبیه به هم ایجاد کنند. متن نوشته شده­ای که حاصل کار نویسندگان مختلف است باید کاملا متفاوت باشد. در چنین مواردی چنانچه از ایجاد منابع و مآخد بکار رفته خودداری شود مشکل پلاگاریسم افزایش می­یابد.

    تحقیقات اندکی در زمینه الگوهای زبانی پلاگاریسم با کامپیوتری کردن ویژگی­های متنی و تکنیک­های خودکار برای استخراج و تشخیص پلاگاریسم انجام شده است.

    یک مطالعه کیفی بر روی دانشجویان در دانشگاه فناوری مالزی انجام شد. در این آزمایش تکالیف دانشجویان مورد بررسی قرار گرفت و با چند تن از استادان با سابقه 10 تا 20 سال تدریس، مصاحبه و مذاکراتی انجام شد.

    طبقه­بندی جدیدی از انواع مختلف پلاگاریسم بود که به دو نوع تقسیم می­شود: پلاگاریسم تحت­اللفظی و پلاگاریسم هوشمند. براساس رفتارهای فردی که مرتکب پلاگاریسم می­شود.  روش­های تشخیص پلاگاریسم متعددی توسط محققان ارائه شده­اند که ما در اینجا تنها روش­ها و ابزارهای جدیدتر، کارآمدتر و مهم­تر در زمینه پلاگاریسم را که در سال­های اخیر مورد استفاده قرار گرفته­اند را معرفی می­کنیم.

    Abstract

    This thesis focuses on graph-based similarity search in natural language texts. For this purpose, the term "modification interval graph" expressed and use it to calculate the gap between two graphs have been used. Statements provided by the dependency graph in which the words are connected by their dependence. Grammatical structure of sentences extracted from the dependency graph. The similarity graph based method is applied to the problem of detecting Plagiarism. The main advantage offered based on the graph, the ability of this method to detect similarities between words. The evaluation showed that the direct comparison of the results of the dependency graph to graph the results are better. Use the graph to compare the two graphs distance correction leads to better results and efficiency in dependency graph.

    Keywords: Graph Edit Distance, Natural Language Processing, Dependency graphs, Plagiarism Detection.

  • فهرست:

    مقدمه. 2

    1-1 توضیح مسئله. 5

    1-2 راه حلها 6

    1-3 مشکلات موجود در پیادهسازی الگوریتم.. 6

    1-4 ساختار پایاننامه. 7

    پیشینهی تحقیق.. 9

    2-1  تشخیص پلاگاریسم.. 9

    2-2 ابعاد تشخیص پلاگاریسم.. 12

    2-2-1   روش مبتنی بر گرامر. 12

    2-2-2   روشهای مبتنی بر معنا 13

    2-2-3   روشهای ترکیبی.. 14

    2-2-4   روش تشخیص پلاگاریسم خارجی.. 14

    2-3  روشهای محاسبه میزان شباهت گرافها 15

    2-3-1   روش بزرگترین زیرگراف مشترک - کوچکترین سوپرگراف مشترک... 15

    2-3-2   روش مبتنی بر جستجوی فضای حالت... 17

    2-3-3   روشهای احتمالی.. 18

    3-1  تشخیص پلاگاریسم.. 23

    3-1-1   تطبیق   n گرام. 23

    3-1-2   وزندهی عبارت... 23

    3-1-3    تعمیم عبارت... 24

    3-2  گرافهای وابستگی.. 25

    3-2-1  وابستگیها 26

    3-3  فاصله ویرایش گراف... 26

    3-3-1   عملیات ویرایش.... 26

    3-3-2   مسئلهی انتساب... 27

    3-3-3   ماتریس هزینه. 28

    3-3-4   الگوریتمهای انتساب... 29

    4-1  معماری.. 32

    4-2  پیشپردازش متن.. 32

    4-2-1  پیدا کردن جملات... 33

    4-2-2  ریشهیابی کلمات... 34

    4-2-3   تشکیل گراف وابستگی.. 40

    4-3   استخراج کاندیدا 44

    4-3-1   شاخصگذاری جمله. 45

    4-3-2   استخراج جملات کاندیدا 45

    4-4   تحلیل جزئیات... 45

    4-4-1   الگوریتم فاصله ویرایش دو گراف... 48

    4-4-2   تشخیص پلاگاریسم مبتنی بر GEDارائه شده در این پروژه 49

    5-1  تشخیص پلاگاریسم جابجایی کلمات و تغییر ساختار جملات... 55

    5-1-1  تغییرات ساختاری 10 درصدی.. 56

    5-1-2  تغییرات ساختاری 50 درصدی.. 57

    5-2-2  تغییرات ساختاری 100  درصدی.. 59

    5-2  تشخیص پلاگاریسم معنایی.. 60

    5-2-1  تغییرات معنایی 10  درصدی.. 60

    نتیجه گیری و پیشنهادات... 64

    مراجع.. 67

     

    منبع:

    Fankhauser, S., K. Riesen, and H. Bunke. Speeding up graph edit distance computation through fast bipartite matching. Graph-Based Representations in Pattern Recognition, (2011)

     

    Suchomel, S., J. Kasprzak, and M. Brandejs (2012). Three way search engine queries with multi-feature document comparison for plagiarism detection. See Forneretal. (2012).

     

    Grman, J. and R. Ravas Improved implementation for _nding text similarities in large sets of data - notebook for PAN at clef 2011. See Petras et al. (2011).

     

    Asim M. El Tahir Ali, Hussam M. Dahwa Abdulla, and V´aclav Sn´aˇsel Overview and Comparison of Plagiarism Detection Tools ,  Dateso 2011, pp. 161{172, ISBN 978-80-248-2391-1.

    A. S. Bin-Habtoor and M. A.  Zaher “A Survey on Plagiarism Detection Systems  ”,  International  Journal of Computer Theory  and Engineering Vol. 4, No. 2, April 2012

     

    Sindhu.L, Bindu Baby Thomas, Sumam Mary Idicula A Study of Plagiarism Detection Tools and Technologies,  IJART, Vol. 1 Issue 1, 2011,64-70.

     

    Schleimer, S., Wilkerson, D. and Aiken, A. (2003) Winnowing: Local Algorithms for Document Fingerprinting. SIGMOD 2003, San Diego, 9-12 June 2003, 76-85.

     

    J.A. Malcolm and P.C.R. Lane, Tackling the PAN’09 External Plagiarism Detection Corpus with a Desktop Plagiarism Detector, 3rd PANWORKS-HOP. UNCOVERING PLAGIARISM, AUTHORSHIP AND SOCIAL SOFTWARE MISUSE, 2009, p. 29.

     

     C. Basile, G. Cristadoro, D. Benedetto, E. Caglioti, and M. Degli Es-posti, A plagiarism detection procedure in three steps: selection, matches and” squares”, 3rd pan workshop. Uncovering plagiarism, authorship and social software misuse, 2009, p. 19.

     

    Adam Shenker Horste Bunke, Mark Last and Abraham Kandle Graph Theoretic Techniqes For Web Content Mining, Published by World Scientific Publishing, USA 2005

     

    Ahmed Hamza Osman, Naomie Salim and Mohammed Salem Binwahlan, Plagiarism Detection Using Graph-Based Representation, Journal Of Computing, Volume 2, Issue 4, Issn 2151-9617 , April 2010.

     

    H. Bunke, On a relation between graph edit distance and maximum common subgraph, Pattern Recognition Letters (1997)

     

     H. Bunke and K. Shearer, A graph distance metric based on the maximal common subgraph, Pattern Recognition Letters, Vol.!19, 1998

     

     J.!T. L. Wang, K. Zhang, and G.-W. Chirn, Algorithms for Approximate Graph Matching, Information Sciences, Vol. 82, 1995

     

    R. C. Wilson and E. R. Hancock, Structural Matching by Discrete Relaxation, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 19, No. 6, June  1997

     

     R. Myers, R. C. Wilson, and E. R. Hancock, Bayesian Graph Edit Distance, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vo .!22, No. 6, June  2000

     

     Papineni, K., S. Roukos, T. Ward, and W. Zhu (2002). Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics, pp. Association for Computational Linguistics.

     

     Stamatatos, E.. Plagiarism detection using stopword n-grams. Journal of the American Society for Information Science and Technology(2011)

     

     Jones, K.. A statistical interpretation of term speci_city and its application in retrieval. Journal of documentation (1972)

     

     Marcus, M., M. Marcinkiewicz, and B. Santorini Building a large annotated corpus of english: The penn treebank. Computational linguistics(1993).

     

    Riesen, K. and H. Bunke  Approximate graph edit distance computation by means of bipartite graph matching. Image and Vision Computing (2009).

     

    Porter, M. F. An algorithm for suffix stripping. Program,  pp. 130- 137. (1980).

     

    Megerdoomian, K .(2004). Finite-state morphological analysis of Persian. In Proceedings of the Workshop on Computational Approaches to Arabic Script-based Languages, University of Geneva, Iran.

     

    Sheykhzadegan, J. and M. Bijankhan (2006).  The Speech databases of Persian language. In Proceedings of the 2nd Workshop on Persian Language and Computing, the University of Tehran, Tehran, Iran, pp. 247-261.

     

    Taghva, Beckley and Sadeh. A stemming algo-rithm for the Farsi language. IEEE ITCC,  pp. 158 - 162. 2005.

     

    Anvari, H. & Ahmadi Givi, H. (2006).  Persian Language Grammar (2nd Ed.). Tehran: Fatemi Publication. 

     

      A. A. Sharifloo, and M. Shamsfard, “A Bottom up Approach to Persian Stemming”, Proceedings of the Third International Joint Conference on Natural Language Processing, 2008.

     

    نرمال­ساز متون فارسی، سید مجید غفوری، سعید راحتی، محمدرضا پهلوان نژاد، علی عظیمی زاده، دانشگاه فردوسی مشهد، دانشگاه آزاد اسلامی مشهد

     


تحقیق در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, مقاله در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, پروژه دانشجویی در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, پروپوزال در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, تز دکترا در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, تحقیقات دانشجویی درباره پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, مقالات دانشجویی درباره پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, پروژه درباره پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, گزارش سمینار در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, پروژه دانشجویی در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, تحقیق دانش آموزی در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, مقاله دانش آموزی در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی, رساله دکترا در مورد پایان نامه تشخیص پلاگاریسم به کمک گراف در متون فارسی

مقطع کارشناسی ارشد ناپیوسته رشته مهندسی کامپیوتر چکیده امروزه محبوبیت سایت های شبکه های اجتماعی در بین افراد غیر قابل انکار است، سایت هایی که امکانات زیادی را برای ارتباطات بین افراد در اختیار کاربران قرار می دهند. یکی از مشکلات اساسی در آنالیز این نوع شبکه ها پیش بینی ارتباطات جدید بین افراد شبکه می باشد. روش فازی به عنوان یکی از روش های مطرح در هوش مصنوعی، راه ساده ای را برای ...

پایان نامه برای دریافت درجه کارشناسی ارشد(M.Sc) چکیده شبکه حسگر بی سیم، شبکه ای است که از تعداد زیادی گره کوچک تشکیل شده است. گره از طریق حسگرها اطلاعات محیط را دریافت می‌کند. انرژی مصرفی گره‌ها معمولاً از طریق باتری تامین می‌شود که در اکثر موارد امکان جایگزینی این باتری‌ها وجود ندارد. بنابراین توان مصرفی گره‌ها موضوع مهمی در این شبکه ها است. و استفاده از روش‌های دقیق و سریع ...

پایان نامه برای دریافت درجه کارشناسی ارشد شبکه­ های کامپیوتری فصل اول 1 مقدمه 1-1 شبکه موردی سیار چیست؟ شبکه موردی سیار[1] شبکه‌ای است که توسط میزبان‌[2]های بی‌سیم که می‌توانند سیار هم باشند تشکیل می‌شود. در این شبکه‌ها لزوما از هیچ زیرساخت پیش‌ساخته‌ای استفاده نمی‌شود. بدین معنا که هیچ زیرساختی مانند یک ایستگاه مرکزی، مسیریاب[3]، سوئیچ[4] و یا هر چیز دیگری که در دیگر شبکه‌ها از ...

پایان نامه کارشناسی ارشد رشته مهندسی کامپیوتر- نرم افزار (M.Sc) چکیده در عصر اطلاعات، وب امروزه به یکی از قدرتمند ترین و سریع ترین ابزار های ارتباطات و تعامل میان انسان ها بدل شده است. موتور های جستجو به عنوان برنامه های کاربردی وب به طور خودکار پهنه وب را پیمایش نموده و مجموعه ای از اسناد و مدارک بروز موجود را دریافت می کنند. فرآیند دریافت، ذخیره سازی، رده بندی و شاخص دهی بر ...

پایان نامه کارشناسی ارشد(M.sc) چکیده: امروزه هرزنامه[1] ها یکی از مشکلات اصلی موتور های جستجو هستند، به این دلیل که کیفیت نتایج جستجو را نامطلوب می سازند. در طول سالهای اخیر پیشرفتهای بسیاری در تشخیص صفحات جعلی وجود داشته است اما در پاسخ تکنیک های هرزنامه جدید نیز پدیدار شده اند. لازم است برای پیشی گرفتن به این حملات، تکنیک های ضد هرزنامه بهبود یابد. یک مساله عادی که ما با آن در ...

پایان‌نامه دوره کارشناسی ارشد مهندسی برق قدرت چکیده شبکه گسترده سیستم قدرت دارای تجهیزات بسیار گران قیمتی می­باشد که از جمله آن می­توان به ژنراتور، بریکر، کابل­های قدرت و ترانسفورماتور اشاره کرد. ترانسفورماتور قدرت به عنوان قلب تپنده این شبکه بوده که همواره تحت تاثیر شرایط بهره­برداری و محیطی، دچار خطاهای مختلفی شده و در برخی موارد سبب خرابی و خروج از مدار ترانسفورماتور و عدم ...

پایان­نامه ارشد جهت اخذ درجه کارشناسی ارشد چکیده بازشناسی چهره در زمینه­های بیومتریک، بینایی ماشین و تشخیص الگو بوده و دارای کاربرد گسترده­ای از جمله مسائل مربوط به سیستم­های امنیتی می­باشد. از آن­جا که عوامل مختلفی از جمله نحوه نورپردازی محیط، نویز، و ماتی تصویر در عملکرد روش‌های بازشناسی چهره کم و بیش تاثیرگذارند، لذا بررسی روش‌های رفع ماتی از تصاویر چهره مورد استفاده در ...

پایان نامه‌ی کارشناسی ارشد در رشته­ی مهندسی پزشکی بهبود روش فیلترینگ الگوی مکانی مشترک جهت ارتقاء راندمان سیستم­های واسط کامپیوتری-مغزی سیستم­های واسط کامپیوتری-مغزی سیستم­هایی هستند که می­توانند سیگنال­های الکتریکی مغزی مرتبط با تصورات حرکتی در مغز انسان را به دستورات قابل فهم کامپیوتری ترجمه کنند. لذا این قابلیت می­تواند به کمک بسیاری از بیماران حسی-حرکتی بیاید و تا حد بسیار ...

پایان نامه‌ی کارشناسی ارشد در رشته­ی مهندسی پزشکی چکیده بهبود روش فیلترینگ الگوی مکانی مشترک جهت ارتقاء راندمان سیستم­های واسط کامپیوتری-مغزی سیستم ­های واسط کامپیوتری-مغزی سیستم­هایی هستند که می­توانند سیگنال­های الکتریکی مغزی مرتبط با تصورات حرکتی در مغز انسان را به دستورات قابل فهم کامپیوتری ترجمه کنند. لذا این قابلیت می­تواند به کمک بسیاری از بیماران حسی-حرکتی بیاید و تا حد ...

پايان نامه کارشناسي ارشد رشته بيوتکنولوژي کشاورزي (M.Sc) سال تحصيلي 1386 چکيده     بيش از 139 گونه آليوم در ايران گزارش شده اند که حدود 30 گونه آن بومي خود ايران هستند . در

ثبت سفارش