پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

word 1 MB 31087 94
1392 کارشناسی ارشد مهندسی کامپیوتر
قیمت: ۱۲,۲۲۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • پایان‌نامه کارشناسی ارشد در رشته مهندسی کامپیوتر (نرم افزار)

    چکیده

     

    اغلب رویکردهای نوین ترجمه در حوزه ترجمه ماشینی از جمله ترجمه ماشینی آماری، ترجمه ماشینی مبتنی بر مثال و ترجمه ماشینی ترکیبی از مجموعه متون هم‌ترجمه تحت عنوان پیکره‌های متنی موازی به عنوان داده آموزشی اصلی استفاده می‌کنند. اما برای اغلب زبان‌ها پیکره‌های موازی به میزان بسیار کمی در دسترس هستند و یا مربوط به دامنه خاصی از نوشتجات می‌شوند. در طرف دیگر پیکره‌های تطبیقی قرار دارند که مواد اولیه آنها به راحتی به دست می‌آید. پیکره‌های تطبیقی شامل متون هم‌ترجمه نیستند اما در آن هر دو متن در دو زبان مختلف از نظر شباهت معیارهایی چون محتوا، تاریخ انتشار، عنوان و ... با یکدیگر قابل تطبیق هستند.

    پیکره‌ های تطبیقی شامل جملاتی هستند که می‌توانند ترجمه خوبی برای یکدیگر باشند. هدف این رساله ساخت خودکار پیکره موازی با استخراج اینگونه جملات از پیکره تطبیقی است. مدلی که در این پژوهش ارائه می‌شود از سه مرحله اصلی تشکیل می‌شود: (1) انتخاب جفت جملات کاندیدای موازی بودن با استفاده از فیلتر نسبت طول جملات و فیلتر تعداد کلمات مشترک (2) انتخاب جفت جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه و در نظر گرفتن ویژگی‌های مربوط به طول دو جمله، کلمات مشترک آنها و ویژگی‌های مبتنی بر همترازی در سطح کلمه بین دو جمله (3) بالابردن دقت جفت جملات استخراج شده با انتخاب تنها یکی از جملات جفت شده با هر جمله. این کار را می‌توان بوسیله محاسبه نزدیکی آن جمله با ترجمه جملات جفت شده از طرف مقابل توسط معیار TER و انتخاب نزدیک‌ترین جمله انجام داد.

    در انتها کارآیی مدل ارائه شده در دو بخش (1) ارزیابی طبقه‌بند آنتروپی بیشینه طراحی شده و (2) ارزیابی میزان سودمندی جفت جملات موازی استخراج شده در بهبود کیفیت ترجمه ماشینی بررسی می‌شود. 

    فصل اول

    مقدمه

    به دلیل افزایش ارتباطات متقابل منطقه‌ای و نیاز برای تبادل اطلاعات، تقاضا برای ترجمه زبان بسیار افزایش یافته است. بسیاری از نوشتجات نیاز به ترجمه دارند از جمله مستندات علمی و فنی، دستورالعمل‌های راهنما، مستندات حقوقی، کتاب‌ های درسی، بروشورهای تبلیغاتی، اخبار روزنامه‌ها و غیره؛ که ترجمه برخی از آنها سخت و چالش برانگیز است اما اکثرا خسته کننده و تکراری هستند و در عین حال به انسجام و دقت نیاز دارند. برآوردن نیازهای روز افزون ترجمه برای مترجمان حرفه‌ای دشوار است. در چنین موقعیتی ترجمه ماشینی می‌تواند به عنوان یک جایگزین به کار گرفته شود.

    ترجمه ماشینی بعد از 65 سال یکی از قدیمی‌ترین کاربردهای کامپیوتر است. در طول سال‌ها، ترجمه ماشینی مرکز توجه تحقیقات زبان‌شناسان، روان‌شناسان، فیلسوفان، دانشمندان و مهندسان علم کامپیوتر بوده است. اغراق نیست اگر بگوییم کارهای جدید در حوزه ترجمه ماشینی، به طور قابل ملاحظه‌ای در توسعه زمینه‌هایی نظیر زبان شناسی رایانه‌ای، هوش مصنوعی و پردازش زبان‌های طبیعی برنامه‌گرا، مشارکت کرده است.

    (تصاویر در فایل اصلی موجود است )

    ترجمه ماشینی را می‌توان به این صورت تعریف کرد: "ترجمه از یک زبان طبیعی (زبان مبدأ) به زبان دیگر (زبان مقصد) با استفاده از سیستم‌های کامپیوتری شده و به همراه یا بدون کمک انسان". کار پژوهشی در حوزه ترجمه ماشینی به هدف بزرگ ترجمه تمام خودکار با کیفیت بالا (قابل نشر) محدود نمی‌شود. غالبا ترجمه‌های ناهموار برای بازبینی موضوعات خارجی کافی است. تلاش‌های اخیر، در جهت ساخت کاربردهای محدودی در ترکیب با تشخیص گفتار به خصوص برای دستگاه‌های دستی می‌باشند. ترجمه ماشینی می‌تواند به عنوان پایه‌ای برای ویرایش‌های بعدی به کار گرفته شود، مترجم‌ها معمولا با ابزارهایی نظیر حافظه‌های ترجمه که از فناوری ترجمه ماشینی استفاده می‌کنند اما آنها را در کنترل خود قرار می‌دهند، استفاده می‌کنند.

    ترجمه ماشینی یکی از حوزه‌های پژوهشی «زبانشناسی رایانه‌ای» است. تا کنون روش‌های مختلفی جهت خودکار کردن ترجمه ابداع شده است، که در نوشتجات حوزه ترجمه ماشینی به صورت‌های مختلفی دسته‌بندی شده‌اند. شکل 1-1 انواع روش‌های ترجمه ماشینی موجود را در قالب دسته‌بندی که در [1] آمده است نشان می‌دهد.

    1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت[1]

    این نوع ترجمه ماشینی مبتنی بر مدخل‌های فرهنگ لغت است؛ و در آن از معادل کلمه جهت تولید ترجمه استفاده می‌شود. اولین نسل ترجمه ماشینی (از اواخر دهه 1940 تا اواسط دهه 1960) کاملا بر مبنای فرهنگ لغت‌های الکترونیک بودند. این روش همچنان تا حدی در ترجمه عبارات و نه جملات مفید است. اکثر روش‌هایی که بعدا توسعه داده شدند کم یا بیش از فرهنگ لغات دوزبانه بهره می‌گیرند [1].

    1-1-2. ترجمه ماشینی مبتنی بر قانون[2]

    (تصاویر در فایل اصلی موجود است )

    ترجمه ماشینی مبتنی بر قانون با اطلاعات ریخت شناسی، نحوی و معنایی زبان‌های مبدأ و مقصد سر و کار دارد. قوانین زبانی از این اطلاعات ساخته می‌شوند. این روش می‌تواند با پدیده‌های مختلف زبانی مقابله کند و قابل گسترش و قابل نگهداشت است، اما استثنائات موجود در دستور زبان مشکلاتی به این سیستم می‌افزاید. همچنین فرآیند پژوهشی آن نیاز به سرمایه‌گذاری زیادی دارد. هدف ترجمه ماشینی مبتنی بر قانون تبدیل ساختارهای زبان مبدأ به ساختارهای زبان مقصد است. این روش رویکردهای مختلفی دارد.

    رویکرد مستقیم[3]: کلمات زبان مبدأ بدون عبور از یک نمایش میانی ترجمه می‌شوند. در این روش به بستر متن، معنی و دامنه توجه نمی‌شود.

    رویکرد انتقالی[4]: مدل انتقالی متعلق به نسل دوم ترجمه ماشینی است (از اواسط دهه 1960 تا دهه 1980). در این مدل، زبان مبدأ به یک انتزاع که نمایشی کمتر مختص به زبان است، انتقال می‌یابد. سپس یک نمایش معادل برای زبان مقصد (با همان سطح انتزاع) با استفاده از فرهنگ لغات دوزبانه و قوانین گرامری تولید می‌شود.

    میان زبانی[5]: این روش متعلق به نسل سوم ترجمه ماشینی است. در این روش زبان مبدأ به یک زبان (نمایش) میانی تغییر شکل می‌دهد که این زبان میانی مستقل از هر دو زبان شرکت کننده (مبدأ و مقصد) در ترجمه است. سپس ترجمه برای زبان مقصد از این نمایش کمکی به دست می‌آید. از اینرو در این نوع سیستم تنها به دو ماژول تجزیه و ترکیب نیاز است. همچینن به دلیل مستقل بودن این روش از زبان‌های مبدأ و مقصد، بیشتر در ماشین‌های ترجمه چندزبانه استفاده می‌شود. این روش بر یک نمایش واحد از زبان‌های مختلف تأکید می‌کند.

    1-1-3. ترجمه ماشینی مبتنی بر دانش[6]

    این روش با واژه‌نامه‌ای مفهومی‌که یک دامنه را نشان می‌دهد سر و کار دارد. این روش شامل دو مرحله تحلیل و تولید است. اجزای پایه‌ای یک ماشین ترجمه مبتنی بر دانش عبارتند از یک آنتولوژی از مفاهیم، واژه‌نامه و گرامر زبان مبدأ برای فرآیند تحلیل، واژه‌نامه و گرامر برای زبان مقصد و قوانین نگاشت بین نحو زبان میانی و زبان‌های مبدأ و مقصد.

    1-1-4. ترجمه ماشینی مبتنی بر پیکره[7]

    رویکرد ترجمه ماشینی مبتنی بر پیکره‌ های متنی از سال 1989 ظهور پیدا کرد و به طور وسیعی در حوزه ترجمه ماشینی به آن پرداخته شد؛ و به دلیل دقت بالای این روش در ترجمه، بر دیگر روش‌ها غلبه یافت. در این روش، دانش یا مدل ترجمه به طور خودکار از پیکره‌های متنی (مجموعه متون) دوزبانه گرفته می‌شود. از آنجایی که این رویکرد با حجم زیادی از داده‌ها کار می‌کند، ترجمه ماشینی مبتنی بر پیکره نامیده شده است. برخی از انواع روش‌های مبتنی بر پیکره در ادامه شرح داده می‌شوند.

     

    ترجمه ماشینی آماری[8]

    با اینکه ایده اولیه ترجمه ماشینی آماری توسط وارن ویور در سال 1941 معرفی شد، اما از سال 1993 که این روش توسط محققان آی بی ام مدل شد به طور گسترده‌ای مورد استفاده قرار گرفت؛ به طوری‌که در حال حاضر ترجمه ماشینی آماری رایج‌ترین رویکرد در ترجمه ماشینی به شمار می‌آید. در روش ترجمه ماشینی آماری از مدل‌های آماری استفاده می‌شود که پارامترهای این مدل‌ها از متون دوزبانه یا همان «پیکره‌های موازی» استخراج می‌شوند. به عبارت دیگر سیستم ترجمه ماشینی آماری، احتمالات ترجمه را از پیکره موازی می‌آموزد و با استفاده از این احتمالات برای جملات ورودی که در فرآیند آموزش دیده نشده‌اند، ترجمه‌ای مناسب تولید می‌کند. در این روش از دو مدل عمده به نام مدل‌های مبتنی بر کلمه و مدل‌های مبتنی بر عبارت استفاده می‌شود.

    ترجمه ماشینی مبتنی بر مثال[9]

    روش های ترجمه ماشینی مبتنی بر مثال، روشهای مبتنی بر حافظه[10] نیز نامیده شده‌اند. ایده این روش از سال 1980 در ژاپن شروع شد. این نوع سیستم‌ها تلاش می‌کنند تا جمله‌ای مشابه جمله ورودی در پیکره موازی پیدا کنند، و سپس با اِعمال تغییراتی بر روی جمله ترجمه شده که قبلا ذخیره شده، ترجمه جمله ورودی را تولید کنند.

    ایده اولیه در این روش، استفاده از ترجمه‌ های انسانی موجود برای ترجمه متن‌های جدید است. لذا کافی است متون جدید به قطعه‌های کوچک شکسته شود و ترجمه معادل این قطعات، در پایگاه داده‌ای از قطعات ترجمه شده جستجو شده و ترجمه مورد نظر تولید گردد. این روش دارای محدودیت دادگان می‌باشد. جمع‌آوری مجموعه مثال‌های بسیار بزرگ نیز کل زبان را پوشش نمی دهد. بنابراین معمولا این روش برای زیر مجموعه‌های محدودی از یک زبان استفاده می‌شود.

    ترجمه ماشینی مبتنی بر متن[11]

    ترجمه ماشینی مبتنی بر متن نوعی از ترجمه ماشینی مبتنی بر پیکره است که نه به قوانین و نه به پیکره‌های موازی نیاز دارد. در عوض این روش برای اجرای الگوریتم خود به یک پیکره عظیمی از متون تک زبانه (به زبان مقصد)، یک فرهنگ لغت دوزبانه کامل و به صورت اختیاری یک پیکره تک زبانه از متون مبدأ (جهت بهبود کیفیت ترجمه) نیاز دارد. این روش یک رویکرد جدید برای ترجمه‌های ماشینی مبتنی بر پیکره است.

    1-2. ضرورت ساخت پیکره موازی

    در طول چند قرن گذشته، ماشین‌ها در بسیاری از کارهای انسان به کار گرفته شده‌اند، و اخیرا با ظهور کامپیوترهای دیجیتالی حتی کارهایی که نیاز به فکر و هوش دارند توسط ماشین‌ها انجام می‌شود. ترجمه بین زبان‌ها نیز یکی از این کارهاست، کاری که حتی انسان‌ها هم برای انجام آن نیاز به آموزش‌های ویژه دارند.

    ترجمه ماشینی سابقه بسیار طولانی دارد، اما در یکی دو دهه اخیر تحولش در مسیر جدیدی صورت گرفت- مسیری که در دیگر رشته‌های وابسته به پردازش زبان‌های طبیعی منعکس شده است. این مسیر جدید بر این فرض مبتنی است که زبان بسیار غنی و پیچیده است، در نتیجه هیچ گاه نمی توان زبان را به طور کامل در قالب مجموعه‌ای از قوانین -که بصورت یک برنامه کامپیوتری کد شده در می‌آید- خلاصه کرده و تجزیه و تحلیل کرد. در عوض، مسیر جدید در جهت توسعه یک ماشین است که قوانین ترجمه را به طور خودکار از یک پیکره بزرگ از متون ترجمه شده کشف می‌کند، و این کار را با جفت کردن ورودی و خروجی فرآیند ترجمه و با یادگیری از روی آمارهای مربوط به داده‌ها انجام می‌دهد.

    ترجمه ماشینی آماری شتاب فوق العاده‌ای را هم در جامعه پژوهشی و هم در بخش تجاری به دست آورده است. نزدیک به یک هزار مقاله آکادمیک بر روی این موضوع منتشر شده است که حدود نیمی از آن تنها مربوط به سه سال گذشته است. در همین زمان، سیستم‌های ترجمه ماشینی آماری راهشان را در بازار کار پیدا کرده‌اند، از زبان ویور، اولین شرکت ترجمه آماری محض گرفته تا سیستم‌ های آنلاین آزاد گوگل و مایکروسافت.

    همانطور که گفته شد، مرز دانش در ترجمه ماشینی برپایه رویکردهای آماری است که یک فرآیند داده محور است. در نگاه به ترجمه به عنوان یک مسئله یادگیری ماشین، الگوریتم ترجمه ماشینی آماری قوانین ترجمه را از متون ترجمه شده قبلی یاد می‌گیرد [2]. بنابراین کارآیی سیستم به شدت به کیفیت و کمیت پیکره مورد استفاده برای یادگیری بستگی دارد. عموما، متن‌های دوزبانه بزرگ‌تر منجر به کارآیی بیشتر می‌شوند. سیستم‌های ترجمه ماشینی آماری از متن‌های دوزبانه موازی برای مدل ترجمه و از پیکره‌های تک زبانه برای مدل کردن زبان مقصد به عنوان مواد آموزشی استفاده می‌کنند. برخلاف اینکه داده‌های تک زبانه کافی برای اکثر زبان‌ها وجود دارد، داده‌های موازی بسیار کمیاب هستند.

    ثابت شده است که پیکره متنی، یک منبع ضروری برای ترجمه ماشینی آماری است [3,4] همانطور که برای دیگر برنامه‌های کاربردی پردازش زبان‌های طبیعی از جمله برای ساخت و توسعه واژه‌نامه‌های دوزبانه و مجموعه اصطلاحات دوزبانه ضروری می‌باشد. با این حال غیر از تعداد کمی از زبان‌ها مانند فرانسوی-انگلیسی، انگلیسی-عربی و انگلیسی-چینی و زمینه‌های معدودی از جمله مذاکرات پارلمانی و متون حقوقی، مانند شرح مذاکرات مجلس کانادا یا اروپا [5]، و یا سازمان ملل متحد، منابع کمی باقی می‌ماند، که اغلب به دلیل هزینه‌های انسانی و مالی است که برای تولیدشان نیاز است. بعلاوه اصطلاحات مخصوص صنفی به کاررفته در اینگونه پیکره‌ها برای ترجمه‌های روزمره و یا ترجمه در دیگر زمینه‌ها مناسب نیستند؛ بنابراین نیاز شدیدی برای پیکره‌های موازی بیشتر که مناسب ترجمه‌های منطبق بر دامنه هستند احساس می‌شود.

    پیکره موازی برای ترجمه ماشینی باید در اندازه بسیار زیاد باشد – بیلیون‌ها جمله – تا بتواند موثر باشد. و به همین دلیل است که در زبان فارسی با مشکل روبه رو هستیم. به دلیل کمبود شدید مواد زبانی ذخیره شده بصورت دیجیتال و مستندات موازی برخط، ساخت پیکره موازی فارسی بسیار سخت است [6].

    (تصاویر در فایل اصلی موجود است )

     

    Abstract

    An Efficient Model for Building Parallel Corpus from Comparable Corpus

    Nowadays corpus-based machine translation is the most common used approach in machine translation systems. The essential resource for corpus-based approaches is large amount of bilingual texts (or ‘parallel corpora’). Most languages are faced with a severe shortage of these resources. So it seems necessary to build more parallel corpora. Here we aim to produce parallel corpus from comparable corpus. The raw materials for comparable corpora can be obtained easily. A comparable corpus doesn’t contain texts with their translations, but contains texts in the same genre, proportions, domains and sampling periods for a range of different languages.

    Comparable corpora contain sentences that are reasonable translation for each other. The goal of this thesis is to extract such sentences from a comparable corpus for building a parallel corpus automatically. The presented model has three main steps: (1) Selecting candidate sentence pairs by applying sentence pair length ratio filter and word overlap filter, (2) Selecting parallel sentences by Maximum Entropy classifier, using features based on length of two sentences and word overlap ratio between them, and features based on word alignment between sentences in each pair, (3) Increasing precision by selecting only one sentence among several ones paired with the sentence, this can be done by choosing the most similar sentence based on TER measure.

    Finally the model performance will be discussed in two sections: (1) evaluating the designed Maximum Entropy classifier, (2) evaluating the extracted corpora by showing that adding them to the training data of a baseline machine translation system improves its performance.

  • فهرست:

    1. مقدمه. 2

    1-1. مقدمه. 2

    1-1-1. ترجمه ماشینی مبتنی بر فرهنگ لغت... 3

    1-1-2. ترجمه ماشینی مبتنی بر قانون.. 4

    1-1-3. ترجمه ماشینی مبتنی بر دانش.... 5

    1-1-4. ترجمه ماشینی مبتنی بر پیکره. 5

    ترجمه ماشینی آماری.. 6

    ترجمه ماشینی مبتنی بر مثال.. 6

    ترجمه ماشینی مبتنی بر متن.. 7

    1-2. ضرورت ساخت پیکره موازی.. 7

    1-3. مسئله تحقیق: ساخت پیکره موازی.. 9

    1-4. هدف تحقیق: ساخت پیکره موازی از روی پیکره تطبیقی.. 10

    1-5. سرفصل‌ها 10

    1-5-1. فصل دوم: مبانی نظری.. 10

    1-5-2. فصل سوم: مروری بر تحقیقات انجام شده. 11

    1-5-3. فصل چهارم: مدل پیشنهادی.. 11

    1-5-4. فصل پنجم: ارزیابی و نتیجه گیری.. 12

    2. مبانی نظری.. 14

    2-1. پیکره. 14

    2-1-1. پیکره موازی.. 15

    2-1-2. پیکره تطبیقی.. 17

    2-2. همترازی.. 18

    2-2-1. همترازی در سطح سند.. 19

    2-2-2. همترازی در سطح جمله. 19

    2-2-3. همترازی در سطح کلمه (همترازی لغوی). 21

    همترازی لغوی با استفاده از مدل‌های آی‌بی‌ام. 22

    2-3. ارزیابی ترجمه ماشینی.. 23

    2-3-1. بلو. 23

    2-3-2. متریک NIST. 24

    2-3-3. نرخ خطای کلمه. 24

    2-3-4. نرخ خطای ترجمه (TER). 25

    3. مروری بر تحقیقات انجام شده. 28

    3-1. مقدمه. 28

    3-2. ساخت پیکره موازی از روی متون هم‌ترجمه. 28

    3-3. استخراج جملات موازی از وب... 30

    3-4. استخراج جملات موازی از پیکره‌های تطبیقی.. 32

    3-5. تشخیص جملات موازی با استفاده از طبقه‌بند آنتروپی بیشینه. 34

    3-6. ساخت پیکره موازی انگلیسی – فارسی.. 36

    4. مدل پیشنهادی.. 39

    4-1. مقدمه. 39

    4-2. انتخاب جفت جملات کاندید موازی بودن.. 40

    4-2-1. فیلتر کلمات مشترک... 41

    تبدیل کدگذاری کاراکترها 42

    مشخص کردن مرز جمله‌ها و کلمه‌ها 43

    ریشه‌یابی.. 44

    حذف کلمات پرتکرار 45

    رفع ابهام. 45

    جستجوی معانی از دیکشنری.. 46

    گروه بندی کلمات تکراری جمله به همراه تعداد رخدادشان در جمله. 46

    الگوریتم یافتن نرخ کلمات مشترک (از طرف مبدأ) 47

    4-3. انتخاب جفت جملات موازی از بین جفت جملات کاندید.. 48

    4-3-1. طبقه‌بند آنتروپی بیشینه. 48

    4-3-2. ویژگی‌های عمومی.. 49

    ویژگی‌های مبتنی بر طول دو جمله. 49

    نرخ کلمات مشترک... 50

    4-3-3. ویژگی‌های مبتنی بر همترازی در سطح کلمه یک جفت جمله. 50

    کلمات همتراز نشده 50

    باروری.. 51

    محدوده پیوسته. 52

    نمره همترازی.. 53

    4-4. بالا بردن دقت جفت جملات موازی استخراج شده. 54

    4-5. شیوه ارزیابی مدل.. 55

    5. ارزیابی و نتیجه گیری.. 58

    5-1. ارزیابی طبقه‌بند آنتروپی بیشینه. 58

    5-1-1. ارزیابی ویژگی‌ها 58

    5-1-2. حساسیت به دامنه. 60

    5-2. تنظیمات و آزمایشات ساخت پیکره موازی از پیکره تطبیقی.. 63

    5-2-1. پیکره تطبیقی مورد استفاده. 63

    پیکره تطبیقی فارسی – انگلیسی دانشگاه تهران (UTPECC) 63

    پیکره تطبیقی گرفته شده از مقالات ویکی پدیا 65

    5-2-2. پارامترهای تنظیم شده و ابزار مورد استفاده. 66

    انتخاب جفت جملات کاندید: 66

    انتخاب جفت جملات موازی: 68

    بالا بردن دقت جفت جملات استخراج شده: 69

    5-2-3. ارزیابی جملات موازی استخراج شده با استفاده از ماشین ترجمه. 69

    5-3. نتیجه گیری.. 72

    5-4. پیشنهادات آینده. 75

     

    منبع:

     

    [1]S. Tripathi and J. K. Sarkhel, “Approaches to machine translation”, Annals of Library and Information Studies, vol. 57, pp. 388-393, December 2010.

    A. Lopez, “statistical machine translation”, ACM Computing Surveys, vol. 40, no. 3, pp. 1-49, 2008.

    P. F. Brown, J. Cocke, S. A. Della-Pietra, V. J. Della-Pietra, F. Jelinek, J. D. Lafferty, R. L. Mercer and P. S. Roossin, “A statistical approach to machine translation”, Comput Linguist, vol. 16, no. 2, pp. 79-85, 1990.

    F. J. Och and H. Ney, “Discriminative training and maximum entropy models for statistical machine translation”, in 40th Annual meeting of the Association for Computational Linguistics, Philadelphia, PA, USA, pp. 295–302, 2002.

    P. Koehn, “Europarl: a parallel corpus for statistical machine translation”, in MT Summit X: the tenth machine translation summit, Phuket, Thailand, pp. 79–86, 2005.

    M. Mohaghegh, A. Sarrafzadeh and T. Moir, “Improved Language Modeling for English-Persian Statistical Machine Translation”, Proceedings of SSST-4, Fourth Workshop on Syntax and Structure in Statistical Translation (COLING 2010), Beijing, pp. 75–82, August 2010.

    Supreme Council of Information and Communication Technology. (2013). Mizan English-Persian Parallel Corpus. Tehran, I.R. Iran. Retrieved from http://dadegan.ir/catalog/mizan.

    A. Mansouri and H. Faili, “State-of-the-art English to Persian Statistical Machine Translation System”, in 16th CSI International Symposium on Artificial Intelligence and Signal Processing, pp. 174-179. IEEE, Fars, 2012.

    T. Ishisaka, K. Yamamoto, M. Utiyama and E. Sumita, “Development of a Japanese-English software manual parallel corpus”, MT Summit XII: proceedings of the twelfth machine translation summit, Ottawa, ON, Canada, pp. 254–259, 2009.

    M. T. Pilevar, A. H. Pilevar and H. Faili, “TEP: Tehran English-Persian Parallel Corpus”, In: Gelbukh, A. (eds.) Computational Linguistics and Intelligent Text Processing. LNCS, vol. 6609, pp. 68-79. Springer, Heidelberg, 2011.

    F. Jabbari, S. Bakhshaei, S. M. Mohammadzadeh Ziabary and S. Khadivi, “Developing an Open-domain English-Farsi Translation System Using AFEC: Amirkabir Bilingual Farsi-English Corpus”, Fourth Workshop on Computational Approaches to Arabic-Script-based Languages( AMTA 2012), San Diego, CA, USA, November 2012.

    J. Nie, M. Simard, P. Isabelle and R. Dur, “Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from the web”, Proceedings of the 22nd annual international ACMSIGIR conference on research and development in information retrieval (SIGIR ’99), Berkeley, CA, pp. 74–81, 1999.

    P. Resnik and N. A. Smith, “The web as a parallel corpus”, Comput Linguist, vol. 29, no. 3, pp. 349-380, 2003.

    Y. Zhang, K. Wu, J. Gao, and P. Vines, “Automatic acquisition of Chinese-English parallel corpus from the Web”, Proceedings of 28th European Conference on Information Retrieval, pages 420–431. Lecture Notes in Computer Science, Vol. 3936, Springer, January 2006.

    D. W. Oard, “Alternative approaches for cross-language text retrieval”, In AAAI symposium on cross-Language text and speech retrieval, Stanford, CA, USA, pp. 154–162, 1997.

    J. Tiedemann, "Parallel Data, Tools and Interfaces in OPUS", In Proceedings of the 8th International Conference on Language Resources

    [16]and Evaluation (LREC'2012), 2012.

    R. Zajac, S. Helmreich and K. Megerdoomian, “Black-Box/Glass-Box Evaluation in Shiraz”, Workshop on Machine Translation Evaluation at LREC-2000, Athens, Greece, 2000.

    R. S. Belvin, W. May, S. Narayanan, P. Georgiou and S. Ganjavi, “Creation of a Doctor-Patient Dialogue Corpus Using Standardized Patients”, International Conference on Language Resources and Evaluation (LREC), 2004.

    B. Qasemizadeh and S. Rahimi, “The First Parallel Multilingual Corpus of Persian: Toward a Persian BLARK”, the second workshop on Computational Approaches to Arabic Script-based Languages (CAASL-2), California, USA, 2007.

    M. Mohaghegh and A. Sarrafzadeh, “Performance evaluation of various training data in English-Persian Statistical Machine translation”, 10th International Conference on the Statistical Analysis of Textual Data (JADT2010), Rome, Italy, 2010.

    M. A. Farajian, “Pen: Parallel English-Persian News Corpus”, Proceedings of the 2011th World Congress in Computer Science, Computer Engineering and Applied Computing, 2011.

    F. Jabbari, S. Bakhshaei, S. M. Mohammadzadeh Ziabary and S. Khadivi, “Developing an Open-domain English-Farsi Translation System Using AFEC: Amirkabir Bilingual Farsi-English Corpus”, Fourth Workshop on Computational Approaches to Arabic-Script-based Languages( AMTA 2012), San Diego, CA, USA, November 2012.

    S. Abdul Rauf and H. Schwenk, “On the use of comparable corpora to improve SMT performance”, Proceedings of the 12th conference of the European Chapter of the Association for Computational Linguistics (EACL 2009), Athens, Greece, pp. 16-23, 2009.

    W. A. Gale and K. W. Church, “A program for aligning sentences in bilingual corpora”, Comput Linguist, vol. 19, no. 1, pp. 75–102, 1993.

    R. C. Moor, “Fast and accurate sentence alignment of bilingual corpora”, In S. Richardson (ed.), Machine Translation: From Research to Real Users (Proceedings, 5th Conference of the Association for Machine Translation in the Americas, Tiburon, California), pp.135–244, Springer-Verlag, Heidelberg, Germany, 2002.

    R. Nazar, “Parallel corpus alignment at the document, sentence and vocabulary levels”, Natural Language Processing, vol. 47, pp. 129-136, ISSN 1989-7553, sep. 2011.

    J. Xu, J. Gao, K. Toutanova and H. Ney, “Bayesian Semi-Supervised ChineseWord Segmentation for Statistical Machine Translation”, in Proceedings of the 22nd International Conference on Computational Linguistics (COLING '08), vol. 1, pp. 1017-1024, Association for Computational Linguistics Stroudsburg, PA, USA, 2008.

    F. J. Och and H. Ney, "A Systematic Comparison of Various Statistical Alignment Models", Computational Linguistics, vol. 29, no. 1, pp. 19-51, March 2003.

    M. Snover, B. Dorr, R. Schwartz, L. Micciulla and J. Makhoul, “A study of translation edit rate with targeted human annotation”, Proceedings of the 7th conference of the Association for Machine Translation in the Americas: visions for the future of machine translation (AMTA 2006), Cambridge, MA, USA, pp. 223–231, 2006.

    M. G. Snover, N. Madnani, B. Dorr and R. Schwartz,”TER-Plus: paraphrase, semantic, and alignment enhancements to Translation Edit Rate”, Journal of Machine Translation, vol. 23, Issue 2-3 , pp. 117-127, September 2009.

    B. Chang, “Chinese-English parallel corpus construction and its application”, in Proceedings of the Eighteenth Pacific Asia Conference on Language, Information, and Computation, pp. 283–290, 2004.

    M. Utiyama and H. Isahara, “Reliable measures for aligning Japanese-English news articles and sentences”, 41st Annual meeting of the Association for Computational Linguistics, proceedings of the conference, Sapporo, Japan, pp. 72–79, 2003.

    P. Fung, E. Prochasson and S. Shi, “Trillions of comparable documents”, Proceedings of the 3rdworkshop on building and using comparable corpora: from parallel to non-parallel corpora, Valletta, Malta, pp. 26–34, 2010.

    C. Hoang, L. A. Cuong, N. P. Thai and H. T. Bao, “Exploiting Non-Parallel Corpora for Statistical Machine Translation", Proceedings of International Conference on Computing and Communication Technologies, Research, Innovation, and Vision for the Future, pp. 1-6, 2012.

    A. Antonova and A. Misyurev, “building a web-based parallel corpus and filtering out machine-translated text”, in Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web (BUCC '11), pp. 136-144, Association for Computational Linguistics Stroudsburg, PA, USA, 2011.

    H. Masuichi, R. Flournoy, S. Kaufmann and S. Peters, “A bootstrapping method for extracting bilingual text pairs”, proceedings of the 18th international conference on computational linguistics, COLING 2000 in Europe, vol. 2, Saarbrücken, Germany, pp. 1066–1070, 2000.

    B. Zhao and S. Vogel, “Adaptive parallel sentences mining from web bilingual news collection”, Proceedings of the 2002 IEEE international conference on data mining (ICDM 2002), IEEE Computer Society, Maebashi, Japan, pp. 745–748, 2002.

    C. C. Yang and K. W. Li, “Automatic construction of English/Chinese parallel corpora”, Journal of the American Society for Information Science and Technology (JASIST), vol. 54, no. 8, pp. 730–742, 2003.

    P. Fung and P. Cheung, “Mining very-non-parallel corpora: parallel sentence and lexicon extraction via bootstrapping and EM”, Proceedings of the 2004 conference on empirical methods in natural language processing, Barcelona, Spain, pp. 57–63, 2004.

    D. Wu and P. Fung, “Inversion transduction grammar constraints for mining parallel sentences from quasi-comparable corpora”, Proceedings of the 2nd international joint conference on natural language proceedings (IJCNLP 05), lecture notes in computer science, vol. 3651, Springer, Berlin, pp. 257–268, 2005.

    D. S. Munteanu and D. Marcu, “Improving machine translation performance by exploiting non-parallel corpora”, Comput Linguist, vol. 31, no. 4, pp. 477–504, 2005.

    A. Eisele and J. Xu, “Improving machine translation performance using comparable corpora”, Proceedings of the 3rd workshop on building and using comparable corpora: from parallel to non-parallel corpora, Valletta, Malta, pp. 35–41, 2010.

    D. Munteanu, A. Fraser and D. Marcu, “Improved Machine Translation Performance via Parallel Sentence Extraction from Comparable Corpora”, In Proceedings of the Human Language Technology Conference of the North American Chapter of the Association For Computational Linguistics, pp. 265–272, Boston, MA, 2004.

    J. M. Kaufmann, “JMaxAlign: A Maximum Entropy Parallel Sentence Alignment Tool”, in Proceedings of COLING 2012: Demonstration Papers, pp. 277-288. COLING 2012, Mumbai, 2012.

    C. Chu, T. Nakazawa and S. Kurohashi, “Chinese–Japanese Parallel Sentence Extraction from Quasi–Comparable Corpora”, Proceedings of ACL 2013, Sofia, Bulgaria, 2013.

    G. Minnen, J. Carroll and D. Pearce, “Applied morphological processing of English”, Natural Language Engineering, vol. 7, no. 3, pp. 207-223, 2001.

    D. Marecek, M. Popel and Z. Zabokrtsky, “Maximum Entropy Translation Model in Dependency-Based MT Framework”, in 5th Workshop on Statistical Machine Translation and Metrics MATR, pp. 207-212. Association for Computational Linguistics, Uppsala, 2010.

    K. Taghipour, N. Afhami, S. Khadivi and S. Shiry, “A Discriminative Approach to Filter out Noisy Sentence Pairs from Bilingual Corpora”, in 5th International Symposium on Telecommunications (IST'2010), pp. 537-541. Tehran, 2010.

    P. F. Brown, V. J. Della Pietra, S. A. Della Pietra and R. L. Mercer, “The mathematics of statistical machine translation: parameter estimation”, Computational Linguistics, vol. 19, pp. 263-311, 1993.

    H. Baradaran Hashemi, A. Shakery and H. Faili, “Creating a Persian-English Comparable Corpus”, Conference on Multilingual and Multimodal Information Access Evaluation (CLEF), pp. 27-39, 2010.

    P. Koehn, H. Hoang, A. Birch, C. Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, W. Shen, C. Moran, R. Zens, C. Dyer, O. Bojar, A. Constantin and E. Herbst, “Moses: Open Source Toolkit for Statistical Machine Translation”, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.


تحقیق در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, مقاله در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, پروژه دانشجویی در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, پروپوزال در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, تز دکترا در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, تحقیقات دانشجویی درباره پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, مقالات دانشجویی درباره پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, پروژه درباره پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, گزارش سمینار در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, پروژه دانشجویی در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, تحقیق دانش آموزی در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, مقاله دانش آموزی در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی, رساله دکترا در مورد پایان نامه مدلی کارا برای ساخت پیکره متنی موازی از روی پیکره متنی تطبیقی

پایان نامه برای دریافت درجه کارشناسی ارشد ( M.A ) چکیده ادبیات تطبیقی از مهم ترین گونه های ادبی است که ما را در یافتن وجوه اشتراک و اختلاف اندیشهِهای بزرگان جهان که از نظر زمانی و مکانی از یکدیگر فاصله دارند، یاری میِرساند. از آن جا که نقد تطبیقی در ایران پژوهشی جدید است، این پژوهش با عنوان "نقد تطبیقی مکتب رمانتیسم در اشعار فریدون مشیری و تاگور هندی" بر آن است تا در این حوزه بر ...

پایان‌نامه‌ی کارشناسی ارشد در رشته‌ی مهندسی کامپیوتر- نرم‌افزار چکیده شناسایی مشخصه­ های مناسب موجود در متن جهت رفع ابهام معنایی به جرأت می­توان ادعا کرد که عصر حاضر، عصر انفجار اطلاعات است و شاید بتوان زبان را بعنوان مهمترین سد و مانع در انتقال اطلاعات دانست. بنابراین ضرورت بکارگیری ماشین در پردازش و ترجمه­ی متون تبدیل به نیازی غیر قابل انکار شده است. اما مشکلاتی که بر سر راه ...

پايان نامه مقطع کارشناسي ارشد رشته تحصيلي کارشناسي ارشد :  MBA زمستان 90 چکيده: چابکي به معناي توانايي هر سازماني براي پيش بيني تغييرات موجود در محيط کاري مي باشد. چنين سازماني با

پایان‌نامه جهت اخذ درجه کارشناسی ارشد (M.A.) رشته :جغرافیا و برنامه ریزی شهری چکیده طرح باززنده سازی یا طرح مرمتی شهر در واقع ایفا کننده ی این وظیفه است که به اتکاء شناخت روند زندگی شهر، راه توسعه ی پدیده های موجود را برای تداوم زندگی مردمان شهر پیش بینی کند. به عبارت دیگر، طرح باززنده سازی شهری - در شرایط موجود و تجارب معمول تر- به کمک روند تکاملی تاریخ شهر می آید. اگر شناخت ...

پايان نامه براي دريافت درجه کارشناسي ارشد علوم اقتصادي اسفند1392 چکيده        نقش و اهميت مفاهيمي چون " نوآوري" و"خلاقيت" در شکل گيري

پایان­نامه تحصیلی جهت اخذ درجه کارشناسی ارشد رشته: جغرافیا گرایش: برنامه ریزی توریسم چکیده این تحقیق با استفاده از روش توصیفی-تحلیلی، با بهره گیری از مطالعات کتابخانه‎ای، اسنادی همراه با مشاهدات میدانی و استخراج پرسشنامه به تحلیل پایگاههای راهنمایی و رانندگی و نقش آن در احساس امنیت گردشگری درحوزه غرب گیلان پرداخته وهدف از این تحقیق بررسی و شناخت امکانات و محدودیتهای پایگاههای ...

پایان‌نامه کارشناسی ارشد پژوهش هنر چکیده جنسیت در دوران قاجار در ایران که جامعه‌ای پیشا مدرن است مفهومی هژمونیک و یا عینیت یافته نبود تقابل دوگانه زن/مرد در این جامعه هنوز به‌درستی شکل نگرفته است بدین معنی که طیف گسترده‌ای از شکل‌های گوناگون جنسیت و حتی کنش جنسی با رویکردی مسامحه جو قابل‌فهم و بدین ترتیب قابل پذیرش است مفهوم زیبایی و نسبت دادن این مفهوم به زنانگی، با برداشت‌های ...

چکیده داستان­ کوتاه، یکی از انواع ادبیّات داستانی منثور است و شخصیّت و شخصیّت پردازی از مؤلفه های اثرگذار و مهم آن به شمار می رود. برتری بسیاری از داستان نویسان به دلیل پرداخت بهتر شخصیّت­هاست. صادق چوبک از جمله نویسندگان برجسته­ای است که با نوآوری در ادبیّات داستانی در شمار بزرگان داستان نویسی معاصر جای گرفته، مجموعه ی داستانی «چراغ آخر» یکی از آثار این نویسنده­ی خلّاق معاصر ...

پايان‌نامه براي دريافت درجه کارشناسي ارشد در رشته ­ي مديريت اجرايي دي ماه  1390 چکيده رشد روزافزون فناوري اطلاعات از يک سو، پيچيدگي سازمان هاي امروزي از سوي ديگر اين سازمان

پايان نامه تحصيلي در مقطع کارشناسي ارشد مهندسي معماري اسلامي تابستان 93 چکيده بافت هاي تاريخي با توجه به اينکه در روند رو به گسترش شهرها از گذشته تا به امروز، در بردارنده تاريخ مستند هر دوره

ثبت سفارش