پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

word 1 MB 30928 107
1392 کارشناسی ارشد مهندسی الکترونیک
قیمت قبل:۶۳,۱۰۰ تومان
قیمت با تخفیف: ۲۳,۷۰۰ تومان
دانلود فایل
  • بخشی از محتوا
  • وضعیت فهرست و منابع
  • پایان نامه کارشناسی ارشد مهندسی برق گرایش الکترونیک

     چکیده

    در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در کلمات تک سیلابی استخراج گردید. پس از آن توسط روش کاهش ویژگی LSDA، ویژگی­ها را کاهش داده و سایز ویژگی­ها را به 25 تغییر دادیم. در نهایت موثرترین ویژگی­ها برای شناسایی مشخص گردید. در این تحقیق از پایگاه داده­ای شامل کلمات تک سیلابی، که توسط گویندگان مختلفی ادا شده بود و شامل 580 ویدیو بود استفاده گردید. از 381 ویدیو برای آموزش و از 199 ویدیو برای آزمایش استفاده نمودیم. ویژگی­های استخراجی به عنوان ورودی به  شبکه عصبی دو لایه با 20 نرون در لایه میانی و یک نرون در خروجی اعمال شدند. از تابع فعالسازی تانژانت سیگموید در لایه میانی و تابع خطی در خروجی استفاده کردیم و برای آموزش شبکه از روش گرادیان نزولی با نرخ آموزش متغیر استفاده نمودیم. بهترین نرخ شناسایی 95.75 بود که از محاسبه ضرایب MFCC از 4/1 بردار ضرایب DCT بعد از اسکن زیگزاگ ماتریس ضرایب کسینوسی به دست آمد.

    کلمات کلیدی:

    لب خوانی، شناسایی مصوت، ویژگی های زمانی- فرکانسی، کاهش ابعاد ویژگی، شبکه های عصبی

    از دیر باز بشر، با این واقعیت آشنا بوده است که برای درک بهتر گفتار می­تواند به حرکات لب و دهان گوینده در حین گفتار و هنگام ادای کلمات توجه کند. احتمالاً همه ما به طور ناخودآگاه تا حدی از این جنبه غیر صوتی گفتار استفاده کرده و هنگامی که محیط شنوایی، دچار همهمه و سر و صدا و آغشته به نویز صوتی می‌شود، به حرکات لب گوینده توجه بیشتری می‌کنیم. این امر در مورد مخاطبینی که دارای نقص در سیستم شنوایی خود هستند از اهمیت بالاتری برخوردار می­باشد. ضمناً حرکات لب یا سیگنال تصویری گفتار می­تواند به طور قابل ملاحظه­ای دقت سیستم­های تشخیص گفتار صوتی را خصوصاً در محیط­های نویزی بهبود بخشد. همزمان کردن حرکات لب و صدای گفتار، برطرف کردن خطای تأخیر بین صوت و تصویر و دوبله اتوماتیک تصویری از دیگر کاربردهای این مقوله می­باشد.

    افرادی زیادی هستند که دچار آسیب در سیستم صوتی بوده و به دلیل عدم برخورداری از صدای مناسب، قادر به برقراری ارتباط با دیگران نیستند این افراد معمولاً توانایی انجام صحیح حرکات لب به شکلی که برای تکلم لازم است را داشته و در حالت ایده­آل می­توان با انجام لب­خوانی به مقصود آن­ها پی برد. گفتار بشری به دفعات به صورت صوتی و تصویری در طبیعت تکرار شده است. گفتار صوتی به شکل موج تولید شده توسط گوینده و گفتار دیداری به حرکات لب و زبان و ماهیچه­هایی که در صورت است اشاره دارد. در گفتار صوتی واحد اصلی واج[1] نامیده می­شود. در حوزه تصویری واحد اصلی از حرکات دهان ویزم[2] نامیده می­شود که کوچک‌ترین جزء دیداری صحبت است. بسیاری از صداهای صوتی هستند که از نظر دیداری مبهم هستند این صداها به کلاس مشابه­ای گروه­بندی شده که یک ویزم را نشان می­دهد. یک نگاشت چند به یک بین واج­ها و ویزم­ها هست یعنی می­توان مجموعه­ای از واج­ها را در نظر گرفت که تأثیر مشابه­ای بر روی شکل دهان دارند. در جدول­های زیر گروه­بندی ویزم­ها در زبان انگلیسی و فارسی آورده شده است [1] , [2].

    جدول 1- 1 گروه­بندی ویزم­ها در انگلیسی

    n,l

    8

    p,b,m

    1

    R

    9

    f,v

    2

    A

    10

    th,dh

    3

    E

    11

    t,d

    4

    I

    12

    k,g

    5

    O

    13

    sh,zh

    6

    U

    14

    s,z

    7

     

    جدول 1- 2 گروه­بندی ویزم­ها در زبان فارسی

    1. ف، و

    5. ر

    9. آ

    2. ث، س، ص، ز، ذ، ظ، ض

    6.ج، چ، گ، ک، ن، ت، د، ی، ط

    10. ٳ

    3. ژ، ش

    7. ای

    11. ٱ

    4. ب، پ، م

    8. ٲ

    12. او

    به طور کلی سه روش برای شناسایی صحبت وجود دارد شامل شناسایی صوتی صحبت[3]، شناسایی تصویری صحبت[4]، شناسایی صوتی و تصویری صحبت[5]، که در این­ تحقیق به شناسایی تصویری صحبت پرداخته می­­شود.

    1-2 ساختار پایان نامه

    در فصل­های مختلف این پایان نامه روش­های شناسایی دیداری صحبت بررسی شده است. در فصل اول مقدمه­ای در مورد شناسایی گفتار بیان شد. در فصل دوم به بررسی تحقیقات انجام شده در زمینه شناسایی دیداری صحبت و روش­های مختلف برای انجام این کار پرداخته شده است. در فصل سوم روش­های مختلف جداسازی دهان از بقیه قسمت­های صورت معرفی شده است تا با استفاده از این روش­ها بتوانیم علاوه برکوچک نمودن اندازه تصاویر، از پیچیدگی­ و نیز ابعاد زیاد ویژگی­ها جلوگیری نماییم. در فصل چهارم نحوه محاسبه و استخراج ویژگی­های فرکانسی - زمانی از ناحیه مورد نظر از دهان از فریم­های مختلف ویدیو و نیز عملکرد آن­ها با تغییر تعداد فریم­های انتخابی و سایز تصاویر با یکی از روش­های کاهش ویژگی نیز بررسی شده است. که این ویژگی­های استخراجی برای تشخیص به شبکه عصبی اعمال شده­اند و همچنین پایگاه داده­ای که ما در این تحقیق از آن استفاده نمودیم معرفی شده است.

     

     

     

     

     

     

     

     

    فصل دوم : مروری بر تحقیقات انجام شده

     

     

     

     

     

     

     

     

     

     

     

    2- 1 مقدمه

    شناسایی تصویری صحبت یا به عبارتی دیگر، لب خوانی شامل دو قسمت می­باشد ابتدا استخراج ویژگی از تصاویر لب و سپس طبقه­بندی (کلاسه­بندی) ویژگی­ها می­باشد. برای استخراج ویژگی­های تصویری دو روش مبتنی بر تصویر و مبتنی بر مدل را می­توان استفاده نمود. در روش مبتنی بر تصویر ویژگی­ها به طور مستقیم با اعمال تبدیل­های ریاضی مانند تبدیل فوریه[6]، تبدیل موجک[7]، تبدیل کسینوسی گسسته[8]، آنالیز مؤلفه‌های خاص[9]، آنالیز مجزا ساز خطی[10] بر روی تصاویر استخراج می­شوند. مشکل این روش­ها، ابعاد بزرگ و تکراری بودن داده­ها و حساس بودن به چرخش و جابه­جایی لب است. در روش مبتنی بر مدل، مدلی از لب ساخته شده و به وسیله مجموعه کوچکی از پارامترها توصیف می­شود همچون مدل­های شکل فعال[11]، مدل­های مرز فعال[12]، الگوهای انعطاف پذیر[13]، که مزیت این روش، بیان ویژگی­ها در ابعاد کوچک و تأثیر ناپذیری مدل از روشنایی تصویر، چرخش، اندازه و جابه­جایی لب است.

    2-2 مدل­های مرز فعال

    یکی از روش های مبتنی بر مدل که روش بالا به پایین نیز نامیده می شوند مدل کانتور فعال می باشد. پتاجان[14] احتمالاً اولین محقق برای توسعه سیستم لب خوانی بوده است [3]. مدل مرز فعال توسط منحنی باز یا بسته با تعدادی نقاط کنترل نزدیک تصویر شی­ای که می­خواهیم شکل آن را استخراج کنیم مدل می­شود. برای فرم­پذیری آن چند فاکتور انرژی در نظر گرفته می­شود و با کمینه کردن این انرژی­ها منحنی فرم لازم را به خود می­گیرد. این مدل توسط گس و همکارانش معرفی شد[4]  که به دلیل شباهت حرکت کانتور[15] به خزش مار[16]، آن­ها این مدل را مار نامیدند. مار می­تواند توسط تعدادی نقطه، انرژی کشسان داخلی[17]و یا انرژی بر اساس لبه خارجی بیان شود.

    2-2-1 تابع انرژی

    یک مار می­تواند توسط n نقطه به صورت  Vi= (xi , yi) , i=0, 1, 2, …., n-1 نمایش داده شود.

    تابع انرژی مار به صورت زیر بیان می­شود.

    E*snake=  (V(s)) ds= (V(s)) + E image (V(s)) + E con(V(s)))ds           

    رابطه (2- 1)                                                                                                                                                       

    رابطه (2- 2)E external = E image + E con                                                

    رابطه (2- 3)E internal = E cont + E curv                                                   

    که انرژی خارجی از مجموع انرژی تصویر و انرژی محدودیت خارجی[18] که توسط کاربر اعمال می­شود تشکیل شده است. انرژی داخلی مجموع انرژی کانتور مار و انرژی خمش مار[19] می­باشد.

                       E internal = (α(s)|Vs(s)|2  + β(s)|V ss(s)|2 ) /2

                                    رابطه ( 2- 4)                        = (α(s) || d (s) ||2 +β(s) ||d2 (s)||2)/2            

    مقادیر بزرگ(s)  α و(s) β انرژی داخلی مار را هنگامی­که خیلی زیاد گسترش می­یابد افزایش خواهد داد و مقادیر کوچک آن­ها محدودیت­های کمتری روی اندازه و شکل مار قرار می­دهند.

    نیروی تصویر شامل سه مؤلفه انرژی، انرژی خطوط، انرژی لبه­ها، انرژی ختم شدگی­ها می­باشد.

                          رابطه (2- 5)          E image = w line E line +  wedge E edge +  w term E term   

     که تنظیم وزن­ها، ویژگی‌های برجسته تصویر را که توسط مار فرض شده مشخص می‌کند.

    رابطه (2- 6)E line= I(x , y)                                               

    رابطه (2- 7)E edge = - | I(x,y)|2                                                           

    انرژی لبه را به صورت زیر می­توان نوشت که Gσ یک گوسی با انحراف استاندارد σ می­باشد.

    رابطه (2- 8)                                   Gσ * 2I| 2      |E edge =

    انحناء سطح خطوط در یک تصویر کمی یکنواخت شده برای مشخص کردن گوشه­ها و ختم ­شدگی­ها در تصویر استفاده می­شود. فرض کنید C(x,y)  یک نسخه یکنواخت شده از تصویر باشد به طوری­که

    رابطه (2- 9)                                       C(x , y)= Gσ * I(x , y)

    θ= arctan ( )

    رابطه (2- 10)                  Eterm= CyyCx 2 – 2Cxy CxCy +CxxCy 2 / (Cx 2 + Cy 2 )3/2

    انرژی ختم شدگی از رابطه (2- 10) به دست می­آید.

    2-2-2 حداقل سازی انرژی

    برای انطباق منحنی به کانتور باید انرژی حداقل (می­نیمم) شود به همین دلیل با استفاده از یکی از روش­های می­نیمم سازی این کار باید انجام پذیرد. در این­جا از روش شیب (گرادیان) نزولی[20] که از ساده­ترین بهینه­سازهاست استفاده شده که روابط آن در زیر بیان شده است.

    رابطه (2- 11)                                      xt+1= xt + γ df(xt)/dx

    رابطه (2- 12)yt+1 = yt + γ df(yt)/dy                                      

    γ، مقدار گام را در هر تکرار کنترل می­کند.

    رابطه (2- 13)                        t+1= t + γ f( t)                       

    انرژی مار را به صورت مجموع انرژی نقاط گسسته روی مار می­توان تقریب زد.

    رابطه (2- 14)                                            E* snake ( i)

    ∇E* snake ( i)

       ⇽     – ∇Esnake ( )

    معادله­های نهایی در زیر آورده شده است.

    رابطه (2- 15)                     =  – γ{winternal [α 2  / s2 + β 4  / s4] +∇Eext( ) }

    =  – γ{winternal [α 2x / s2 + β 4x / s4] + Eext( ) /  x}

    =  – γ{winternal [α 2y / s2 + β 4y / s4] + Eext( ) /  y}

    که در نهایت مقادیر نقاط روی مرز به دست خواهد آمد.

    در [5] مدل کانتور فعال به کار گرفته شده که از مجموعه­ای آموزشی شامل 4500 تصویر مربوط به حروف آلمانی که توسط 6 شخص بیان شده استفاده شده است. ابتدا تصاویر با الگوریتم[21] متداول مار برچسب خورده­اند و مارهای هم­تراز نشده به صورت دستی از پایگاه داده خارج شده­اند و هر کانتور لب به یک بردار 80 بعدی که در واقع به صورت 40 نقطه دو بعدی می‌باشد کد شده است. برای دنبال کردن[22] و یافتن لب در تصاویر جدید انرژی را که منفی مجموع تمام گرادیان­های سطح خاکستری تخمین زده شده در طول کانتور می­باشد محاسبه کرده­اند. انرژی محلی می­نیمم، تطبیقی از مدل کانتور با مرز واقعی لب را نشان می­دهد. این عمل با استفاده از گرادیان نزولی صورت گرفته چون مرز خارجی لب­ها ویژگی خیلی قوی برای دنبال کردن می­باشد. بعد از یافتن کانتور لب Eigenlips" '' محاسبه شده­اند. n مولفه خاص اول کانتورها و یا n مولفه خاص اول از ماتریس تصویر سطح خاکستری پیرامون لب را انتخاب نموده که به آن­ها  Eigenlips" '' می­گویند. میانگین و بردارهای ویژه از لب­ها به دست آورده شده است. ده مؤلفه خاص اول برای جداسازی تمام شکل­های سطح خاکستری کافی است. ماتریس سطح خاکستری کدگذاری نسبت به جابه­جایی، چرخش، مقیاس تغییر ناپذیر است اما نسبت به روشنایی تغییرپذیر است. با استفاده از طبقه­بند (کلاسه­بند) MLP [23] این تغییر پذیری می­تواند برطرف شود چون فقط یکی از ده ویژگی شدیداً به روشنایی وابسته است. از ویژگی­های صوتی و تصویری استفاده شده و به کلاسه­بند MLP اعمال و احتمال پسین[24] به دست آورده شده است. مطابق با قانون بیز[25] احتمال­ها به دست آمده و به عنوان احتمال گذر برای مدل­های مخفی مارکوف[26] استفاده شده است. در [6] از مدل کانتور فعال نمونه­گیری شده[27] برای آشکارسازی کانتور لب در دنباله­های تصویر ورودی استفاده شده است. این مدل برای تصاویر دودویی به کاربرده شده است. این مدل حلقه­ی بسته­ای از چند ضلعی به وجود آمده توسط نقاط کانتور که با چهار نیرو کار می­کند است که در شکل زیر نشان داده شده است.

    شکل 2- 1 مدل کانتور فعال نمونه­گیری شده

    Fp  نیروی فشار[28] که در جهت نیم ساز دو نقطه کنترل مجاور عمل می­کند و مقداری ثابت است.

    Fa  نیروی کشش[29] که نسبت به فاصله دو نقطه کنترل مجاور عمل می­کند.

    Fv  نیروی لرزش[30] که مقداری ثابت است و در جهت عمود بر برآیند دو نیروی قبل عمل می­کند و جهت آن در هر حلقه معکوس می­شود.

     

    Fr  نیروی دفع[31] می­باشد که هنگامی­که نقطه کنترل به مرز شی می­رسد این نیرو در جهت خلاف نیروهای دیگر عمل می­کند.

    در [7] یک مدل فرم پذیر بر اساس کانتور فعال با چهار نوع انرژی برای نقاط کنترل در نظر گرفته شده است. با ترکیب مناسب این انرژی­ها و کمینه کردن آن در دو مرحله برای استخراج لبه­های قوی و ضعیف، شکل بیرونی دهان و لب­ها و پارامترها استخراج می­گردند. در این مقاله بعد از تخمین اولیه­ی محل دهان و اصلاح آن، در دو مرحله لبه بالا و پایین دهان استخراج می­شود. به دلیل استخراج هر یک در مراحل جداگانه و نیز عدم نیاز به نزدیک بودن کانتور اولیه به لبه­های استخراج شده نسبت به تغییرات شدت لبه بالا و پایین مقاوم است.

    2- 3 مدل‌های شکل فعال

    مدل شکل فعال مبتنی بر یک الگوریتم تطبیقی تکراری است که تحت تاثیر محدودیت­های شکل قرار می­گیرد. این محدودیت­ها با توجه به مدل آماری شکل که به آن مدل توزیع نقطه­ای[32] می­گویند تعیین می­گردند. که از آمار به دست آمده از اطلاعات داده­های آموزشی که به صورت دستی نشانه­گذاری شده­اند به دست می­آید. مدل توزیع نقطه­ای کاهش فضای شکل­های معتبر لب را در مفهوم داده آموزشی توصیف می­کند و نقاط در این فضا نماینده­های فشرده­ای از شکل لب هستند که به صورت مستقیم می­توانند استفاده شوند.

    هر مدل شکل توسط مختصات نقاط مشخص شده نمایش داده می­شود. در شکل زیر یک مدل لب با 44 نقطه نشان داده شده است. (24 نقطه روی کانتور خارجی و 20 نقطه روی کانتور داخلی).

    شکل 2- 2 علامت­گذاری انجام شده بر روی لب

    ابتدا گوشه­ها به صورت دستی تعیین و سپس بقیه نقاط با فاصله­های یکسان بین آن­ها قرار می­گیرند. اگر i امین شکل مدل باxi =  (xi1 , yi1 , xi2 , yi2 ,….., xi44 , yi44 )  بیان شود دو شکل مشابه x1 و  x2 توسط می­نیمم سازی انرژی هم­تراز[33] می­شوند.

    رابطه (2- 16)                   E = (x1 – M(s,θ) [x2] – t)T w(x1 – M(s,θ)[x2] – t)

    جایی که تبدیل مقیاس با s، چرخش با θ و جابه­جایی در x , y با tx , ty نشان داده شده است.

    رابطه (2- 17)                         M(s,θ)[  =  

     ,  t = (tx1 , ty1 , ……, txN ,tyN )

    w ماتریس وزن قطری در هر نقطه است که مقادیر وزن­های آن در هر نقطه با واریانس آن نقطه نسبت عکس دارد. برای هم­ترازی از الگوریتم تکراری بیان شده در [8] استفاده شده است. بنابراین مجموعه­ای از مدل­های شکل هم­تراز شده به دست می­آید، متوسط شکل  محاسبه شده و محورهایی که بیشترین واریانس را از شکل متوسط توصیف می­کنند می­توانند توسط آنالیز مؤلفه­های خاص مشخص شوند. هر شکل می­تواند توسط رابطه زیر تقریب زده شود.

    رابطه (2- 18)                                                    =  + Psbs

     Ps=(P1 ,P2 ,…..,Pt) ماتریسی از اولین بردارهای ویژه است و bs یک بردار از وزن­های t است

    bs = (b1 ,b2 ,…..,bt) چون بردارهای ویژه متعامدند پارامترهای شکل bs می­تواند به صورت زیر محاسبه شود.

    رابطه (2- 19)                                         bs = Ps T (  –  )  

    این اجازه می­دهد که شکل­های معتبر لب به صورت فشرده نمایش داده شود. تعداد حالت­های متغیر از تعداد نقاط علامت­گذاری شده بسیار کمتر است.

    6 حالت از مدل توزیع نقطه­ای از 1144 تصویر آموزشی از پایگاه داده Av Letters  که به صورت دستی برچسب­گذاری شده­اند در شکل زیر نشان داده شده است.

    شکل  2- 3 مدل توزیع نقطه­ای، هر حالت با σ2 ± اطراف متوسط رسم شده است

    برای تطبیق تکراری مدل توزیع نقطه­ای تابع هزینه مورد نیاز است. که این تابع هزینه باید می­نیمم شود.

    رابطه (2- 20)                           e = ( g – gmean)T ( g – gmean) – bt T bt

    در تابع هزینه e، g پروفایل[34] سطح خاکستری ، gmean میانگین بردار پروفایل سطح خاکستری است.

    رابطه (2- 21)                                                     bt = PT ( g – gmean )

    پارامترها توسط bt توصیف می­شوند [9]. این روش همچنین در [10] برای استخراج پارامترهای شکل استفاده شده و به همراه شدت روشنایی به عنوان ویژگی­های تصویری صحبت استفاده شده­اند.

    در [11] یک سیستم لب خوانی اتوماتیک با استفاده از اطلاعات دیداری برای شناسایی ارقام انگلیسی مجزا از صفر تا نه ارائه شده است که از یک مدل شکل فعال چهارده نقطه­ای برای توصیف کانتور خارجی لب استفاده نموده است. که بعد از فرآیند بهینه­سازی، مجموعه پارامترهای بهینه شامل

    { xc ,yc ,s ,θ ,b0 } بدست می­آید. که xc ,yc نقطه مرکزی از مدل لب می­باشد و s فاکتور مقیاس، θ زاویه چرخش و b0 بردار وزن برای بردارهای ویژه است. که بردار وزن اطلاعات شکل را شامل می­شود و برای تشخیص شکل­های متفاوت دهان اهمیت اساسی دارد. چون تغییرات در s و θ به تنظیمات دوربین وابسته است این پارامترها نمی­توانند به بهبود عملکرد شناسایی کمک کنند. بنابراین، این دو پارامتر نرمالیزه شده، که نسبت به مقادیر به دست آمده آن­ها از تصویر اول در دنباله تصویر لب، مفیدتر واقع می­شوند. از این رو، بردار ویژگی تصویری{ snormalized , θnormalized ,b0 } برای توصیف کانتور خارجی لب استفاده شده است.

    در [12] برای استخراج اطلاعات در مورد شکل و حرکت لب­ها از مدل­های شکل فعال استفاده شده است. مدلی که در این­جا استفاده شده است شامل دو گروه اصلی اطلاعات سطح خاکستری و اطلاعات شکل می­باشد. اطلاعات شکل برای پارامتری کردن صحبت و اطلاعات سطح خاکستری برای کمک به دنبال کردن لب­ها استفاده شده است. مدل شکل فعال توسط مدلی از پروفایل سطح خاکستری اطراف کانتور لب، لب­ها را دنبال می­کند. از 27 نقطه، با بردارهای پروفایل سطح خاکستری به طول 9 که از هر نقطه می­گذرد استفاده شده است. تصاویر از پایگاه داده TULIPS1 انتخاب شده­اند. برای هر فریم، پارامترهای شکل و شدت روشنایی با مدل شکل فعال استخراج شده، مدل­ها با 20 پارامتر شکل و 10 پارامتر شدت روشنایی آموزش داده شده­اند. در [13] از مدل شکل فعال بر اساس منحنی استفاده شده است. که از 5 منحنی سهمی شکل برای نمایش لب استفاده شده است. که برای نمایش این سهمی­ها سه ضریب لازم است. در این روش نسبت به مدل توزیع نقطه­ای پارامترهای کمتری مورد نیاز است.

    2-4 مدل­های انعطاف­پذیر[35]

    در این روش ابتدا یک مدل هندسی برای لب مشخص شده و سپس یک تابع انرژی که پارامترهای مدل را به مرزهای شکل مرتبط می­کند تعریف می­شود. این تابع میزان تطبیق بین مدل و مرزهای شکل را برای هر وضعیت اندازه­گیری کرده و وضعیتی را که کمترین مقدار تابع انرژی را فراهم سازد به عنوان بهترین انطباق بر می­گزیند. از این رو جستجویی در تصویر گرادیان و پارامترهای الگو انجام می­شود تا شکل لب در هر تصویر تعیین شود. در فریم­های بعدی از شکل و موقعیت مدل، در فریم­های قبلی استفاده شده و پارامترهای هندسی تشکیل دهنده الگو به عنوان مشخصه استخراج می­شود. این روش ناحیه لب و غیر لب را بر اساس  رنگ و شدت روشنایی توسط یک مدل لب هندسی ساده جدا می­سازد[14].

    2-4-1 مدل لب

    شکل 2- 4 مدل هندسی لب

    یک مدل هندسی انعطاف­پذیر برای لب در نظر می­گیریم چون مدل هندسی اجازه می­دهد که شکل لب توسط مجموعه­ کوچکی از پارامترها توصیف شود. معادلات مربوط به مدل شکل (2- 4) به شرح زیر است.

    رابطه (2- 22)                                                y1 = h1 ( ( ) 2 )1+ δ^2  – h1

    رابطه (2- 23)                                     y2 =   (|x – sy2| – xoff )2 + h2

    x ϵ [– w ,w] و (0,0) مرکز می­باشد. s انحراف شکل لب و δ انحراف منحنی y2 از منحنی قائم را نشان می­دهند. هنگامی­که مرکز مدل در (xc ,yc) قرار می­گیرد و لب انحراف θ نسبت به مرکز مدل دارد.

    x  را با θ (y – yc) sin + θ (x – xc) cos و y را با  θ (y – yc) cos  + θ– (x – xc) sin جایگزین نموده­اند.

     در نتیجه مجموعه پارامترها که شکل لب را کنترل می­کنند توسط مجموعه­ای به صورت

     { θ xc , yc , w , h1 , h2 , xoff , δ ,s ,}=p  نشان داده شده­اند.

    2- 4-2 فرمول­بندی تابع هزینه[36]

    هدف قطعه­بندی تصویر به دو ناحیه لب و غیر لب می­باشد. اگر به هر پیکسل در تصویر یک احتمال تعلق به پیکسل لب اختصاص داده شود سپس تابع هزینه که در ذیل آمده به معیار حداکثر (ماکزیمم) احتمال منجر می­شود که می­تواند برای مشخص نمودن بخش­های پیش­زمینه و پس­زمینه استفاده شود.

    رابطه (2- 24)                             C(p) = –  

    که R1 و R2 به ترتیب ناحیه لب و غیر لب می­باشند. Prob1(x , y) احتمال پیکسل در مکان (x , y) متعلق به پیکسل­های لب است و Prob2(x , y)= 1– Prob1(x , y)  احتمال پیکسل در مکان (x , y) متعلق به پیکسل­های غیر لب می­باشد. λ پارامترهای مدل را تعیین می­کند. با لگاریتم­گیری و بسط به فضای پیوسته داریم:

     رابطه (2- 25)                              E(p) = –

    رابطه (2- 26)                 g(x , y)= log prob1(x , y) – log prob2(x , y)

    که x1(p) = xc – w cos­θ و x2(p) = xc+ w cosθ  نقاط گوشه چپ و راست لب هستند.  y1 (p;x) و y2 (p;x) نقاط مرز عمودی از خط x هستند.

    پارامترهای بهینه مدل تابع هزینه رابطه (2- 25) را می­نیمم می­کنند. در اینجا برای یافتن احتمال هر پیکسل متعلق به لب یا به ناحیه غیر لب از خوشه­بندی فازی[37] استفاده شده است.

    ناحیه بهینه هنگامی که رابطه (2-24) ماکزیمم شود به دست می­آید. ماکزیمم بودن این رابطه با می­نیمم بودن رابطه (2- 25) معادل می­باشد.

    2-4-3 بهینه­سازی پارامترهای مدل

    با استفاده از گرادیان نزولی تابع هزینه در رابطه (2- 25) می­نیمم می­شود. با مشتق گرفتن نسبت به پارامترهای مدل رابطه زیر حاصل شده است.

                     =  

            رابطه (2- 27)

    که  p1 = xc , p2 = yc , p3 = w , ….., p8 = s , p9 = θ می­باشند.

    2- 5 الگوهای انعطاف پذیر

    در [15] از الگوهای انعطاف پذیر برای مدل کردن لب استفاده شده است.

    شکل 2- 5 الگوی لب

    همان طور که در شکل بالا دیده می‌شود برای مدل کردن لب از سهمی و برای مدل کردن زبان از بیضی استفاده شده است. که معادلات مربوط به آن­ها در ذیل آورده شده است.

     

    رابطه (2- 28)                  yΓ1 (x) = (hd + ht ) (1 – )2 –  ux –  x2 ;  – w0/2 < x  < 0

                                yΓ2 (x) = (hd + ht  ) (1 – )2 + ux –  x2 ;  0 < x  <  w0/2

    yΓ3 (x) = hd (1 – )2 ;              – wi /2 < x  < wi /2

    yΓ4 (x) = hc (1 – )2 ;               – wi /2 < x  < wi /2

    yΓ5 (x) = – (hd + hc) (1 – )2 ;   –w0/2 < x  <  w0/2

    ناحیه حفره­ی دهانی بین لب پایینی و بالایی 2/3 hiwi  است. ناحیه لب­ها به صورت

    w0  R= 2/3 h0w0 + ( uw0 /12) می­باشد. پارامترها برای بیضی مدل شده برای زبان yton، که مرکز عمودی از زبان، hton ارتفاع زبان، wton  پهنای زبان هستند. مساحت قابل مشاهده از زبان /4 htonwton π است. برای سادگی تمام سهمی­ها به یک کانتور R ∂ Γϵ از الگوی انعطاف­پذیر گروه­بندی می­شوند.    

    رابطه (2- 29)                                         ( ) = ( x , yΓ (x) )T = (x( ) ,y( ) )T

    که ϵ [0,1] و N گره­ که,…..,N} 1} n ϵ .

    الگوی انعطاف­پذیر سعی در می­نیمم سازی انرژی دارد. انرژی­ها می­توانند وابسته به دره­ها[38] یا قله­های نواحی در تصویر تعریف شوند.                                                                                                                                              

     رابطه (2- 30)                                                            Ev =   ( ) dA

    یا روی لبه­های تصویر به شکل رابطه (2- 31) تعریف شود.

     رابطه (2- 31)                                                   Ee =   ( ) d  

    e ( ) , Фv ( Ф پتانسیل­های لبه و دره­ها از تصویر هستند.

    انرژی محدودیت داخلی 2  Econ= k/2 (w0 – λh0)2 ; λ  می­باشد. پارامترهایی همچون، , w0 , h0) θ) توسط تابع انرژی Ev و بقیه پارامترها توسط می­نیمم سازی انرژی لبه Ee تنظیم می­شوند.

     

    [1] phonem

    [2] viseme

    [3] Audio Speech Recognition

    [4] Visual Speech Recognition

    [5] Audio-Visual Speech Recognition

    [6] Fourier Transform

    [7] Wavelet Transform

    [8] Discrete Cosine Transform

    [9] Principal Component Analysis

    [10] Linear Discriminant Analysis

    [11] Active Shape Models

    [12] Active Contour Models

    [13] Deformable Templates

    [14] Petajan

    [15] Contour

    [16] Snake

    [17] Elastic

    [18] External Constrain

    [19] Curvature

    [20] Gradient-descent

    [21] Algorithm

    [22] Tracking

    [23] Multi Layer Perceptron

    [24] Posterior Probability

    [25] Bayes Law

    [26] Hidden Markov models

    [27] Sampled Active Contour Model

    3 Pressure

    4 Attraction

    5 Vibration

     

    1 Repulsion

    [32] point Discriminate Model

    [33] Alignment

    [34] Profile

    [35] Deformable Models

    [36] Cost Function

    [37] Fuzzy Clustering

    1 Valley

    Abstract

    Visual features have been widely used to improve the performance of speech  recognition. In this thesis time - frequency features extracted from the images of the  speaker 's mouth and extracted features are used as input parameters to a neural network system for recognition. Because we used the video images so we got to work a different number of video frames. First separated the frames manually and then selected the area around the mouth  and  desired features for the area of each frame obtained. To improve performance and reduce the dimensions of features, we used dimensionality reduction technique LSDA. Using this approach we have reduced the size of our feature. The database consists of  different individuals, that have been uttered monosyllabic words 2 or 3 times. Finally the vowel recognition rate 95.75 was achieved.

    Keyword:

    Lip reading,Vowel recognition, Time-frequency features, Feature dimension reduction, Neural networks

  • فهرست:

     

    فصل اول : مقدمه ..............................................................................................................................1

       1-1 مقدمه ........................................................................................................................................2

        1-2 ساختار پایان نامه .....................................................................................................................4

    فصل دوم : مروری بر تحقیقات انجام شده ..................................................................................5

        2-1 مقدمه .......................................................................................................................................6

        2-2 مدل­های مرز فعال ...................................................................................................................6

             2-2-1 تابع انرژی .........................................................................................................................7

             2-2-2 حداقل سازی انرژی ...........................................................................................................9

        2-3 مدل­های شکل فعال ..............................................................................................................12

        2-4 مدل­های انعطاف­پذیر ............................................................................................................16

             2-4-1 مدل لب .........................................................................................................................16

             2-4-2 فرمول­بندی تابع هزینه ...................................................................................................17

             2-4-3 بهینه سازی پارامترهای مدل ...........................................................................................18

        2-5 الگوهای انعطاف­پذیر .............................................................................................................19

        2-6 موجک هار .............................................................................................................................21

             2-6-1 پیش پردازش .................................................................................................................21

             2-6-2 تبدیل رنگی ....................................................................................................................22

             2-6-3 قطعه­بندی ......................................................................................................................22

        2-7 آنالیز مؤلفه­های خاص ...........................................................................................................23

             2-7-1 زمینه ریاضی EM-PCA ..............................................................................................24

             2-7-2 تولید منیفولد از تصویر ورودی..........................................................................................24

        2-8 تبدیل کسینوسی گسسته .....................................................................................................26

             2-8-1 مدلسازی بر اساس  3-D DCT......................................................................................26

                 2-8-1-1 استخراج ویژگی حرکتی لب ..................................................................................27

                 2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه ..................................................................27

                 2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور .................................................................28

             2-8-2  استخراج ویژگی از ناحیه مورد نظر..................................................................................29

                 2-8-2-1 استخراج ویژگی­های دیداری...................................................................................30

             2-8-3  تبدیل کسینوسی و  LSDA..........................................................................................31

                 2-8-3-1 پیش پردازش .......................................................................................................31

                 2-8-3-2 روش  DCT.........................................................................................................31

                 2-8-3-3 DCT + PCA ..................................................................................................31

                 2-8-3-4 DCT +LDA ...................................................................................................32

                 2-8-3-5  DCT +LSDA................................................................................................32

                 2-8-3-6 ماتریس انتقال ویژگی.............................................................................................35

        2-9 مدل لب با منحنی بیزیر .......................................................................................................35

        2-10 جداسازی ناحیه لب با کا- منیز ..........................................................................................37

    فصل سوم : روش­های استخراج ناحیه دهان و سیستم­های تشخیص ................................39

        3-1 مقدمه ....................................................................................................................................40

        3-2 آشکارسازی ناحیه لب ...........................................................................................................41

             3-2-1  آنالیز ترکیب رنگ لب و پوست .......................................................................................41

             3-2-2  رنگ و اشباع و شدت روشنایی (HSV) ........................................................................42

             3-2-3  حذف مؤلفه قرمز ...........................................................................................................43

             3-2-4  الگوریتم کا- مینز ..........................................................................................................43

                 3-2-4-1 پیاده­سازی الگوریتم .............................................................................................44

             3-2-5  شدت روشنایی و باینری کردن .......................................................................................45

             3-2-6 روش­های ترکیبی ............................................................................................................45

        3-3 روش­های کلاسه­بندی و شناسایی ........................................................................................47

             3-3-1 شبکه عصبی ...................................................................................................................47

                 3-3-1-1 شبکه­های پیش­خور ..............................................................................................48

                 3-3-1-2 الگوریتم پس انتشار خطا .......................................................................................48

             3-3-2 مدل مخفی مارکوف ........................................................................................................48

    فصل چهارم : ویژگی­های استخراجی وپیاده­سازی روش پیشنهادی و معرفی پایگاه داده .......................................................................................................................................................51

        4-1 پایگاه داده .............................................................................................................................52

             4-1-1 جداسازی ویدیوهای ضبط شده .......................................................................................53

        4-2 ویژگی­های استخراج شده .....................................................................................................53

        4-3 جداسازی ناحیه لب ..............................................................................................................54

             4-3-1 آستانه­گذاری ..................................................................................................................54

             4-3-2 استفاده از روش حذف رنگ قرمز .....................................................................................56

             4-3-3 آنالیز ترکیب رنگ لب و پوست .........................................................................................57

             4-3-4 برچسب­گذاری اجزا .........................................................................................................58

             4-3-5 جعبه محاطی .................................................................................................................59

        4-4 ضرایب مل فرکانسی  ............................................................................................................60

             4-4-1 فریم بندی ......................................................................................................................61

             4-4-2 پنجره­گذاری ...................................................................................................................62

             4-4-3 تبدیل فوریه گسسته .......................................................................................................62

             4-4-4 مقیاس مل .....................................................................................................................62

             4-4-5 تبدیل کسینوسی گسسته ...............................................................................................64

                 4-4-5-1 محاسبه ضرایب کسینوسی و ویولت .......................................................................65

                 4-4-5-2 محاسبه ضرایب مل فرکانسی .................................................................................65

        4-5 یافتن مرکز لب و استخراج ناحیه­ای حول لب .......................................................................66

             4-5-1 اسکن زیگزاگ .................................................................................................................67

             4-5-2 کاهش ویژگی با LSDA ................................................................................................68

                 4-5-2-1 استفاده از تابع Logsigmoid  و تغییر الگوریتم آموزش ......................................70

                 4-5-2-2 استفاده از تابع Tansigmoid  و الگوریتم ممنتوم ................................................70

        4-6 استخراج ویژگی از تصاویر مختلف ........................................................................................72

             4-6-1 استخراج ویژگی از تصاویر جدید ......................................................................................72

             4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی .........................................................................72

        4-7 کاهش تعداد فریم­ها و کاهش سایز تصاویر...........................................................................73

             4-7-1 محاسبه ضرایب MFCC ...............................................................................................73

             4-7-2 ضرایب DCT , DWT .................................................................................................73

             4-7-3 کاهش تعداد فریم­ها و کاهش سایز تصاویر با دستور ری­سایز ............................................76

        4-8 نتیجه­گیری ...........................................................................................................................81

        4-9 پیشنهاد ادامه کار ..................................................................................................................82

    مراجع ................................................................................................................................................83

     

     

     

    فهرست جدول­ها

    جدول 1-1 گروه­بندی ویزم­ها در انگلیسی ......................................................................................................3

    جدول 1-2 گروه­بندی ویزم­ها در زبان فارسی ................................................................................................3

    جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی .........................................................................................52

    جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی ................................................................................................ 71

    جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی .................................................................................................71

    جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم .........................................74

    جدول 4- 5 نتایج حاصل از ویژگی­های استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ....74

    جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم ..............................75

    جدول 4- 7 نتایج حاصل از 10 ضریب اول  از ضرایب DCT تصاویر اصلی با 20 فریم ...............................75

    جدول 4- 8 نتایج حاصل از 10 ضریب اول  از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ...................76

    جدول 4- 9 نتایج حاصل از 10 ضریب اول  از ضرایب DCT تصاویر کوچک شده با 20 فریم ....................76

     

     

     

     

     

     

    فهرست شکل­ها

    شکل 2- 1 مدل کانتور فعال نمونه­گیری شده ..................................................................................................11

    شکل 2- 2 علامت گذاری انجام شده بر روی لب ...........................................................................................13

    شکل  2- 3 مدل توزیع نقطه­ای، هر حالت با σ2 ± اطراف متوسط رسم شده است .....................................14

    شکل 2- 4 مدل هندسی لب ........................................................................................................................... 16

    شکل 2- 5 الگوی لب ...................................................................................................................................... 19

    شکل 2- 6 فرآیند تولید منیفولد ...................................................................................................................25

    شکل 2- 7  (a) نتیجه درون­یابی منیفولد  (b) نمونه­گیری دوباره از منیفولد درون­یابی شده با 20  نقطه کلیدی ...............................................................................................................................................................26

    شکل 2- 8 نمودار بلوکی برای استخراج ویژگی­های حرکت مبتنی بر شبکه ..............................................28

    شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور .....................................................................................29

    شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی ................................................30

    شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است............................................................33

    شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب ......................................................................36

    شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ..............................................................38

    شکل 3-1 نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ...............................................42

    شکل 3-2 الگوریتم جداسازی ناحیه لب .......................................................................................................46

    شکل 4-1 آستانه گذاری با ترشلد 0.4 ............................................................................................................55

    شکل 4-2 آستانه گذاری با ترشلد 0.5 ..........................................................................................................55

    شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β  .........................................................................56

    شکل 4-4  تصاویر مربوط به گوینده ها ........................................................................................................ 57

    شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم .........................................................................58

    شکل 4- 6 شکل لب استخراج شده بعد از برچسب­گذاری .......................................................................... 59

    شکل 4-7 مستطیل محاطی لب .................................................................................................................... 60

    شکل 4-8 مراحل محاسبه ضرایب مل .......................................................................................................... 61

    شکل 4-9 فیلتر بانک مثلثی ......................................................................................................................... 63

    شکل 4-10 ناحیه مورد نظر پیرامون لب ........................................................................................................ 66

    شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر .......................................... 67

    شکل 4-12 نحوه اسکن زیگزاگ ماتریس ..................................................................................................... 68

    شکل 4-13 نتایج حاصل از ویژگی­ها + LSDA ............................................................................................70

    شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم........................................ 77

    شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم........................................ 78

    شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT  با مقیاس 0.5 ............................................................... 79

    شکل 4-17 نتایج حاصل از ضرایب مختلف DCT  با مقیاس 0.7................................................................ 80

    منبع:

     

    [1] T Chen, ''Audiovisual speech processing''. IEEE Signal Processing Magazine , Vol.18(1), pp: 9–21, (2001).   

    [2]  صادقی، وحیده السادات، "تشخیص مصوت در کلمات تک سیلابی و دو سیلابی فارسی،" پایان نامه کارشناسی ارشد، دانشگاه سمنان، 1385

     [3] E.D.Petajan, "Automatic Lipreading to Enhance Speech Recognition," PhD thesis, University of Illinois at Urbana-Champain, 1984.

    [4] M. Kass, A.Witkin, and Terzopoulos, " Snakes: Active Contour Models," International Journal of Computer Vision , pp.321-331,1988.

    [5] C. Bregler and Y. Konig, " Eigenlips For Robust Speech Recognition," in Proc. IEEE Conf. Acoustics, Speech and Signal Processing, pp.669-672, 1994.

    [6] Takeshi Saitoh and Ryosuke Konishi , " Word Recognition based on Two Dimensional Lip Motion Trajectory, " international Symposium on Intelligent Signal Processing and Communication System(ISPACS2006) ,pp.287-290. 12-15 Dec, 2006

     [7] میر هادی سید عربی، علی آقا گلزاده، سهراب خان محمدی، "تعقیب اتوماتیک حرکات لب و نقاط ویژه آن با استفاده از کانتور فعال"، چهاردهمین کنفرانس مهندسی برق ایران 2006 ICEE.

                [8] T.F. Cootes , C.J. Taylor, D.H. Cooper, and J. Graham, “Active Shape Models-Their Training and Application," Computer Vision and Image Understanding, vol. 61, no. 1, pp. 38-59, Jan. 1995  

    [9] I. Matthews, T. F. Cootes, J. A. Bangham, S. Cox, and R. Harvey, "Extraction of visual features for lipreading," IEEE Trans. Pattern Anal .Mach. Intell., vol. 24, no. 2, pp. 198–213, Feb. 2002.

    [10] Juergen Luettin,Neil A. Thacker ," Speechreading using probabilistic Models," Computer Vision and Image Understanding, Vol.65,No.2, pp.163-178, February 1997

    [11] S.L.Wang , W.H.Lau , S.H.Leung, et al. " A real-time automatic lipreading system,"

    International Symposium on Circuits and Systems, No.2, pp.101-104,IEEE, Vancouver , Canada, May 2004.

    [12] D. Thambiratnam , T. Wark , S.Sridharan and V.Chandran , "Speech Recognition in Adverse Environments using Lip Information," Speech and Image Technologies for Computing and Telecommunications, IEEE TENCON 1997, Vol.1, pp.149-152, 4Dec,1997

    [13] Tanveer A Faruquie, Abhik Majumdar, Nitendra Rajput, L V Subramaniam,"Large Vocabulary Audio-Visual Speech Recognition Using Active Shape Models," Pattern Recognition ,2000,15th International Conference, Vol.3, pp.106-109,2000.

    [14] A.L.Liew, et al," Lip contour extraction from color images using a deformable model," The Journal of the Pattern Recognition Society, No.35, 2949-2962, 2002

    [15] Stefan Horbelt, Jean-Luc Dugelay ," Active Contours For Lipreading Combinning With Templates," 15th GRETST Symposium on Signal and Image processing,pp.18-22, September 1995,france.

    [16] Mohammad Mehdi Hosseini, Abdorreza Alavi Gharahbagh and Sedigheh Ghofrani ," Vowel Recognition by Using the Combination of Haar Wavelet and Neural Network," KES'10 Proceedings of the 14th international conference on Knowledge-based and intelligent information and engineering systems, Part I,pp.331-339, 2010.

    [17] M.M,Hosseini, S.Ghofrani ," Automatic Lip Extraction Baced On Wavelet Transform," IEEE GCIS, pp.393-396, 2009,China.

    [18] Dahai Yu, Ovidiu Ghita, Alistair Sutherland, Paul F. Whelan," A PCA based Manifold Representation for Visual Speech Recognition,"In: CIICT 2007, Proceedings of the China-Ireland International Conference on Information and Communication Technologies, 28-29 August 2007, Dublin, Ireland.

    [19] Y. L. Tian and T. Kanade," Robust Lip Tracking by Combining Shape, Colour and Motion," Proc. of the Asian Conference on Computer Vision, pp.1040-1045, 2000.

    [20] Kim YongMin, Li Hong Zuo, " A Lip Reading Method Based on 3-D DCT and 3-D HMM," International Conference on Electronics and Optoelectronics, vol.1,pp.115-119, IEEE 2011.

    [21] H. Ertan Cetingul, Yucel Yemez, Engin Erzin and A. Murat Tekalp," Discriminative Analysis of Lip Motion Features for Speaker Identification and Speech-Reading," IEEE Transactions on Image Processing, VOL. 15, NO. 10, October 2006.

    [22] Xiaoping WANG, Yufeng HAO, Degang FU, Chunwei YUAN, ''ROI Processing for Visual Features Extraction in Lip-reading'', IEEE Int. Conference Neural Networks & Signal Processing, pp. 178-181, 7-11 June 2008.

    [23] Liang Yaling, Yao Wenjuan, Du Minghui, ''Feature Extraction Based on LSDA for Lipreading'', IEEE 2010.

    [24] I. Shdaifat and R. Grigat,D. Langmann," A System for Automatic Lip Reading ," International Conference on Audio-Visual speech Processing,4-7September , 2003.

    [25] Amin Banitalebi, Maryam Moosaei, Gholam Ali Hossein zadeh ," An Investigation on the usage of Image Quality Assessment in visual speech Recognition," The 6th Iranian machine vision & image processing conference , 27-28 October 2010.

     [26] Z. Wang and E.P. Simoncelli, " Translation insensitive image similarity in complex wavelet domain," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, pp.573-576, , Mar. 2005

    [27] Vahideh Sadat Sadeghi, Khashayar Yaghmaie," vowel recognition using neural network," IJCSNS International, Journal of Computer Science and Network Security, VOL.6 No.12, December 2006.

    [28] S.L.Wang, A.W.C.Liew, W.H.Lau,and S.H.Leung ," An Automatic Lipreading System for Spoken Digits With Limited Training Data," IEEE Transactions on Circuits and Systems for Video Technology, VOL. 18, NO. 12, December 2008.

     [29] N. Eveno, A. Caplier, P.Y. Coulon, New color transformation for lips segmentation,  in: Proceedings of IEEE Fourth Workshop on Multimedia Signal Processing, pp. 3–8, Cannes, France, October 2001.

     [30] Wark,T.,sridharan,S.,and Chaandran,V.''An approach to statistical lip modelling for speaker identification via chromatic feature extraction'' .In proceeding of the IEEE International conference on Pattern Recognition, Vol.1, pp 123-125, Aug 1998.

    [31] Coianiz,T.,Torresani,L.,and Caprile,B.''2D deformable models for visual speech analysis''.In [Stork and Hennecke,1996] , pp 391-398.

    [32] Vogt, M. ''Fast matching of a dynamic lip model to color video sequences under regular illumination conditions''.In[Stork and Hennecke,1996], pp.399-407.

    [33] Hamed Talea, Khashayar Yaghmaie,''Automatic visual speech segmentation'', 3rd International Conference on Communication Software and  Networks, pp.4854-4858, 2011 IEEE

    [34] F. G. Hashad, T. M. Halim S. M. Diab, and B. M. Sallam,'' A New Approach for Fingerprint Recognition Based on Mel Frequency Cepstral Coefficients'', International Conference on Computer Engineering & System, pp. 263-268, 14-16 Dec, 2009.

     

    [35] Shikha Gupta1, Jafreezal Jaafar, Wan Fatimah wan Ahmad3 and Arpit Bansal, '' Feature Extraction Using Mfcc'' , Signal & Image Processing : An International Journal (SIPIJ) Vol.4, No.4, August 2013

    [36] M. M. M. Fahmy, " Palmprint recognition based on Mel frequency Cepstral coefficients feature extraction", Ain Shams Engineering Journal, p. 9, 2010.

    [37] N. Puviarasan , S. Palanivel ,''Lip reading of hearing impaired persons using HMM'', 2010 Elsevier Ltd, Expert Systems with Applications 38 (2011).pp. 4477–4481,

    [38] Md. Rashidul Hasan, Mustafa Jamil Md. Golam Rabbani,Md. Saifur Rahman, "Speaker Identification using Mel Frequency Cepstral Coefficients", 3rd International conference on Electrical and computer engineering ICECE 2004,Dec 2004.

    [39] T. M. Talal and  A. El-Sayad, "Identification of Satellite Images Based on Mel Frequency Cepstral Cofficients, pp.274-282, IEEE 2009.

     [40] Sangeeta Biswas” MFCC based Face Identification” Titech Japan, 2009.

    [41] Deng Cai, Xiaofei He, Kun Zhou, “Locality Sensitive DiscriminantAnalysis,” International Joint Conference on Artificial Itelligence. Hyderabad: morgan Kaufmann Publishers 2007. pp.708-713.


موضوع پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, نمونه پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, جستجوی پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, فایل Word پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, دانلود پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, فایل PDF پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, تحقیق در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقاله در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروپوزال در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, تز دکترا در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, تحقیقات دانشجویی درباره پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقالات دانشجویی درباره پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه درباره پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, گزارش سمینار در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, پروژه دانشجویی در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, تحقیق دانش آموزی در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, مقاله دانش آموزی در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی, رساله دکترا در مورد پایان نامه استخراج ویژگی زمانی- فرکانسی جهت شناسایی دیداری مصوت های فارسی

پایان نامه کارشناسی ارشد مهندسی برق گرایش الکترونیک چکیده در این پایان­نامه روشی برای شناسایی مصوت­های فارسی در کلمات تک سیلابی ارائه می­شود. برای این منظور پس از جداسازی فریم­های تصویر و انتخاب فریم­هایی که مربوط به تلفظ مصوت موجود در کلمه تک سیلابی بودند و نیز استخراج ناحیه­ای پیرامون لب­ها، ویژگی­های مختلفی همچون ضرایب کسینوسی و ضرایب موجک و ضرایب MFCC برای تشخیص مصوت­ها در ...

پایان­نامه تحصیلی جهت اخذ درجه کارشناسی ارشد رشته: کامپیوتر گرایش نرم افزار چکیده در یک شبکه حسگر که یک سیستم توزیع شده فراگیر است، یکی از موارد مورد بحث همگام‌سازی ارتباطات است. یکی از عمده وظایف همگام‌سازی فرآیند‌ها، انحصار متقابل است. الگوریتم‌های جدید ارایه شده در مقایسه با الگوریتم‌ های قدیمی با عدالت بیشتری عمل می‌نمایند. در این پایان‌نامه یک مدل با استفاده از شبکه‌های ...

پایان نامه جهت اخذ درجه کارشناسی ارشد هوش مصنوعی چکیده در این پایان­نامه قصد داریم با ارائه یک ویژگی مناسب عمل دسته بندی را بر روی سیگنال­ های مغزی انجام دهیم. برای این منظور ابتدا از سیگنالهای مغزی نویز دستگاه ثبت حذف می شود سپس از این سیگنال­­ها با استفاده از تبدیل والش و آنتروپی ویژگی استخراج می شود. بعد از استخراج ویژگی ، بر اساس این ویژگی­ها عمل دسته بندی انجام می شود. ...

پايان نامه (يا رساله) براي دريافت درجه کارشناسي ارشد. در رشته معماري گرايش معماري بهمن 93 چکيده :      از آنجايي که ايجاد فضاهاي چند منظوره و چند عملکردي در 

پایان نامه‌ی کارشناسی ارشد در رشته­ی مهندسی پزشکی بهبود روش فیلترینگ الگوی مکانی مشترک جهت ارتقاء راندمان سیستم­های واسط کامپیوتری-مغزی سیستم­های واسط کامپیوتری-مغزی سیستم­هایی هستند که می­توانند سیگنال­های الکتریکی مغزی مرتبط با تصورات حرکتی در مغز انسان را به دستورات قابل فهم کامپیوتری ترجمه کنند. لذا این قابلیت می­تواند به کمک بسیاری از بیماران حسی-حرکتی بیاید و تا حد بسیار ...

پایان نامه جهت اخذ درجه کارشناسی ارشد رشته شیمی تجزیه فلوئورید از سالها قبل بعنوان یک یون سمی شناخته شده است. منبع اصلی فلوئورید در محلولهای آبی سنگهای معدنی حاوی فلوئورید و فعالیت های صنعتی کارخانه ها می­باشد. بر طبق گزارش سازمان حفاظت محیط زیست مقدار فلوئورید بیش از ١ میلی­گرم بر لیتر باعث بروز بیماریهای مختلف می­شود. در این تحقیق از ماده بیوپلیمری بنام زئین بعنوان جاذب برای ...

پایان نامه برای دریافت درجه کارشناسی ارشد در رشته مهندسی مکاترونیک(M.Sc) چکیده تکنولوژی بیومتریک، براساس مشخصه های منحصر به فرد هر شخص اقدام به تشخیص خودکار هویّت افراد می­کند. محققّین به شکل گسترده ای با تنوعی از روش های به کار گرفته شده توانسته اند بافت عنبیه را با دقّت بالایی حتّی در شرایط مختلف استخراج نمایند. در نتیجه تلاش ما در این پایان نامه ارائه دیدگاه ها و روش هایی ...

پایان‌نامه دوره کارشناسی ارشد مهندسی برق قدرت چکیده شبکه گسترده سیستم قدرت دارای تجهیزات بسیار گران قیمتی می­باشد که از جمله آن می­توان به ژنراتور، بریکر، کابل­های قدرت و ترانسفورماتور اشاره کرد. ترانسفورماتور قدرت به عنوان قلب تپنده این شبکه بوده که همواره تحت تاثیر شرایط بهره­برداری و محیطی، دچار خطاهای مختلفی شده و در برخی موارد سبب خرابی و خروج از مدار ترانسفورماتور و عدم ...

پایان نامه کارشناسی ارشد روان شناسی- سنجش و اندازه گیری چکیده ویژگی های روان سنجی پرسشنامه استرس هری پس از ترجمه و بررسی روایی ظاهر و محتوا با روش تحلیل عاملی بررسی شد.یک نمونه چهارصد نفری از مردم شهر تهران به روش تصادفی ساده و نمونه گیری در دسترس انتخاب شدند و پرسشنامه 66 سوالی H.S.I را تکمیل کردند. نتایج تحلیل عاملی اکتشافی نشان داد 39 سوال مناسب شهر تهران می باشد که هشت عامل ...

پایان نامه برای دریافت درجه کارشناسی ارشد(M.Sc) چکیده شبکه حسگر بی سیم، شبکه ای است که از تعداد زیادی گره کوچک تشکیل شده است. گره از طریق حسگرها اطلاعات محیط را دریافت می‌کند. انرژی مصرفی گره‌ها معمولاً از طریق باتری تامین می‌شود که در اکثر موارد امکان جایگزینی این باتری‌ها وجود ندارد. بنابراین توان مصرفی گره‌ها موضوع مهمی در این شبکه ها است. و استفاده از روش‌های دقیق و سریع ...

ثبت سفارش