فهرست:
فصل اول : مقدمه ..............................................................................................................................1
1-1 مقدمه ........................................................................................................................................2
1-2 ساختار پایان نامه .....................................................................................................................4
فصل دوم : مروری بر تحقیقات انجام شده ..................................................................................5
2-1 مقدمه .......................................................................................................................................6
2-2 مدلهای مرز فعال ...................................................................................................................6
2-2-1 تابع انرژی .........................................................................................................................7
2-2-2 حداقل سازی انرژی ...........................................................................................................9
2-3 مدلهای شکل فعال ..............................................................................................................12
2-4 مدلهای انعطافپذیر ............................................................................................................16
2-4-1 مدل لب .........................................................................................................................16
2-4-2 فرمولبندی تابع هزینه ...................................................................................................17
2-4-3 بهینه سازی پارامترهای مدل ...........................................................................................18
2-5 الگوهای انعطافپذیر .............................................................................................................19
2-6 موجک هار .............................................................................................................................21
2-6-1 پیش پردازش .................................................................................................................21
2-6-2 تبدیل رنگی ....................................................................................................................22
2-6-3 قطعهبندی ......................................................................................................................22
2-7 آنالیز مؤلفههای خاص ...........................................................................................................23
2-7-1 زمینه ریاضی EM-PCA ..............................................................................................24
2-7-2 تولید منیفولد از تصویر ورودی..........................................................................................24
2-8 تبدیل کسینوسی گسسته .....................................................................................................26
2-8-1 مدلسازی بر اساس 3-D DCT......................................................................................26
2-8-1-1 استخراج ویژگی حرکتی لب ..................................................................................27
2-8-1-2 استخراج ویژگی حرکت مبتنی بر شبکه ..................................................................27
2-8-1-3 استخراج ویژگی حرکت مبتنی بر کانتور .................................................................28
2-8-2 استخراج ویژگی از ناحیه مورد نظر..................................................................................29
2-8-2-1 استخراج ویژگیهای دیداری...................................................................................30
2-8-3 تبدیل کسینوسی و LSDA..........................................................................................31
2-8-3-1 پیش پردازش .......................................................................................................31
2-8-3-2 روش DCT.........................................................................................................31
2-8-3-3 DCT + PCA ..................................................................................................31
2-8-3-4 DCT +LDA ...................................................................................................32
2-8-3-5 DCT +LSDA................................................................................................32
2-8-3-6 ماتریس انتقال ویژگی.............................................................................................35
2-9 مدل لب با منحنی بیزیر .......................................................................................................35
2-10 جداسازی ناحیه لب با کا- منیز ..........................................................................................37
فصل سوم : روشهای استخراج ناحیه دهان و سیستمهای تشخیص ................................39
3-1 مقدمه ....................................................................................................................................40
3-2 آشکارسازی ناحیه لب ...........................................................................................................41
3-2-1 آنالیز ترکیب رنگ لب و پوست .......................................................................................41
3-2-2 رنگ و اشباع و شدت روشنایی (HSV) ........................................................................42
3-2-3 حذف مؤلفه قرمز ...........................................................................................................43
3-2-4 الگوریتم کا- مینز ..........................................................................................................43
3-2-4-1 پیادهسازی الگوریتم .............................................................................................44
3-2-5 شدت روشنایی و باینری کردن .......................................................................................45
3-2-6 روشهای ترکیبی ............................................................................................................45
3-3 روشهای کلاسهبندی و شناسایی ........................................................................................47
3-3-1 شبکه عصبی ...................................................................................................................47
3-3-1-1 شبکههای پیشخور ..............................................................................................48
3-3-1-2 الگوریتم پس انتشار خطا .......................................................................................48
3-3-2 مدل مخفی مارکوف ........................................................................................................48
فصل چهارم : ویژگیهای استخراجی وپیادهسازی روش پیشنهادی و معرفی پایگاه داده .......................................................................................................................................................51
4-1 پایگاه داده .............................................................................................................................52
4-1-1 جداسازی ویدیوهای ضبط شده .......................................................................................53
4-2 ویژگیهای استخراج شده .....................................................................................................53
4-3 جداسازی ناحیه لب ..............................................................................................................54
4-3-1 آستانهگذاری ..................................................................................................................54
4-3-2 استفاده از روش حذف رنگ قرمز .....................................................................................56
4-3-3 آنالیز ترکیب رنگ لب و پوست .........................................................................................57
4-3-4 برچسبگذاری اجزا .........................................................................................................58
4-3-5 جعبه محاطی .................................................................................................................59
4-4 ضرایب مل فرکانسی ............................................................................................................60
4-4-1 فریم بندی ......................................................................................................................61
4-4-2 پنجرهگذاری ...................................................................................................................62
4-4-3 تبدیل فوریه گسسته .......................................................................................................62
4-4-4 مقیاس مل .....................................................................................................................62
4-4-5 تبدیل کسینوسی گسسته ...............................................................................................64
4-4-5-1 محاسبه ضرایب کسینوسی و ویولت .......................................................................65
4-4-5-2 محاسبه ضرایب مل فرکانسی .................................................................................65
4-5 یافتن مرکز لب و استخراج ناحیهای حول لب .......................................................................66
4-5-1 اسکن زیگزاگ .................................................................................................................67
4-5-2 کاهش ویژگی با LSDA ................................................................................................68
4-5-2-1 استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش ......................................70
4-5-2-2 استفاده از تابع Tansigmoid و الگوریتم ممنتوم ................................................70
4-6 استخراج ویژگی از تصاویر مختلف ........................................................................................72
4-6-1 استخراج ویژگی از تصاویر جدید ......................................................................................72
4-6-2 ضرایب مل فرکانسی و ضرایب کسینوسی .........................................................................72
4-7 کاهش تعداد فریمها و کاهش سایز تصاویر...........................................................................73
4-7-1 محاسبه ضرایب MFCC ...............................................................................................73
4-7-2 ضرایب DCT , DWT .................................................................................................73
4-7-3 کاهش تعداد فریمها و کاهش سایز تصاویر با دستور ریسایز ............................................76
4-8 نتیجهگیری ...........................................................................................................................81
4-9 پیشنهاد ادامه کار ..................................................................................................................82
مراجع ................................................................................................................................................83
فهرست جدولها
جدول 1-1 گروهبندی ویزمها در انگلیسی ......................................................................................................3
جدول 1-2 گروهبندی ویزمها در زبان فارسی ................................................................................................3
جدول 4-1 کلمات تک سیلابی در بانک اطلاعاتی .........................................................................................52
جدول 4-2 نتایج قبل از تنظیم نقاط انتهایی ................................................................................................ 71
جدول 4- 3 نتایج بعد از تنظیم نقاط انتهایی .................................................................................................71
جدول 4- 4 نتایج حاصل از ویژگی های استخراجی از تصاویر اصلی با 20 فریم .........................................74
جدول 4- 5 نتایج حاصل از ویژگیهای استخراجی از تصاویر نرمالیزه شده با رابطه (4-7) با 20 فریم ....74
جدول 4- 6 نتایج حاصل از ویژگی های استخراجی از تصاویر کوچک شده با 20 فریم ..............................75
جدول 4- 7 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر اصلی با 20 فریم ...............................75
جدول 4- 8 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر نرمالیزه شده با 20 فریم ...................76
جدول 4- 9 نتایج حاصل از 10 ضریب اول از ضرایب DCT تصاویر کوچک شده با 20 فریم ....................76
فهرست شکلها
شکل 2- 1 مدل کانتور فعال نمونهگیری شده ..................................................................................................11
شکل 2- 2 علامت گذاری انجام شده بر روی لب ...........................................................................................13
شکل 2- 3 مدل توزیع نقطهای، هر حالت با σ2 ± اطراف متوسط رسم شده است .....................................14
شکل 2- 4 مدل هندسی لب ........................................................................................................................... 16
شکل 2- 5 الگوی لب ...................................................................................................................................... 19
شکل 2- 6 فرآیند تولید منیفولد ...................................................................................................................25
شکل 2- 7 (a) نتیجه درونیابی منیفولد (b) نمونهگیری دوباره از منیفولد درونیابی شده با 20 نقطه کلیدی ...............................................................................................................................................................26
شکل 2- 8 نمودار بلوکی برای استخراج ویژگیهای حرکت مبتنی بر شبکه ..............................................28
شکل 2- 9 استخراج ویژگی حرکت مبتنی بر کانتور .....................................................................................29
شکل 2-10 تصویر اصلی و چهار ناحیه پردازش شده برای استخراج ویژگی ................................................30
شکل 2-11 (الف) نقاط با رنگ و شکل مشابه در یک کلاس قرار می گیرند. (ب) گراف درون کلاس نقاط با برچسب یکسان را متصل می کند. (ج) گراف بین کلاس نقاط با بر چسب متفاوت را متصل می کند. (د) بعد از اعمال LSDA فاصله بین کلاس های متفاوت ماکزیمم شده است............................................................33
شکل 2- 12 سمت چپ منحنی بیزیر و سمت راست مدل لب ......................................................................36
شکل 2- 13 زاویه گشودگی افقی 2α و زاویه گشودگی عمودی 1α ..............................................................38
شکل 3-1 نتیجه حاصل از آنالیز ترکیب رنگ پوست و لب و نقاط گوشه لب ...............................................42
شکل 3-2 الگوریتم جداسازی ناحیه لب .......................................................................................................46
شکل 4-1 آستانه گذاری با ترشلد 0.4 ............................................................................................................55
شکل 4-2 آستانه گذاری با ترشلد 0.5 ..........................................................................................................55
شکل 4-3 استفاده از الگوریتم حذف رنگ قرمز با 0.5=β .........................................................................56
شکل 4-4 تصاویر مربوط به گوینده ها ........................................................................................................ 57
شکل 4- 5 شکل لب استخراج شده بعد از اعمال الگوریتم .........................................................................58
شکل 4- 6 شکل لب استخراج شده بعد از برچسبگذاری .......................................................................... 59
شکل 4-7 مستطیل محاطی لب .................................................................................................................... 60
شکل 4-8 مراحل محاسبه ضرایب مل .......................................................................................................... 61
شکل 4-9 فیلتر بانک مثلثی ......................................................................................................................... 63
شکل 4-10 ناحیه مورد نظر پیرامون لب ........................................................................................................ 66
شکل 4-11 تعداد 25 فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر .......................................... 67
شکل 4-12 نحوه اسکن زیگزاگ ماتریس ..................................................................................................... 68
شکل 4-13 نتایج حاصل از ویژگیها + LSDA ............................................................................................70
شکل 4-14 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.5و تعداد 25 فریم........................................ 77
شکل 4- 15 نتایج حاصل از تصاویر کوچک شده با مقیاس 0.7و تعداد 25 فریم........................................ 78
شکل 4- 16 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.5 ............................................................... 79
شکل 4-17 نتایج حاصل از ضرایب مختلف DCT با مقیاس 0.7................................................................ 80
منبع:
[1] T Chen, ''Audiovisual speech processing''. IEEE Signal Processing Magazine , Vol.18(1), pp: 9–21, (2001).
[2] صادقی، وحیده السادات، "تشخیص مصوت در کلمات تک سیلابی و دو سیلابی فارسی،" پایان نامه کارشناسی ارشد، دانشگاه سمنان، 1385
[3] E.D.Petajan, "Automatic Lipreading to Enhance Speech Recognition," PhD thesis, University of Illinois at Urbana-Champain, 1984.
[4] M. Kass, A.Witkin, and Terzopoulos, " Snakes: Active Contour Models," International Journal of Computer Vision , pp.321-331,1988.
[5] C. Bregler and Y. Konig, " Eigenlips For Robust Speech Recognition," in Proc. IEEE Conf. Acoustics, Speech and Signal Processing, pp.669-672, 1994.
[6] Takeshi Saitoh and Ryosuke Konishi , " Word Recognition based on Two Dimensional Lip Motion Trajectory, " international Symposium on Intelligent Signal Processing and Communication System(ISPACS2006) ,pp.287-290. 12-15 Dec, 2006
[7] میر هادی سید عربی، علی آقا گلزاده، سهراب خان محمدی، "تعقیب اتوماتیک حرکات لب و نقاط ویژه آن با استفاده از کانتور فعال"، چهاردهمین کنفرانس مهندسی برق ایران 2006 ICEE.
[8] T.F. Cootes , C.J. Taylor, D.H. Cooper, and J. Graham, “Active Shape Models-Their Training and Application," Computer Vision and Image Understanding, vol. 61, no. 1, pp. 38-59, Jan. 1995
[9] I. Matthews, T. F. Cootes, J. A. Bangham, S. Cox, and R. Harvey, "Extraction of visual features for lipreading," IEEE Trans. Pattern Anal .Mach. Intell., vol. 24, no. 2, pp. 198–213, Feb. 2002.
[10] Juergen Luettin,Neil A. Thacker ," Speechreading using probabilistic Models," Computer Vision and Image Understanding, Vol.65,No.2, pp.163-178, February 1997
[11] S.L.Wang , W.H.Lau , S.H.Leung, et al. " A real-time automatic lipreading system,"
International Symposium on Circuits and Systems, No.2, pp.101-104,IEEE, Vancouver , Canada, May 2004.
[12] D. Thambiratnam , T. Wark , S.Sridharan and V.Chandran , "Speech Recognition in Adverse Environments using Lip Information," Speech and Image Technologies for Computing and Telecommunications, IEEE TENCON 1997, Vol.1, pp.149-152, 4Dec,1997
[13] Tanveer A Faruquie, Abhik Majumdar, Nitendra Rajput, L V Subramaniam,"Large Vocabulary Audio-Visual Speech Recognition Using Active Shape Models," Pattern Recognition ,2000,15th International Conference, Vol.3, pp.106-109,2000.
[14] A.L.Liew, et al," Lip contour extraction from color images using a deformable model," The Journal of the Pattern Recognition Society, No.35, 2949-2962, 2002
[15] Stefan Horbelt, Jean-Luc Dugelay ," Active Contours For Lipreading Combinning With Templates," 15th GRETST Symposium on Signal and Image processing,pp.18-22, September 1995,france.
[16] Mohammad Mehdi Hosseini, Abdorreza Alavi Gharahbagh and Sedigheh Ghofrani ," Vowel Recognition by Using the Combination of Haar Wavelet and Neural Network," KES'10 Proceedings of the 14th international conference on Knowledge-based and intelligent information and engineering systems, Part I,pp.331-339, 2010.
[17] M.M,Hosseini, S.Ghofrani ," Automatic Lip Extraction Baced On Wavelet Transform," IEEE GCIS, pp.393-396, 2009,China.
[18] Dahai Yu, Ovidiu Ghita, Alistair Sutherland, Paul F. Whelan," A PCA based Manifold Representation for Visual Speech Recognition,"In: CIICT 2007, Proceedings of the China-Ireland International Conference on Information and Communication Technologies, 28-29 August 2007, Dublin, Ireland.
[19] Y. L. Tian and T. Kanade," Robust Lip Tracking by Combining Shape, Colour and Motion," Proc. of the Asian Conference on Computer Vision, pp.1040-1045, 2000.
[20] Kim YongMin, Li Hong Zuo, " A Lip Reading Method Based on 3-D DCT and 3-D HMM," International Conference on Electronics and Optoelectronics, vol.1,pp.115-119, IEEE 2011.
[21] H. Ertan Cetingul, Yucel Yemez, Engin Erzin and A. Murat Tekalp," Discriminative Analysis of Lip Motion Features for Speaker Identification and Speech-Reading," IEEE Transactions on Image Processing, VOL. 15, NO. 10, October 2006.
[22] Xiaoping WANG, Yufeng HAO, Degang FU, Chunwei YUAN, ''ROI Processing for Visual Features Extraction in Lip-reading'', IEEE Int. Conference Neural Networks & Signal Processing, pp. 178-181, 7-11 June 2008.
[23] Liang Yaling, Yao Wenjuan, Du Minghui, ''Feature Extraction Based on LSDA for Lipreading'', IEEE 2010.
[24] I. Shdaifat and R. Grigat,D. Langmann," A System for Automatic Lip Reading ," International Conference on Audio-Visual speech Processing,4-7September , 2003.
[25] Amin Banitalebi, Maryam Moosaei, Gholam Ali Hossein zadeh ," An Investigation on the usage of Image Quality Assessment in visual speech Recognition," The 6th Iranian machine vision & image processing conference , 27-28 October 2010.
[26] Z. Wang and E.P. Simoncelli, " Translation insensitive image similarity in complex wavelet domain," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, pp.573-576, , Mar. 2005
[27] Vahideh Sadat Sadeghi, Khashayar Yaghmaie," vowel recognition using neural network," IJCSNS International, Journal of Computer Science and Network Security, VOL.6 No.12, December 2006.
[28] S.L.Wang, A.W.C.Liew, W.H.Lau,and S.H.Leung ," An Automatic Lipreading System for Spoken Digits With Limited Training Data," IEEE Transactions on Circuits and Systems for Video Technology, VOL. 18, NO. 12, December 2008.
[29] N. Eveno, A. Caplier, P.Y. Coulon, New color transformation for lips segmentation, in: Proceedings of IEEE Fourth Workshop on Multimedia Signal Processing, pp. 3–8, Cannes, France, October 2001.
[30] Wark,T.,sridharan,S.,and Chaandran,V.''An approach to statistical lip modelling for speaker identification via chromatic feature extraction'' .In proceeding of the IEEE International conference on Pattern Recognition, Vol.1, pp 123-125, Aug 1998.
[31] Coianiz,T.,Torresani,L.,and Caprile,B.''2D deformable models for visual speech analysis''.In [Stork and Hennecke,1996] , pp 391-398.
[32] Vogt, M. ''Fast matching of a dynamic lip model to color video sequences under regular illumination conditions''.In[Stork and Hennecke,1996], pp.399-407.
[33] Hamed Talea, Khashayar Yaghmaie,''Automatic visual speech segmentation'', 3rd International Conference on Communication Software and Networks, pp.4854-4858, 2011 IEEE
[34] F. G. Hashad, T. M. Halim S. M. Diab, and B. M. Sallam,'' A New Approach for Fingerprint Recognition Based on Mel Frequency Cepstral Coefficients'', International Conference on Computer Engineering & System, pp. 263-268, 14-16 Dec, 2009.
[35] Shikha Gupta1, Jafreezal Jaafar, Wan Fatimah wan Ahmad3 and Arpit Bansal, '' Feature Extraction Using Mfcc'' , Signal & Image Processing : An International Journal (SIPIJ) Vol.4, No.4, August 2013
[36] M. M. M. Fahmy, " Palmprint recognition based on Mel frequency Cepstral coefficients feature extraction", Ain Shams Engineering Journal, p. 9, 2010.
[37] N. Puviarasan , S. Palanivel ,''Lip reading of hearing impaired persons using HMM'', 2010 Elsevier Ltd, Expert Systems with Applications 38 (2011).pp. 4477–4481,
[38] Md. Rashidul Hasan, Mustafa Jamil Md. Golam Rabbani,Md. Saifur Rahman, "Speaker Identification using Mel Frequency Cepstral Coefficients", 3rd International conference on Electrical and computer engineering ICECE 2004,Dec 2004.
[39] T. M. Talal and A. El-Sayad, "Identification of Satellite Images Based on Mel Frequency Cepstral Cofficients, pp.274-282, IEEE 2009.
[40] Sangeeta Biswas” MFCC based Face Identification” Titech Japan, 2009.
[41] Deng Cai, Xiaofei He, Kun Zhou, “Locality Sensitive DiscriminantAnalysis,” International Joint Conference on Artificial Itelligence. Hyderabad: morgan Kaufmann Publishers 2007. pp.708-713.