برای تصاویر شکل (۴-۶) جعبهای که تصویر مورد نظر را احاطه می کند محاسبه میکنیم و بعد از اینکه این ناحیه مستطیلی به دست آمد ویژگیهای آن را مانند ضرایب مل فرکانسی استخراج میکنیم. برای این کار بعد از انجام مراحل قبل و یافتن ناحیه مربوط به دهان ابتدا برای هر ناحیه مرکز آن ناحیه را پیدا میکنیم. بعد مختصات افقی نقطه وسط از تصویر لب را با یافتن مینیمم مقدار مجموع سطرهای تصویر محاسبه و مختصات عمودی آن را نصف سایز عمودی تصویر قرار میدهیم و بعد با تعیین کمترین فاصله بین مرکز و این نقطه ، مختصات مستطیلی که این ناحیه را شامل می شود به دست میآوریم . که از این مختصات برای یافتن پهنا و ارتفاع دهان میتوانیم استفاده کنیم اما با توجه به اینکه با این روش در مورد برخی از تصاویر ناحیه درست استخراج نشده و یا شامل قسمت های اضافی از صورت بود روش دقیقی برای محاسبه این ویژگیها نبود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
شکل ۴-۷ مستطیل محاطی لب
۴-۴ ضرایب مل فرکانسی
از ضرایب مل فرکانسی به وفور برای شناسایی صوت استفاده شده است و این ضرایب از سیگنال صوتی استخراج شده و به عنوان بردار ویژگی بکار برده شده است [۳۸] . از این ضرایب برای شناسایی تصویر و شناسایی چهره در [۳۹] و[۴۰] استفاده شده است. و همچنین برای شناسایی اثر انگشت و شناسایی حرکات دست از تصویر آنها در[۳۵] , [۳۴] و برای شناسایی تصاویر کف دست در [۳۶] استفاده شده است. در شکل زیر الگوریتم محاسبه این ضرایب نشان داده شده است.
شکل ۴-۸ مراحل محاسبه ضرایب مل فرکانسی
۴-۴-۱ فریمبندی
چون MFCC روی سیگنا لهای یک بعدی کار می کند پس در اولین گام باید تصویر مورد نظر را که دو بعدی میباشد را به سیگنالی یک بعدی تبدیل کنیم. این کار را میتوان توسط ذخیره تمام سطرها پشت سر هم و یا ذخیره تمام ستونها پشت سر هم انجام داده و سیگنالی یک بعدی شکل داد. در گام دوم باید فریمبندی روی سیگنال صورت داد و سیگنال را به گروههایی با تعداد مشخصی از نمونهها دستهبندی کرد که بدین منظور سیگنال یک بعدی را به فریمهای کوچکی که شامل ۲۵۶ نمونه میباشد تقسیم میکنیم برای حفظ اطلاعات سیگنال ، هر فریم تقسیم شده با فریم قبلی آن باید همپوشانی داشته باشد به همین منظور تعداد ۱۰۰ نمونه از هر فریم با فریم قبلی همپوشانی خواهد داشت.
۴-۴-۲ پنجرهگذاری
پنجرهگذاری برای مینیمم کردن شکستگیها و ناپیوستگیها در ابتدا و انتهای هر فریم بکار برده می شود. که معمولاٌ برای این کار از پنجره همینگ[۹۵] که رابطه آن در زیر بیان شده استفاده می شود که ما نیز همین پنجره را بکار گرفتیم. ( N سایز پنجره میباشد).
رابطه (۴-۳) n=0,1,….,N-1 ) H(n)=0.54-0.46 cos( W
۴-۴-۳ تبدیل فوریه گسسته[۹۶]
تبدیل فوریه برای تبدیل سیگنال از حوزه فضایی به حوزه فرکانسی استفاده و بنابراین هر فریم به حوزه فرکانسی تبدیل شده و اندازه اسپکتروم[۹۷] محاسبه می شود.
رابطه (۴-۴) S [k]=
۴-۴-۴ مقیاس مل [۹۸]
مل فرکانسی وارپینگ توسط یک بانک فیلتر مل که مجموعه ای از فیلترهای میانگذر با پهنای باند ثابت و فاصلهگذاری روی مقیاس مل میباشد انجام می شود. هر فیلتر پاسخ فرکانسی میان گذر مثلثی دارد که این فیلترها روی تمام محدوده فرکانسی از صفر تا فرکانس نایکوئیست[۹۹] جدا شده اند. تعداد فیلترها یکی از پارامترهایی است که روی دقت شناسایی تاثیر دارد.
شکل ۴-۹ فیلتر بانک مثلثی
با بهره گرفتن از رابطه زیر فرکانس بر حسب هرتز را میتوان به فرکانس مل تبدیل کرد.
رابطه (۴-۵) mel(f)= 2595*log10(1+f/700)
با کمک فیلتر بانک انرژی در هر نقطه محاسبه و لگاریتم آنها مل کپسترومها را که برای محاسبه ضرایب مل ضروری است را ایجاد مینماید.
در [۳۴] از MFCC برای شناسایی اثر انگشت استفاده شده که این ضرایب از تصاویر استخراج شده و به همراه ضرایبی که پس از تبدیل موجک گرفتن از تصویر به دست آمده ، ضرایب چند جملهای آنها را محاسبه و به عنوان ورودی شبکه عصبی در نظر گرفته شده است. چون MFCC ها به عدم تطابق کانال بین آموزش و تست حساسند ضرایب چند جملهای به آنها اضافه میشوند. اهمیت این ضرایب به این دلیل است که آنها میتوانند اطلاعات مهم را همچون متوسط[۱۰۰] وشیب[۱۰۱] و مقدار انحناء[۱۰۲] در مورد شکل یک تابع زمانی را حفظ کنند. در این تحقیق برای استفاده از ضرایب چند جملهای، توابع زمانی از ضرایب کپسترال توسط نمایش چند جملهای متعامد در ۹۰ میلی ثانیه با گام ۱۰ میلی ثانیه بسط داده شده است. که این مدت زمان ۹۰ میلی ثانیهای به نظر میرسد که برای حفظ اطلاعات انتقالی مناسب باشد. در نهایت ضرایب کپسترال به همراه ضرایب چند جملهای مرتبه اول و ضرایب چند جملهای مرتبه دوم استفاده شده است. مرحله کلاسهبندی در سیستمهای شناسایی اتوماتیک در واقع یک فرایند تطبیق ویژگی بین ویژگیها از تصاویر جدید اثر انگشت میباشد. برای انجام این کار از شبکه عصبی MLP استفاده شده و الگوریتم پس انتشار خطا برای آموزش به کار گرفته شده است. در [۳۵] از تصاویری با زمینه ساکن[۱۰۳] که یا تیره و یا روشن میباشد و حالتهای مختلف دست را نشان میدهد استفاده شده است. ۱۳ ضریب MFCC از تصاویر سطح خاکستری محاسبه شده و به عنوان ورودی به کلاسهبند SVM اعمال شده است. در این کار کلاسهبندی بین ۱۰ کلاس مختلف انجام شده و نرخ شناسایی هر کلاس محاسبه شده است. در [۳۶] برای شناسایی کف دست[۱۰۴] ضرایب MFCC به کار گرفته شده و بین ۱۲ تا۲۰ ضریب استخراج و به ضرایبی که بعد از تبدیل ویولت گرفتن از تصاویر استخراج شده اضافه و به عنوان ورودی به شبکه عصبی مانند [۳۴] اعمال شده است.
۴-۴-۵ تبدیل کسینوسی گسسته
در واقع این عمل برای برگرداندن به حوزه فضایی صورت میگیرد و ضرایب مل فرکانسی در نتیجه آن حاصل می شود.
رابطه (۴-۶) C(n)=
که Sk خروجی از k امین فیلتر و N تعداد فیلترها و n= 0 , 1 , …. , M-1 و M تعداد ضرایب است. که همان طور که مشاهده می شود بعد از گرفتن لگاریتم از خروجی فیلتر بانک، عکس تبدیل کسینوسی اعمال و در نهایت ضرایب مل فرکانسی منتج می شود. گرچه DFT معمولا برای آنالیز کپستروم استفاده می شود اما از آن جایی که DCT برای فشرده سازی به کار برده می شود اطلاعات بیشتری را در تعداد کمتری از ضرایب متمرکز می کند. بنابراین فضای کمتری را برای نمایش ضرایب کپستروم استفاده می کند و چون مقادیر مهم انرژی را شامل می شود نسبت به DFT مناسبتر است.
۴-۴-۵-۱ محاسبه ضرایب کسینوسی و ویولت
از جمله ویژگیهایی که استخراج نمودیم ضرایب کسینوسی و ویولت بود. که ماتریس ضرایب کسینوسی پس از استخراج توسط اسکن زیگزاگ به بردار تبدیل کردیم و ضرایب مختلفی از این ضرایب را انتخاب نمودیم و همچنین از ۲/۱ و ۴/۱ و ۸/۱ بردار ضرایب کسینوسی برای محاسبه ضرایب MFCC استفاده کردیم . ضرایب اصلی ویولت و نیز ضرایب MFCC استخراج شده از این ضرایب را نیز به عنوان ویژگی در نظر گرفتیم.
۴-۴-۵-۲ محاسبه ضرایب مل فرکانسی
ناحیه مستطیلی را از تمام فریمهای ویدیو استخراج میکنیم با توجه به اینکه پهنا و اندازه لب گویندگان در فریمهای مختلف هنگام تلفظ کلمات تغییر می کند ابعاد مستطیل متفاوت بوده و بعد از استخراج ضرایب مل فرکانسی هر تصویر تعداد این ضرایب یکسان نمی باشد بنابراین مجبوریم که مینیممی برای تعداد این ضرایب در نظر گرفته و فقط این مقدار از ضرایب را به عنوان بردار ویژگی در نظر میگیریم اما چون تغییرات سایز این جعبه مستطیلی شکل باعث می شود که قسمتی از اطلاعات را نادیده بگیریم تصمیم به یافتن ناحیهای مطلوب با اندازهای مشخص برای تمام گویندگان گرفتیم. ما ضرایب مل فرکانسی را برای این ناحیه مستطیلی محاسبه نمودیم که نتایج خوبی حاصل نگشت بنابراین به دلایل فوق، ناحیهای حول لبها استخراج کردیم.
۴-۵ یافتن مرکز لب و استخراج ناحیه ای حول لب
با بهره گرفتن از ناحیه به دست آمده با الگوریتم بالا با مشخص نمودن مرکز آن ناحیهای را در اطراف لب استخراج کردیم تا بتوانیم سایر قسمت های اضافی از تصاویر را از آنها جدا نماییم و با کاهش سایز تصویر عملکرد آنها را بهبود بخشیم. در نتیجه سایز تصویر را به ۲۲۰*۱۵۰ تغییر دادیم که این عمل را با بهره گرفتن از مراحل قبل و یافتن مرکز ناحیه استخراج شده از تصویر و مشخص نمودن طول و عرض مشخص، انجام دادیم. با توجه به اینکه پهنای لب و شکل لب هر گوینده و فاصله صورت تا دوربین متفاوت است و اینکه ما میخواهیم سایز تصویر نهایی برای تمام افراد یکسان باشد این ناحیه برای برخی گویندگان با لب کوچک ، نواحی اضافهتری در اطراف لب نسبت به گویندگانی که لبهای بزرگتری دارند شامل می شود اما این اندازه حداقل اندازه ای است که به ازای آن تمام لب را شامل می شود. با بهره گرفتن از نتایج به دست آمده در بخش ( ۴-۳-۴) ناحیه مورد نظر [۱۰۵] به صورت زیر استخراج می شود.
شکل ۴-۱۰ ناحیه مورد نظر پیرامون لب
شکل ۴-۱۱ تعداد ۲۵ فریم مربوط به کلمه خرس بعد از یافتن ناحیه مورد نظر
۴-۵-۱ اسکن زیگزاگ
اسکن زیگزاگ مطابق با شکل (۴-۱۲) صورت میگیرد که باعث دستیابی به ضرایب مهم می شود. ضرایب مهم DCT عموماً در گوشه چپ و بالای ماتریس DCT یافت می شود با اسکن زیگزاگ احتمال دستیابی به این ضرایب افزایش مییابد چون ضرایب را به صورت نزولی مرتب می کند. با این روش ماتریس ضرایب DCT به برداری به ابعاد یک در حاصلضرب تعداد سطرها در ستونها تبدیل و ضرایب فرکانس پایین در بالای بردار جمع میشوند. با این عمل مولفههای فرکانس بالا که در اثر نویز به وجود میآیند حذف میشوند و بردار ویژگیها ناهمبسته می شود.
شکل ۴-۱۲ نحوه اسکن زیگزاگ ماتریس
با توجه به این که بزرگ بودن ابعاد ویژگیها سبب می شود که اطلاعات اضافی زیاد شده و در نتیجه روند تصمیم گیری به خوبی صورت نگیرد. بنابراین برای کاهش ابعاد ویژگیها باید از روشهای کاهش ویژگی استفاده کنیم و سایز بردار ویژگیها را کم کنیم.
برای این کار روشهای مختلفی همچون PCA و LDA و LSDA[106] وجود دارد که از روش آخر استفاده کردیم و بردار ویژگی کاهش یافته با این روش را، به عنوان ورودی به شبکه اعمال کردیم و درصد شناسایی شبکه را محاسبه نمودیم.
۴-۵-۲ کاهش ویژگی با LSDA
چون تغییر حرکات لب به صورت نرم است در نظر گرفتن جداسازی بین کلاسهای مختلف تنها کافی نمی باشد و اطلاعات ساختار مکانی نیز مهم میباشد. بنابراین چون LSDA هر دو ساختار جداسازی و هندسی داده ها را با هم در نظر میگیرد روش بسیار خوبی برای کاهش ویژگی میباشد. در [۴۱] این روش معرفی شده است. ما نیز برای کاهش ابعاد ویژگیها این روش را به کار میگیریم تا ببینیم با اعمال این روش دقت شناسایی سیستم چه تغییری می کند. با بهره گرفتن از این روش و محاسبه بردارهای ویژه، اندازه ویژگیها را به ۲۵ تغییر میدهیم و این ویژگیهای جدید را به شبکه اعمال میکنیم.
۲۵ فریم از تصاویر را به صورت دستی انتخاب و تصاویر را با مقیاس ۰٫۷ کوچک نمودیم برای این که اطلاعات کمتری از تصویر حذف شود و ابعاد ویژگیها به گونه ای تغییر کند که بتوانیم آنها را با کمک LSDA کاهش دهیم. تمام ویژگیهایی که قبلا بیان کردیم را با این روش کاهش سایز میدهیم. در جدول زیر نتایج اعمال این روش کاهش ویژگی پس از ۵ بار آموزش و تست بیان شده است. از ۳۸۱ ویدیو برای آموزش و ۱۷۹ ویدیو را برای تست و ۲۰ ویدیو را برای اعتبار سنجی استفاده نمودیم. همانطور که قبلا هم بیان کردیم از شبکه عصبی Feed-Forward دو لایه با تابع فعالسازی تانژانت سیگموید در لایه اول و تابع خطی در لایه دوم استفاده نمودیم. ۲۰ نرون میانی و تعداد ۱۰۰۰ ایپاک[۱۰۷] انتخاب و از گرادیان نزولی با نرخ آموزش متغیر برای آموزش شبکه استفاده نمودیم. ویژگیها را به صورت زیر برچسب گذاری نمودیم.
۱-۱۰ضریب DCT پس از اسکن زیگزاگ، ۲-۵۰ ضریب DCT پس از اسکن زیگزاگ،
۳-۱۰۰ ضریب DCT پس از اسکن زیگزاگ، ۴- ۵۰۰ ضریب DCT پس از اسکن زیگزاگ، ۵- ۱۰۰۰ ضریب DCT پس از اسکن زیگزاگ، ۶ – کل ضرایب DWT، ۷- ضرایب MFCC از ماتریس DCT، ۸- ضرایب MFCC از ۲/۱ ضرایب DCT پس از اسکن زیگزاگ، ۹- ضرایب MFCC از ۴/۱ ضرایب DCT پس از اسکن زیگزاگ، ۱۰- ضرایب MFCC از ۸/۱ ضرایب DCT پس از اسکن زیگزاگ، ۱۱- ضرایب MFCC از ماتریس DWT، ۱۲- ضرایب MFCC از تصاویر.
شکل ۴-۱۳ نتایج حاصل از ویژگیها + LSDA
۴-۵-۲-۱ استفاده از تابع Logsigmoid و تغییر الگوریتم آموزش
اگر به جای تابع خطی در خروجی از تابع Logsigmoid استفاده کنیم یا از این تابع هم در لایه میانی و هم در خروجی استفاده نماییم نتایج خوبی حاصل نمی شود. اگر الگوریتم آموزش را تغییر داده و از گرادیان نزولی همراه با ممنتوم[۱۰۸] استفاده کنیم نیز نتایج مطلوبی به دست نمیآید.
۴-۵-۲-۲ استفاده از تابع Tansigmoid و الگوریتم ممنتوم