اصولاً، سه روش وجود دارد که طی آنها “حافظه” می تواند به شبکه های عصبی ایستا معرفی گردد. این سه روش (که به ترتیب پیچیدگی و توانایی شان نیز افزایش میابد) عبارتند از:
مدلهای تأخیر خطی بهره برداری شده: در این مدل ها، شبکه به منظور تعیین پاسخ خود در یک نقطه زمانی داده شده، بطور واضح ورودی های قبلی را در دسترس دارد (از طریق یک خط تأخیر بهره برداری شده). بنابراین، الگوی فیزیکی تبدیل به یک الگوی فضایی (فاصله ای) می شود که می توان از طریق آن یادگیری را انجام داد، که به آن پس انتشار کلاسیک۲ گفته می شود.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
مدلهای بازرخدادگر جزئی یا مدلهای زمینه: این مدل ها بجای نگهداشتن ورودی های خام قبلی، خروجی قبلی گره ها را نگاه می دارند.
Recurrent
classic back-propagation
۳۸
بعنوان مثال، خروجی نورون های لایه مخفی مربوط به شبکه Feed-Forward می تواند به همراه ورودی های حقیقی، به عنوان ورودی شبکه مورد استفاده قرار گیرد. همچنین به این ورودی های مشتق از شبکه، اصطلاحاً ورودی های زمینه (متنی) نیز گفته می شود. وقتی که روابط میانی حامل این ورودی های زمینه تثبیت گردید، روش پس انتشار کلاسیک می تواند به منظور فرایند فراگیری شبکه مورد استفاده قرار گیرد. انواع پیچیده تر این نظریه پایه ای، شامل خود-بازخورد در ورودی های زمینه یا مشتق کردن ورودی های زمینه از جاهای دیگر در شبکه می باشد.
مدلهای کاملاً بازرخدادگر: این مدلها از بازخورد کامل و ارتباطات میانی بین تمامی گره ها بهره می برند. الگوریتم های فراگیری کاملاً بازرخدادگر، در دو مفهموم زمان و ملزومات ذخیره سازی بطور قابل توجهی پیچیده تر می باشند. مدل های زمینه در جایی بین سادگی یک مدل بهره گیرنده از تأخیر خطی و پیچیدگی یک شبکه کاملاً بازرخدادگر قرار می گیرند. در بسیاری از شرایط، آنها راه حل های رقابتی را ارائه می نمایند.
۳-۱۱ نقشه های ویژگی خودسازمان دهنده۱
برخلاف شبکه های عصبی Feed-Forward و بازرخدادگر که اصولاً برای مقاصد تخمین و طبقه بندی مورد استفاده قرار می گیرند، نقشه های ویژگی خودسازمان دهنده (SOFM ها) عمدتاً به منظور تخمین چگالی و یا به منظور تجسم الگوها از یک فضای با ابعاد بیشتر در یک فضای با ابعاد کمتر استفاده می شوند. این تجسم، بدون پارامتر بوده و بواسطه ترسیم الگوهای ورودی در داخل پاسخ های گره های چیدمان شده در یک شبکه توری منظم بدست می آید.
Self-Organizing
۳۹
SOFM که اساساً توسط کوهنن۱ ارائه گردیده، کاربرد گسترده ای بعنوان یک روش ترسیم یا نگاشت برای داده های با ابعاد زیاد یافته است. در مقایسه با روش های جاری، بازنمایش های داده های فضایی مبتنی بر SOFM (از قبیل ضریب هدایت هیدرولیک، شتاب، توپوگرافی و غیره) دو مزیت جداگانه را ارائه می نمایند: (۱) تخمین غیر پارامتریک توزیع زمینه؛ و (۲) یک بازنمایش که بطور کامل ساختار توپولوژیکی توزیعهای زمینه را حفظ می نماید. بطور خاص تر، SOFM ها از یک لایه رقابتی از گره ها برخوردارند که در یک شبکه توری چیدمان شده و هر گره از طریق وزن های قابل تنظیم به تمامی ورودی ها مرتبط می باشد. در شروع فرایند فراگیری، این وزن ها بطور تصادفی شناسایی می شوند. وقتیکه یک الگوی ورودی (فرض کنید اندازه گیری رطوبت خاک در یک مکان) بعنوان ورودی عرضه می گردد، نخستین گام در فرایند فراگیری یک SOFM، محاسبه یک مقدار متناظر برای هر گره در لایه رقابتی می باشد. این مقدار، میزانی را می سنجد که بدان اندازه وزن هر گره با مقادیر متناظر الگوی ورودی مطابقت می نماید. گره ای که نزدیکترین مطابقت به ورودی را داشته باشد، به عنوان یک واحد بَرنده شناسایی می گردد. وزن های روابط میانی بین واحد بَرنده و نزدیکترین همسایگان وی (در آن شبکه توری که پیشتر ذکر شد) بروز رسانی می شوند تا بیشتر با الگوی ورودی مطابقت نمایند. سپس الگوی ورودی دیگری از میان مجموعه داده انتخاب گردیده و این فرایند آنقدر تکرار می شود تا وزن های روابط میانی از تغییر باز ایستند. حاصل این فراگیری، یک نقشه توپولوژیکی خواهد بود که در آن چگالی مماس داخلی وزنها به مقادیر داده های فراگیری نزدیک می شود. شباهتهای میان الگوها در وزن های نورون های همسایه نگاشت می شود.
Kohonen (1989, 1990)
۴۰
۳-۱۲ جنبه های مهم مدلسازی شبکه عصبی مصنوعی
حتی با وجودی اینکه می توان یک چارچوب عمومی مبتنی بر کاربردهای موفق قبلی در مهندسی را دنبال نمود، هیچ قانون ثابتی برای ساخت یک شبکه عصبی مصنوعی وجود ندارد. برخی مشکلاتی که عمدتاً در هنگام ساخت یک شبکه عصبی مصنوعی بروز می کنند بطور خلاصه در این بخش آورده شده است.
۳-۱۲-۱ انتخاب متغیرهای ورودی و خروجی
هدف یک شبکه عصبی مصنوعی عمومی سازی ارتباط شکل زیر است:
(۳-۲۶)
که در آن یک بردار ورودی n بُعدی و متشکل از متغیرهای ؛ و یک بردار خروجی n بُعدی و متغیرهای می باشد. ما از واژه “عمومی سازی” برای دلالت بر این موضوع استفاده می کنیم که شکل تابعی f(0) در معادله (۳-۲۶) بطور مشخص آشکار نخواهد شد، اما توسط پارامترهای شبکه نمایش داده می شود. انتخاب یک بردار ورودی مناسب که به شبکه عصبی مصنوعی اجازه دهد تا با موفقیت بر بردار خروجی مورد نظر نگاشت نماید امر بی اهمیت و ناچیزی نیست. بر خلاف مدل های مبتنی بر فیزیک، مجموعه متغیرهایی که بر سیستم تأثیر می گذارند به عنوان یک اولویت شناخته نمی شوند. در چنین فرایند غیر خطی ای، دیگر یک شبکه عصبی مصنوعی نباید به صورت یک جعبه سیاه (که داخل آن قابل رویت نیست)در نظر گرفته شود. بعنوان مثال، یک دید فیزیکی بهتر نسبت به مسئله مورد مطالعه، می تواند منجر به انتخاب متغیرهای ورودی بهتر برای نگاشت مناسب گردد. این امر کمک خواهد کرد تا از فقدان اطلاعات که در صورت حذف متغیرهای ورودی کلیدی می تواند رخ دهد پیشگیری شده و همچنین، از داخل
۴۱
شدن ورودی های جعلی یا نادرست که میل به مغشوش کردن فرایند فراگیری را دارند جلوگیری بعمل آید. زمانیکه داده کافی در دسترس است، یک تحلیل حساسیت می تواند به منظور تعیین اهمیت نسبی متغیرها صورت پذیرد. متغیر های ورودی که تأثیر قابل ملاحظه ای بر عملکرد یک شبکه عصبی مصنوعی ندارند می توانند از بردار ورودی پاک شوند که این امر به نوبه خود منجر به شبکه ای فشرده تر می شود.
۳-۱۲-۲ جمع آوری و پردازش داده
داده ها را می توان از یک مدل و هم از یک آزمایش لابراتواری به منظور تولید الگوی های داده ای برای کاربردهای خاص استفاده نمود. مجدداً به نظر می رسد که هیچ روش ثابتی برای تعیین تعداد زوج داده های ورودی-خروجی که لازم است، وجود ندارد. برای حصول اطمینان از یک تقریب خوب، کارپنتر و بارتلمی۱ عنوان نموده اند که تعداد زوجهای داده ای مورد استفاده برای فراگیری باید مقداری برابر یا بزرگتر از تعداد پارامترها (وزن ها) در شبکه باشد. یک مجموعه داده بهینه باید نماینده ای از رخدادهای احتمالی یک بردار ورودی بوده و می بایست نگاشت فرایند غیر خطی نهفته در زیر را تسهیل سازد. مشمول نمودن الگوهای غیر ضروری، می تواند فراگیری شبکه را کند نماید. در مقابل، یک مجموعه داده ناکافی می تواند منجر به یک یادگیری ضعیف گردد. این موضوع، تحلیل و پیش پردازش داده، قبل از آنکه توسط شبکه عصبی مصنوعی بکار گرفته شوند را تبدیل به امری کارآمد می کند. فرآیندهای روزمره از قبیل ترسیم و آزمایش کردن آمار و ارقام، گاهاً بحث در مورد واقعیت داده و احتمالاً حذف بخش مجزا، مؤثر می باشد. در بسیاری از موارد، لازم است تا داده پیش از اعمال شدن بر روی شبکه عصبی مصنوعی، رمزگذاری، نرمالیزه و تغییر شکل داده شود.
Carpenter & Barthelemy (1994)
۴۲
۳-۱۲-۳ طراحی شبکه عصبی مصنوعی
این گامِ مهم، درگیر تعیین معماری یک شبکه عصبی مصنوعی و انتخاب یک الگوریتم فراگیری می باشد. یک معماری بهینه می تواند آن چیزی باشد که بهترین عملکرد را در زمینه کاهش خطا به نتیجه رساند، در حالیکه ساختاری ساده و فشرده را حفظ می کند. هیچ نظریه متحدی برای تعیین چنین معماری بهینه ای برای شبکه عصبی مصنوعی وجود ندارد. اغلب، بیش از یک شبکه عصبی مصنوعی می توانند نتایج مشابهی را تولید نمایند. تعداد گره های ورودی و خروجی وابسته به مسئله هستند. در معادله (۳-۲۶) تعداد گره های ورودی و خروجی برابر n و m می باشند. میزان انعطاف پذیری در انتخاب تعداد لایه های مخفی و الصاق تعداد گره به هر یک از این لایه ها نهفته است. برای تصمیم گیری در مورد معماری بهینه معمولاً یک فرایند آزمون و خطا انجام می شود. همانطور که پیشتر ذکر شد، الگوریتم فراگیری همبستگی آبشاری یک روش کارآمد به منظور یافتن معماری بهینه می باشد. پتانسیل شبکه های عصبی Feed-Forward می تواند به سه فاکتور موصوف گردد: (۱) شبکه های عصبی Feed-Forward چند لایه ای نیاز به یک معادله ریاضیاتی دقیق که ورودی ها و خروجی ها را به یکدیگر مربوط سازد ندارد؛ (۲) یک شبکه Feed-Forward با یک لایه مخفی و تعداد دلخواهی از گره های حلقوی مخفی می تواند هر تابع پیوسته ای را تقریب زند؛ (۳) یک شبکه Feed-Forward با یک لایه مخفی متشکل از m گره حلقوی، یک مجذور خطای جمع شده O(1/m) را بدست می آورد، در حالیکه یک ترکیب خطی از یک مجموعه متشکل از m تابع ثابت، یک مجذور خطای جمع شده را بدست خواهد آورد، در حالیکه d بُعد ورودی می باشد. نکات ۱ و ۳ در بالا به برتری محاسباتی شبکه عصبی مصنوعی Feed-Forward اشاره دارند، در حالیکه مورد ۲ به یک نظریه موجود اشاره دارد که قابلیتهای یک شبکه عصبی مصنوعی Feed-Forward را تصدیق می کند. با این وجود، این امر اجازه تعیین
۴۳
سیستماتیک تعداد گره های مخفی به منظور استفاده در یک موقعیت داده شده را میسر نمی سازد. تعداد نورون های لایه مخفی بطرز چشمگیری بر عملکرد شبکه تأثیر می گذارد. با تعداد گره خیلی کم، شبکه تقریبهای ضعیفی خواهد زد، در حالیکه با تعداد گره خیلی زیاد، داده فراگیری را تطبیق بهتری خواهد نمود. تأثیر اندازه یک شبکه عصبی بر عملکرد تولیدی آن به خوبی شناخته شده است. یک مرور اجمالی از روش های ارائه شده امکان تعیین معماری شبکه با سطح عملکرد قابل قبول بر روی داده های تولیدی را میسر می سازد. برخی از تکنیک های محبوب عباتند از:
بزرگ کردن شبکه و هرس کردن شبکه. این الگوریتم ها با ساختار شبکه بعنوان یک پارامتر بهینه سازی بهمراه وزن ها رفتار می کند. الگوریتم های هرس کردن، عموماً با یک شبکه بزرگ آغاز کرده و با حذف وزن ها به میزانی که کمترین خطا حس شود، کار خود را به پیش می برد. از سوی دیگر، روش های رشد، عمدتاً با یک شبکه کوچک آغاز کرده و گره هایی با ارتباط کامل به گره های موجود در شبکه را، در زمانیکه یک معیار انتخاب شده مناسب (درگاشت، کوواریانس و غیره) از کاسته شدن باز می ایستد، اضافه می نماید. یک روش جایگزین برای این روش ها، “به اشتراک گذاری نرمِ وزن” نامیده می شود، که در آن گروه هایی از وزن ها ترغیب می شوند تا مقداری برابر داشته باشند، که این امر امکان یک کاهش در تعداد مؤثر پارامتر های آزاد در شبکه را میسر می سازد. به اشتراک گذاری نرمِ وزن، می تواند یک شبکه بزرگ را مقدار اندکی از داده های یادگیری، آموزش دهد؛ اما به منظور حصول اطمینان از همگرایی با راه حل های خوب، شناسایی اولیه و مناسب وزن ها امری ضروری خواهد بود.
کوتاری و آجی پونگ۱، نشان داده اند که بکارگیری ارتباطات جانبی در یک شبکه Feed-Forward،
Kothari & Agyepong (1997)
۴۴
منجر به یک واگذاری کنترل شده نقش در نورون های لایه مخفی که با گره های لبه شروع می شوند، شده و گره های موجود در مرکز لایه مخفی را بصورت نظارت نشده رها می کند. در نتیجه، شبکه آنها بدلیل عدم نیاز مشخص به افزودن واحد های مخفی مانند یک الگوریتم رشد، و به دلیل وجود نورون های مشابه در مرکز لایه مخفی مانند روش “به اشتراک گذاری نرمِ وزن”، رفتار خواهد نمود. این محلی سازی الگوریتم “به اشتراک گذاری نرمِ وزن” امکان تعیین سیستماتیک تعداد نورون های لایه مخفی که برای یک عمل یادگیری داده شده لازم است را میسر می سازد.
۳-۱۲-۴ آموزش و آموزش متقابل۱
مجموعه داده قابل دسترسی عموماً به سه قسمت برای آموزش، آموزش متقابل و تصدیق اعتبار تقسیم بندی می گردد. هدف از آموزش عبارتست از تعیین مجموعه ای از وزن های ارتباطات و حدود آستانه گره ای، که سبب می شود تا شبکه عصبی مصنوعی خروجی هایی را تخمین بزند که به میزان کافی به مقادیر هدف نزدیک باشند. مجموعه داده رزرو شده برای آموزش برای حصول این هدف بکار گرفته می شود. این کسر از کل داده ای که قرار است به منظور آموزش استفاده شود باید شامل الگوهای کافی باشد تا اینکه شبکه بتواند روابط زیربنایی میان متغیر های ورودی وخروجی رابه میزان کافی تقلید نماید. به وزنها ومقادیر آستانه در شروع کار، مقادیر کوچک و تصادفی داده می شود (معمولاً ۰.۳- تا ۰.۳). در طول آموزش، این مقادیر براساس خطا، یا اختلاف بین خروجی شبکه عصبی مصنوعی و پاسخ های هدف تنظیم می گردند. این تنظیم مقادیر می تواند بطور بازگشتی آنقدر تکرار شود تا یک فضای وزن پیدا شود که منتج به کوچکترین خطای کلی پیش بینی شود.
Trianing and Cross Training
۴۵
البته با این روش، خطر بیش آموزشی ِ شبکه نیز وجود دارد که به آن بیش تطبیقی۱ گفته می شود. این اتفاق زمانی رخ می دهد که پارامتر های شبکه برای مجموعه داده آموزشی بسیار دقیق میزان سازی می شوند. این مانند آن است که شبکه، در فرایند تلاش برای “یادگیری” قوانین زیربنایی، شروع به تلاش برای تصحیح بخش نویز داده را نیز کرده باشد. بعبارت دیگر، بیش آموزش، باعث می شود تا یک شبکه بجای بخاطر سپردن روندهای موجود در مجموعه داده بعنوان یک کل، صرفاً یکسری نمونه های واحد را بخاطر بسپارد. وقتی چنین اتفاقی می افتد، شبکه عملکردی بسیار عالی را بر روی مجموعه داده آموزشی به معرض نمایش می گذارد، در حالیکه با داده هایی غیر از آن مجموعه آموزشی، توانایی های پیش بینی ضعیفی را از خود بروز می دهد. به منظور پیشگیری از چنین بیش تطبیقی هایی، اغلب یک زیر روال آموزش متقابل توصیه می گردد. هدف از چنین زیر روالی، متوقف کردن آموزش در مواقعی است که شبکه شروع به بیش آموزشی می نماید. بخش دوم داده بدین منظور رزرو می شود. پس از تنظیم پارامترهای شبکه در هر دوره، شبکه عادت دارد تا خطای آن مجموعه داده را بیاید. ابتدا، خطاهای هر دو مجموعه داده ی آموزش و آموزش متقابل پایین می آیند. بعد از آنکه یک مقدار بهینه از آموزش بدست آمد، خطای مجموعه آموزش به کاهش خود ادامه داده، اما خطاهای مجموعه آموزش متقابل روبه افزایش می گذارد. این نشان دهنده آن است که آموزش بیشتر احتمالاً منجر به بیش تطبیقی بر روی داده آموزشی در شبکه خواهد گردید. در این لحظه، فرایند یادگیری متوقف شده و فرض بر آن گذاشته می شود که مجموعه وزن ها و مقادیر آستانه جاری مقادیر بهینه هستند. حال شبکه بعنوان ابزاری پیش بینی کننده قابل استفاده است. چنانچه مجموعه داده قابل دسترسی برای تقسیم بندی خیلی کوچک باشد، ساده ترین راه برای اجتناب از بیش تطبیقی، توقف آموزش در زمانی است که میانگین مجذور خطا بطور چشمگیری از کاهش باز می ایستد.
Overfitting
۴۶
۳-۱۲-۵ تصدیق اعتبار مدل
عملکرد یک شبکه عصبی مصنوعی آموزش داده شده نیز می تواند بواسطه قرار گیری در معرض الگوهای جدیدی که در طول فرایند یادگیری توسط شبکه عصبی مصنوعی دیده نشده است، کاملاً مورد ارزیابی قرار گیرد. عملکرد یک شبکه می تواند بواسطه محاسبه درصد خطای بین مقادیر پیش بینی شده و مقادیر مورد نظر، تعیین گردد. علاوه بر این، ترسیم خروجی مدل در مقایسه با پاسخ مورد نظر نیز می تواند به منظور ارزیابی عملکرد شبکه عصبی مصنوعی مورد استفاده قرار گیرد. از آنجائیکه پیدا کردن پارامترهای بهینه شبکه اساساً یک فرایند حداقل سازی است، چندین مرتبه تکرار فرایندهای تکرار آموزش و تصدیق اعتبار به منظور حصول اطمینان از اینکه نتایج رضایت بخش حاصل شده است، امری قابل توصیه می باشد.
۳-۱۳ برخی مشکلات دیگر
برخی کاربردهای شبکه عصبی مصنوعی، بر اهمیت مقیاس گذاری کمیت های ورودی و خروجی پیش از ارائه آنها به شبکه تأکید کرده اند. برای مسائلی که غیر خطی بودن بالایی را به معرض نمایش می گذارند، توصیه بر آنست که متغیر ها بین بازه صفر تا یک، یا بازه مناسب دیگری تغییر مقیاس داده شوند. این قبیل مقیاس گذاری، مشکلات فضای راه حل را مرتفع کرده و برخی تأثیرات نویز را میانگین گیری می کند. البته، بواسطه این زیرروال ها، تا حدودی خطر از دست دادن اطلاعات نیز وجود دارد.
شناسایی اولیه مقادیر وزن ها و حدود آستانه، مورد مهم دیگری است که باید لحاظ گردد. هر چقدر حدس اولیه به فضای وزنی بهینه نزدیکتر باشد، فرایند آموزش سریعتر به انجام می رسد. البته هیچ راهی برای
انجام یک حدس خوب برای وزن ها وجود ندارد و آنها به شیوه ای تصادفی شناسایی می گردند. معمولاً،
۴۷