دانلود با لینک مستقیم و پر سرعت .
در این گزارش قصد داریم جهت بررسی روشهای بازشناسی آماری الگو[1]، دو مجموعه داده را معرفی و مورد استفاده قرار دهیم. دیتاست[2] اول، عنوان " INFO ON BUPA LIVER DISORDERS " را دارد و وجود یا عدم وجود اختلالات کبد[3]345شخص را با استفاده از 6 خاصیت خون آنها نشان می دهد. لازم به ذکر است که در اثر مصرف نوشیدنیهای الکلی ،کبد انسان دچار تغییرات ظاهری و رفتاری زیانباری می گردد. دیتاست دوم تحت عنوان " PIMA INDIANS DIABETES " است که در آن نیز768 نفر بالای 21 سال مورد مطالعه قرار گرفته اند. بدین صورت که با استفاده از اندازه گیری 6 خاصیت در مشخصات ظاهری و خون این افراد، وجود یا عدم وجود بیماری دیابت در آنها مشخص گردیده است.
در ابتدا مشخصات هر دیتاست به طور مفصل شرح داده می شود و سپس مراحل و مراجع استفاده شده برای استخراج اطلاعات آماری و همچنین نتایج حاصل از بررسی جمعی این داده ها رابیان می کنیم. برای بکارگیری روشهای شناسایی آماری الگو در این مجموعه دادها، آنها را به دو بخش جهت آموزش و تست دسته بندی کننده، تقسیم می کنیم. برای بهینه کردن نتیجه حاصل باید پارامترهای آن در مرحله آموزش بدرستی انتخاب شوند. در پایان این گزارش نیز بر اساس اطلاعات آماری استخراج شده، نتیجه گیری کلی صورت می گیرد.
- قسمت اول : مجموعه دادهBUFA" "
1.1 مجموعه داده:
مجموعه داده "BUPA LIVER DISORDER " توسط مرکز تحقیقات پزشکی bupa در سال1992 جمع آوری شده است.هدف آن بررسی و تشخیص اختلالات ایجاد شده در کبد بدن انسان می باشد که با استفاده از بررسی تعدادی از خواص خون شخص حاصل می شود. این اختلالات از مصرف بی رویه الکل ناشی می گردند.
جهت تحقق این امر نتایج حاصل از آزمایش خون 345 نفر انسان مذکر در قالب 6 ویژگی [4]که شامل موارد ذیل است، در نظر گرفته شده است.
شماره ویژگی
نام ویژگی در dataset
توضیحات
1
mcv
حجم متوسط کپسولی
2
alkphos
میزان آنزیم alkaline phosphotase
3
sgpt
میزان آنزیم alanine aminotransferase (ALT)
4
sgot
میزان آنزیم aspartate aminotransferase (AST)
5
gammagt
(gamma-G) gamma-glutamyl transpeptidase میزان آنزیم
6
drinks
مقدار مصرف روزانه مشروب الکلی : 1/2 pint (250 سی سی)
لازم به ذکر است که در اثر مصرف زیاد مشروبات الکلی ظاهر و عملکرد کبد دچار تغییرات زیان آوری می شود. این اختلالات کبد باعث کاهش یا افزایش 6 خاصیت فوق الذکر در خون می گردد.
هر رکورد در این مجموعه داده شامل اندازه این شش خاصیت طی آزمایش گرفته شده از خون اشخاص می باشد و همانطور که قبلا بیان شد تعداد رکوردها 345 عدد است. می توان از روی مقدار این ویژگیها در خون تشخیص داد که کبد بدن شخص مذکور دچار تغییرات (ظاهری و رفتاری) شده است یا خیر. بنابراین تمامی این رکوردها را می توان به دو دسته کلی تقسیم نمود. کلاس یک نماینگر افراد سالم و کلاس دو نماینده افراد بیمار هستند. از این تعداد نمونه 66 درصد (200 نمونه) از کلاس یک، 34 درصد (145 نمونه) از کلاس دو می باشد.
مجموعه داده های فوق از مخزن پایگاه داده UCI به نشانی اینترنتی ftp://ftp.ics.uci.edu/pub/machine-learning-databases/liver-disorders اخذ شده است.اطلاعات تمامی 345 رکورد به صورت کامل ثبت گردیده و هیچ مقدار نامعلوم و از دست رفته ای وجود ندارد.[5]
جهت استفاده از دیتاست آن را به دو بخش، یکی برای آموزش[6] و دیگری برای تست دسته بندی[7] کننده تقسیم کردیم .مجموعه آموزش شامل260 نمونه می باشد که میتوان رکورد هایی از هر دو نوع کلاس را در آن یافت. برای بهینه کردن نتیجه حاصل باید پارامترها در مرحله آموزش بدرستی انتخاب شوند. 85 رکورد باقیمانده نیزجهت مجموعه تست استفاده می شوند
شامل 16 صفحه فایل word قابل ویرایش