طبقه بندی داده های نامتوازن در تشخیص اولیه بیماری های پستان با روش های آدابوست، شبکه عصبی احتمالی و K تا نزدیک ترین همسایه

نویسنده:

محمد درزی* ، آسیه الفت بخش ، سعید گرگین ، فرید اویسی ، عصمت هاشمی ، نسرین علوی

پیام:

چکیده:

مقدمه

سرطان پستان یکی از سرطان های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این مورد می تواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقه بندی داده های نامتوازن مربوط به بانوان مراجعه کننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقه بندی نرمال و یا غیرنرمال بودن پستان مراجعه کنندگان بود. مجموعه داده های نامتوازن یکی از چالش های پیش روی طراحی سیستم های پزشک یار برای طبقه بندی و تعیین وضعیت بیمار محسوب می شود که در این پژوهش از روش های سطح داده برای حل آن استفاده شد.

روش بررسی

در این مطالعه برای طبقه بندی داده های 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیک ترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که داده های این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونه برداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده سازی الگوریتم ها از امکانات و ابزارهای نرم افزار «متلب» و «آر» استفاده گردید. همچنین برای ورودی الگوریتم های طبقه بندی از 60 متغیر مندرج در کاربرگ های شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتم ها مورد استفاده قرار گرفت.

یافته ها

بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتم های سه گانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتم های AdaBoost.M1، k تا نزدیک ترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد.

نتیجه گیری

روش های مختلفی برای حل مساله عدم توازن مجموعه داده ها به منظور طبقه بندی وجود دارد؛ نمونه گیری مجدد که از روش های سطح داده محسوب می شود یکی از متداول ترین آنهاست. از سه روش نمونه گیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونه گیری مجدد به روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. از بین الگوریتم های به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه داده های این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.

کلیدواژگان:

عدم توازن داده ، طبقه بندی ، بیماری پستان ، K ، AdaBoost ، M1 تا نزدیک ترین همسایه ، شبکه عصبی احتمالی ، نمونه گیری مجدد

زبان:

فارسی

انتشار در:

فصلنامه بیماری های پستان ایران، سال نهم شماره 2 (پیاپی 33، تابستان 1395)

صفحات:

7 تا 11

لینک کوتاه:

magiran.com/p1588622

دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:

اشتراک شخصی

با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!

اشتراک سازمانی

به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!

اطلاعات بیشتر

توجه!

حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.

دسترسی سراسری کاربران دانشگاه پیام نور!

اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!

In order to view content subscription is required

Personal subscription

Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.

Organization subscription

Please contact us to subscribe your university or library for unlimited access!

More information

علمی مصوب

فصلنامه بیماری های پستان ایران

Iranian Journal of Breast Diseases

فصلنامه پزشکی به زبان فارسی و انگلیسی

آخرین شماره | آرشیو

صاحب امتیاز:

جهاد دانشگاهی

مدیر مسئول:

دکتر رامین صرامی فروشانی

سردبیر:

شهپر حقیقت

تلفن نشریه: ۰۲۱-۸۸۸۸۶۹۶۲

اطلاعات بیشتر نشریه

درباره نشریه پیام به نشریه سایت اختصاصی نشریه پذیرش الکترونیکی مقاله راهنمای نویسندگان

به جمع مشترکان مگیران بپیوندید!

طبقه بندی داده های نامتوازن در تشخیص اولیه بیماری های پستان با روش های آدابوست، شبکه عصبی احتمالی و K تا نزدیک ترین همسایه

محمد درزی* ، آسیه الفت بخش ، سعید گرگین ، فرید اویسی ، عصمت هاشمی ، نسرین علوی

عدم توازن داده ، طبقه بندی ، بیماری پستان ، K ، AdaBoost ، M1 تا نزدیک ترین همسایه ، شبکه عصبی احتمالی ، نمونه گیری مجدد

فصلنامه بیماری های پستان ایران

Iranian Journal of Breast Diseases