انتخاب ویژگی مبتنی بر تئوری اطلاعات برای انتخاب ژن های موثر در تشخیص نوع سرطان با استفاده از داده های ریزآرایه
انتخاب ویژگی یکی از فرایندهای پیش پردازش داده ها در مباحث مربوط به یادگیری ماشین و داده کاوی محسوب می شود که در برخی زمینه ها نظیر کار با داده های ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای داده ها در مقابل تعداد کم نمونه ها مواجه است، از اهمیت ویژه ای برخوردار است. انتخاب ویژگی های (ژن های) موثر در تشخیص بیماری از داده های ریزآرایه نقش مهمی در تشخیص زودهنگام بیماری و راه های مواجهه با آن ایفا می کند. در روش های انتخاب ویژگی مبتنی بر تئوری اطلاعات که طیف گسترده ای از روش های انتخاب ویژگی را شامل می شوند، از مفهوم آنتروپی برای تعریف معیارهای مرتبط بودن، افزونگی و مکمل بودن ویژگی ها، استفاده می شود. در این مقاله از مفهوم پیوستگی خالص به جای آنتروپی (پراکندگی) برای پیشنهاد یک معیار جدید مرتبط بودن استفاده شده است. در معیار پیشنهادی، برای کنترل و کاهش افزونگی، ارتباط یک ویژگی با تک تک کلاس ها به طور جداگانه بررسی شده است در حالی که در اکثر روش های فیلتر، ارزش یک ویژگی بر اساس ارتباط آن با کل کلاس ها سنجیده می شود. این راهکار باعث می شود که ویژگی های (ژن های) موثر در هر کلاس به تفکیک شناسایی شوند، در حالی که امکان شناسایی ویژگی های (ژن های) مشترک نیز فراهم است. مشکل دیگری که در برخی روش ها وجود دارد، مسئله گسسته سازی داده ها است. در روش ارائه شده، با استفاده از یک تبدیل مبتنی بر یک ریختی ضمن استفاده از مزایای گسسته سازی از درگیر شدن با پیچیدگی های آن اجتناب شده است. برای مقایسه روش ارائه شده با تعدادی از روش های مرتبط ، از هفت مجموعه داده ریزآرایه مربوط به انواع سرطان به همراه سه دسته بند پرکاربرد بیزین ساده، -kنزدیک ترین همسایه و ماشین بردار پشتیبان استفاده شده است. نتایج تجربی، کارایی روش ارائه شده را بر اساس دو پارامتر دقت دسته بندی و تعداد ژن های انتخابی نشان می دهد.
- حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران میشود.
- پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانههای چاپی و دیجیتال را به کاربر نمیدهد.