رویکرد نیمه پارامتری بیزی به خوشه بندی رگرسیونی کودکان و نوجوانان ایرانی بر اساس ریسک ابتلا به بیماری های قلبی-عروقی و دیابت: مطالعه کاسپین 3

پیام:
چکیده:
مقدمه
امروزه در میان اکثر روش های خوشه بندی داده ها، خوشه بندی مبتنی بر آمیخته ای از توزیع ها، به عنوان یک روش خوشه بندی مدل-محور، مورد توجه بسیار قرار گرفته است. در این راستا، استفاده از آمیخته ای از توزیع های نرمال، متداول شده است. با این وجود، در عمل معمولا توزیع متغیر مورد بررسی در خوشه ها نرمال نیست و دارای ساختارهای چوله و یا دم کلفتی است که توزیع نرمال نمی تواند به درستی آنها را پوشش دهد. بنابراین نیاز به استفاده از توزیع های منعطف تر از نرمال به خوبی احساس می شود. از طرف دیگر در بسیاری از روش های خوشه بندی داده ها از جمله خوشه بندی مبتنی بر آمیخته ای از توزیع ها، تعداد خوشه ها معلوم است. حال آنکه در عمل، معمولا تعداد خوشه ها مجهول است و نیاز است که به همراه سایر پارامترهای توزیع، تخمین زده شود. به همین دلیل استفاده از فرآیند دیریکله به عنوان یک روش نیمه پارامتری، علاوه بر اینکه ساختار منعطف توزیعی را ایجاد می کند، تعداد خوشه ها را نیز مجهول درنظر گرفته و با استفاده از اطلاعات موجود در داده ها آنها را برآورد می کند.
در روش های متداول خوشه بندی، داده های خام، مورد تحلیل قرار می گیرند و تعداد خوشه ها و نحوه تخصیص افراد به خوشه ها، بر مبنای چنین داده هایی صورت می گیرد. حال آنکه با استفاده از روش های خوشه بندی رگرسیونی که در آن نقش عوامل مزاحم بر خوشه بندی با وارد کردن این عوامل به عنوان متغیرهای توضیحی در مدل، حذف می شود، تحلیل دقیق تر و خوشه بندی مناسب تری به دست می آید که در آن، هر فرد با توجه به شرایط فیزیکی و موقعیتی که در آن قرار دارد، به خوشه ایتخصیص می یابد.
در این پژوهش، جهت به دست آوردن بینشی جامع از الگوی سلامت کودکان و نوجوانان بررسی شده در مطالعه کاسپین 3، خوشه بندی افراد نمونه از نظر دو شاخص چربی خون و قند خون، مدنظر قرار گرفته و میزان تاثیر شاخص چاقی، رده سنی و جنسیت بر نحوه خوشه بندی افراد، مورد ارزیابی قرار گرفته است.
روش کار
به منظور برآورد پارامترهای مجهول موجود در مدل، با رویکرد بیز به مساله، از روش های شبیه سازی مونت کارلوی زنجیر مارکفی در نرم افزار اپن باگز استفاده شده است. همچنین خوشه بندی رگرسیونی داده ها مدنظر قرار گرفته که در آن، نقش عوامل مزاحم در خوشه بندی، با وارد کردن آنها به عنوان متغیرهای توضیحی در مدل رگرسیونی، حذف گردیده است. با استفاده از برازش چندین مدل رگرسیونی با متغیرهای توضیحی متفاوت، تاثیر هر یک از عوامل مزاحم مورد بررسی و تحلیل قرار گرفته است و اهمیت خوشه بندی رگرسیونی نسبت به روش متداول، خوشه بندی غیررگرسیونی، آشکار شده است. همچنین به منظور به دست آوردن بینش مناسب در رابطه با تعداد الگوهای افراد در معرض خطر بیماری های قلبی-عروقی و دیابت، بر مبنای دو عامل شاخص چربی خون و قند خون، از فرآیند دیریکله، به عنوان یک روش خوشه بندی مدل-پایه استفاده شده است. در این روش از خوشه بندی، علاوه بر اینکه تعداد خوشه ها با استفاده از اطلاعات موجود در داده ها، تخمین زده می شود، ساختار پارامتری مشخصی نیز برای توزیع خوشه ها درنظر گرفته نمی شود و از این رو، یک روش منعطف و نیمه پارامتری به حساب می آید.
یافته ها
در تخصیص افراد به خوشه ها، عوامل پنهانی تاثیرگذار هستند که شناخت این عوامل، نحوه و علت تخصیص افراد به خوشه ها را توجیه و تفسیر می کند. به این منظور، تاثیر متغیرهای شاخص چاقی، رده سنی و جنسیت بر خوشه بندی با وارد کردن این متغیرها به عنوان متغیرهای توضیحی در مدل رگرسیونی و درنتیجه حذف اثر آنها بر خوشه بندی، مورد بررسی قرار گرفت. نتایج حاصل، منجر به تشکیل سه خوشه شد، به طوری که درصد افراد تخصیص یافته به خوشه های 1 تا 3، به ترتیب برابر با 47% (1310 نفر)، 4%(112 نفر) و 49%(1366نفر) شد. با بررسی چارک های متغیرهای قند خون و چربی خون در خوشه های 1 تا 3 نتیجه می شود که افراد قرارگرفته در خوشه 3 که حجم بزرگی از کودکان و نوجوانان نمونه را تشکیل می دهند، از لحاظ شاخص چربی خون و نیز قند خون، با توجه به شرایط رده سنی، جنسیت و وضعیت چاقی آنها، افراد در معرض خطر محسوب می شوند. همچنین افراد خوشه اول دارای قند خون و شاخص چربی خون نرمال و افراد خوشه دوم دارای قند خون در محدوده خطر و شاخص چربی خون نرمال هستند.
نتیجه گیری
در خوشه بندی جوانان و نوجوانان از لحاظ دو متغیر قند خون و شاخص چربی خون، متغیر رده سنی و شاخص چاقی دو عامل تاثیرگذار بر تعداد و ساختار خوشه ها هستند. همچنین خوشه بندی رگرسیونی با استفاده از فرآیند دیریکله، ضمن اینکه تاثیر عوامل مزاحم در خوشه بندی را حذف و تحلیل های دقیق تری از وضعیت افراد به دست می آورد، تعداد خوشه ها و الگوهای موجود در داده ها را نیز تخمین می زند.
زبان:
فارسی
در صفحه:
422
لینک کوتاه:
magiran.com/p1480715 
دانلود و مطالعه متن این مقاله با یکی از روشهای زیر امکان پذیر است:
اشتراک شخصی
با عضویت و پرداخت آنلاین حق اشتراک یک‌ساله به مبلغ 1,390,000ريال می‌توانید 70 عنوان مطلب دانلود کنید!
اشتراک سازمانی
به کتابخانه دانشگاه یا محل کار خود پیشنهاد کنید تا اشتراک سازمانی این پایگاه را برای دسترسی نامحدود همه کاربران به متن مطالب تهیه نمایند!
توجه!
  • حق عضویت دریافتی صرف حمایت از نشریات عضو و نگهداری، تکمیل و توسعه مگیران می‌شود.
  • پرداخت حق اشتراک و دانلود مقالات اجازه بازنشر آن در سایر رسانه‌های چاپی و دیجیتال را به کاربر نمی‌دهد.
دسترسی سراسری کاربران دانشگاه پیام نور!
اعضای هیئت علمی و دانشجویان دانشگاه پیام نور در سراسر کشور، در صورت ثبت نام با ایمیل دانشگاهی، تا پایان فروردین ماه 1403 به مقالات سایت دسترسی خواهند داشت!
In order to view content subscription is required

Personal subscription
Subscribe magiran.com for 70 € euros via PayPal and download 70 articles during a year.
Organization subscription
Please contact us to subscribe your university or library for unlimited access!