به جمع مشترکان مگیران بپیوندید!

تنها با پرداخت 70 هزارتومان حق اشتراک سالانه به متن مقالات دسترسی داشته باشید و 100 مقاله را بدون هزینه دیگری دریافت کنید.

برای پرداخت حق اشتراک اگر عضو هستید وارد شوید در غیر این صورت حساب کاربری جدید ایجاد کنید

عضویت
جستجوی مقالات مرتبط با کلیدواژه

clustering

در نشریات گروه پزشکی
  • Samaneh Alsadat Saeedinia, Mohammad Reza Jahed-Motlagh *, Abbas Tafakhori
    Background
    This study aims to improve the accuracy and reliability of migraine detection by combining the localized component filtering (LCF) method with the electroencephalographic (EEG) spectral asymmetry index (SASI) method. The integration of LCF and SASI in the frequency domain under 3 Hz photic stimulation offers a novel approach for robust classification.
    Methods
    EEG recordings from 13 control subjects and 15 migraineurs were used in this study. The SASI values, obtained from LCF pre-processed signals, served as features for classification. The K-means clustering algorithm was applied, and the accuracy was evaluated using the silhouette values method.
    Results
    The combination of the LCF method with the SASI technique resulted in a 17% improvement in clustering accuracy, achieving an overall accuracy of around 87%. This new approach outperformed the histogram K-means clustering method and the SASI technique used alone. The accuracy attained by this combined approach was as high as multi-layer perceptron (MLP) and superior to K-means clustering, which are two well-known approaches of artificial and machine learning (ML) clustering methods, respectively.
    Conclusion
    This study presents a novel and effective approach by combining LCF and SASI for migraine detection, which enhances classification accuracy and provides valuable insights into migraine-related brain activity. Accurate and reliable detection of migraine can lead to more effective treatment and management of the condition, ultimately improving the quality of life for migraine sufferers.
    Keywords: Electroencephalography, Migraine Disorders, Clustering, Artifact Rejection, Detection Method
  • Shayeste Alinia, Shahram Arsang-Jang, Kamyar Mansouri *
    Background

    The incidence of hyperlipidemia in Iran is on a consistent rise, potentially contributing significantly to increased susceptibility to cardiovascular diseases and other health complications linked to elevated blood lipid levels. This study employs hierarchical Bayesian model to assess the heightened lipid risk on a broader scale across Iran's provinces. Thise model play a pivotal role in spatial modeling, adeptly handling uncertainties arising from diverse spatial data sources.


    Methods

    This study included individuals diagnosed with hyperlipidemia from all provinces of Iran in 2019. The primary focus of the investigation included essential variables such as the mean age, gender distribution, and the documented incidence of hyperlipidemia cases in each province. Population data, stratified by province, age group, and gender, were sourced from the Iranian Statistics Center database. Utilizing a direct approach, disease prevalence and expected case numbers were calculated. The analysis employed the Besag-York-Mollié (BYM) model, with parameter estimation executed through the Hamiltonian Monte Carlo method.


    Results

    In this investigation, the prevalence and spatial distribution of hyperlipidemia were explored within a diverse population of 1,609,538 patients across various regions in Iran. The relative risk of hyperlipidemia surpassed 1 in 16% of Iranian provinces (posterior probability > 0.8), with a calculated 95% confidence interval of 0.304 to 0.879. The overall prevalence of hyperlipidemia was determined to be 0.815. Significant heterogeneity in hyperlipidemia was identified among different provinces, with Tehran exhibiting the highest relative risk (RR=1.701; 95% CrI: 1.69, 1.713). Notably, gender (RR=1.008; CI: 1.007, 1.009 for males and RR=1.005; CI: 1.003, 1.007 for females) and age were not found to have a statistically significant effect on the relative risk of the disease.


    Conclusions

    In conclusion, this investigation employed hierarchical Bayesian models to evaluate the prevalence and spatial distribution of hyperlipidemia across the provinces of Iran. The analysis unveiled a significant escalation in the relative risk of hyperlipidemia in 16% of Iranian provinces, underscoring the spatial heterogeneity in disease prevalence. This study contributes invaluable insights into the spatial dynamics of hyperlipidemia in Iran, establishing a groundwork for the formulation of targeted public health strategies.

    Keywords: Random Effect Model, Hierarchical Model, Clustering, Epidemiology, Hyperlipidemi
  • Mehrdad Kargari *, Arefeh Valiollahi
    Hypertension, a severe chronic disease and a primary risk factor for cardiovascular issues, poses significant challenges in treatment and decision-making for physicians. Recommender systems present a promising avenue for enhancing hypertension care decision-making processes. However, traditional approaches such as collaborative filtering encounter challenges like data sparsity and scalability. To address these challenges, machine learning based recommender systems have been explored. This study presents an enhanced collaborative filtering method, integrating clustering and group recommendation techniques. The proposed research aggregates group recommendations for each cluster using static and dynamic methods. For new patients, three similarity measures are employed to select relevant recommendations from the most similar case cluster. The findings demonstrate the model's satisfactory performance, particularly when employing dynamic group recommendation and Euclidean similarity, showcasing improved accuracy in terms of Mean Absolute Error (MAE).
    Keywords: Clustering, Hypertension, Machine Learning, Recommender System
  • Arefeh Dehghani Tafti, Yunes Jahani, Sara Jambarsang, Abbas Bahrampour

    In the last few decades, in many research fields, different methods were introduced to discover groups with the same trends in longitudinal data. The clustering process is an unsupervised learning method, which classifies longitudinal data based on different criteria by performing algorithms. The current study was performed with the aim of reviewing various methods of longitudinal data clustering, including two general categories of non-parametric methods and model-based methods. PubMed, SCOPUS, ISI, Ovid, and Google Scholar were searched between 2000 and 2021. According to our systematic review, the non-parametric k-means Clustering Method utilizing Euclidean distance emerges as a leading approach for clustering longitudinal data This research, with an overview of the studies done in the field of clustering, can help researchers as a toolbox to choose various methods of longitudinal data clustering in idea generation and choosing the appropriate method in the classification and analysis of longitudinal data.

    Keywords: Clustering, Longitudinal Data, Non-Parametric Methods, Model-Based Methods
  • Leila Torkzadeh, Habib Jalilian, Hojjat Rahmani, Milad Bakhshi, Saeed Hashemzadeh, Mohammad Faryabi, Rahim Khodayari-Zarnaq
    Background

    Identifying different groups of customers and their preferences and needs enable countries to gain a competitive advantage in the medical tourism market. We aimed to segment medical tourists from West Asian countries seeking medical services in Iran.

    Methods

    This cross-sectional study was conducted on 596 medical tourists who sought medical services in Iran in 2021. Data were collected using a valid questionnaire. Segmentation was performed based on medical tourism attributes (medical, destination, and tourism attributes), using cluster analysis methods; wards, and K means. The segments ' evaluation and profiling were conducted using discriminant analysis, chi-square, and one-way ANOVA tests.

    Results

    Our study divided the market into five segments: health seekers (3.8%), health and destination seekers (8.9%), tourism seekers (17.8%), infrastructure seekers (10.23%), and perfectionism (59.45%). In all segments, the health attributes were of high importance. The perfectionism segment registered the highest score in all three attributes (more than 5 of 6).

    Conclusion

    Improving health attributes and offering luxurious medical services can be the main strategy for Iran to attract the most medical tourists and achieve a good position in this marketplace. The implication of this study is policymaking for targeting the most profitable segment of this marketplace.

    Keywords: Medical tourism, Health tourism, Market segmentation, Marketing, Clustering
  • رجبعلی درودی، ابراهیم جعفری پویان، هوشنگ گلزار*
    مقدمه

    با ظهور چالش های جدید این صنعت، تلاش برای یافتن راهکارهای نوین جهت بهبود کیفیت خدمات، مدیریت بهینه منابع، و افزایش رضایت بیمه شدگان اهمیت بیشتری پیدا کرده است. یکی از رویکردهای مهم در بهبود این حوزه، استفاده از تکنیک های داده کاوی به منظور شناسایی الگوهای رفتاری بیمه شدگان در مراجعات سرپایی به موسسات تشخیصی و درمانی می باشد.

    روش بررسی

    مطالعه حاضر از نوع توصیفی- مقطعی بوده و مجموعه داده های آن متعلق به اداره کل بیمه سلامت استان بوشهر است. پس از آماده سازی داده ها، تحلیل با استفاده از نرم افزار SPSS Clementine12.0 انجام گردید. برای مدل سازی الگوریتم K-means در دو حالت جمعیت شناختی و مبتنی بر (Recency-Frequency- Monetary)RFM شامل مقادیر زمان شروع بیمه، تعداد دفعات مراجعه و ارزش نوع بیمه اجرا شد تا ارتباط بین متغیرهای مختلف بدست آید. نمونه گیری با روش سرشماری انجام گردید. جامعه آماری شامل اطلاعات کلیه مراجعات سرپایی بیمه شدگان تحت پوشش بیمه سلامت استان بوشهر به تعداد 1,420,579 مراجعه در سال 1397 به مراکز تشخیصی درمانی است که با مراجعه مستقیم پژوهشگر به بانک اطلاعاتی اسناد پزشکی تهیه گردیده است.

    یافته ها

    مقدار شاخص ریشه میانگین مربع انحراف از معیار برای خوشه بندی مبتنی برRFM و جمعیت شناسی به ترتیب 21 و 21.65 است. و شاخص دان (Dunn) بهتر بودن خوشه بندی مبتنی بر RFM را تایید کرد. الگوریتم K-Means مبتنی RFM، داده ها را در 4 خوشه قرار داد به طوریکه 44 درصد بیمه شدگان در خوشه یک، 4 درصد در خوشه دو، 22 درصد در خوشه سه و 30 درصد در خوشه چهار قرار گرفتند. بر این اساس بیمه شدگان خوشه 2 شامل زنان دارای بیمه سایر اقشار با 4 درصد جمعیت به عنوان پرمراجعه ترین و خوشه 3 شامل زنان دارای بیمه روستایی با 22درصد جمعیت کم مراجعه ترین بیمه شدگان مشخص گردیدند.

    نتیجه گیری

    مدل بدست آمده بیمه شدگان را در 4 خوشه قرارداد. این تحلیل به سازمان این امکان را می دهد که الگوهای مراجعه برای هر یک از این خوشه ها را نسبت به متغیرهای سن، جنسیت و نوع بیمه شناسایی نماید. نقطه قابل بهبود در این حیطه حفظ منافع بیمه شدگان و ارائه خدمات شایسته و درخور برای هر خوشه است. نتایج نهائی حاصل شده نشان دهنده وجود الگوهای مطلوب به عنوان یک ابزارتصمیم گیری مناسب جهت افزایش رضایت مندی بیمه شدگان در سازمان مطرح می گردد.

    کلید واژگان: داده کاوی، خوشه بندی، بیمه سلامت
    Rajabali Daroudi, Ebrahim Jaafaripooyan, Houshang Golzar*
    Introduction

    In recent decades, the field of health insurance has emerged as one of the vital components of the healthcare system, propelled by continuous advancements in technology and the increasing complexity of medical services and technologies. With the advent of new challenges in this industry, there has been a heightened effort to find innovative solutions to enhance service quality, optimize resource management, and increase the satisfaction of insured individuals. One significant approach in improving this domain involves the application of data mining techniques to identify behavioral patterns among health insurance policyholders during outpatient visits to diagnostic and treatment facilities.

    Methods

    The present study is a descriptive cross-sectional study. The claim data of health insurance in Bushehr province of Iran was used. After data preparation, analysis was performed using SPSS Clementine12.0 software. The values of insurance start time, number of visits, and the value of the type of insurance were used to model the K-means algorithm in two modes including demographic mode and Recency-frequency-monetary (RFM). Sampling was done by census method. The statistical population includes the information of all outpatient referrals of the insured covered by health insurance of Bushehr province to 1,420,579 referrals to diagnostic and medical centers in 2018, which has been prepared by the researcher’s direct referral to the database of medical records.

    Results

    The root mean square deviation values for RFM-based clustering and demographics are 21 and 21.65, respectively. And the Dunn’s Index confirmed the better RFM-based clustering. The RFM-based K-Means algorithm classified the data into four clusters, with 44% of the insured in Cluster One, 4% in Cluster Two, 22% in Cluster Three, and 30% in Cluster Four. Based on this, cluster 2 insured, including women with insurance of other classes with 4% of the population, were identified as the most referred, and cluster 3, including women with rural insurance, with 22% of the population, were identified as the least referred insured.

    Conclusion

    The obtained model divided the insured into 4 clusters. This model allows the organization to predict the referral patterns of each insurer based on their age, gender, and type of insurance and provide appropriate services for different clusters. By using these models and technique in decision making process, the insurers satisfaction will be improved.

    Keywords: Data Mining, Clustering, Health Insurance
  • عماد اشتری نژاد، کامبیز احمدی*، آزاده مجیری
    مقدمه

    استفاده از روش های آماری برای رسیدن به خوشه بندی و رتبه بندی سلامت در جامعه می تواند نمای مناسبی از وضعیت سلامت در استان های ایران را به دولتمردان ارایه دهد. هدف پژوهش حاضر خوشه بندی و رتبه بندی استان های ایران بر اساس برخی از شاخص های سلامت بود. 

    مواد و روش کار

    مطالعه حاضر از نوع کاربردی بود که به روش توصیفی-تحلیلی اجرا شد. در این مطالعه شاخص های تعداد کارکنان شاغل در دانشکده های علوم پزشکی، پزشکان، پیراپزشکان، بیمارستان، تخت های فعال، مراکز ارایه دهنده مراقبت اولیه بهداشتی، آزمایشگاه ها، مراکز توانبخشی، مراکز پزشکی هسته ای، درمانگاه و پایگاه اورژانس به عنوان شاخص های سلامت 31 استان کشور جهت خوشه بندی و رتبه بندی در نظر گرفته شد. داده های مورد نیاز از سالنامه های آماری مرکز آمار ایران جمع آوری و برای خوشه بندی و رتبه بندی استفاده شد. خوشه بندی و مصورسازی داده ها با استفاده از نرم افزار R و رتبه بندی با استفاده از نرم افزار تاپسیس انجام شد.

    یافته ها

    بر اساس نتایج استان های ایلام، یزد، سمنان، خراسان جنوبی، زنجان، اردبیل، فارس، کهگیلویه و بویراحمد و چهارمحال و بختیاری به ترتیب بیشترین امتیاز سلامت را داشتند که بر اساس روش خوشه بندی نیز در خوشه سوم قرار گرفتند. کمترین امتیازات نیز متعلق به خوشه اول بود. در این خوشه، استان های قم، تهران، البرز و همدان به ترتیب با امتیازهای 0/552، 0/540، 0/460 و 0/36 رتبه های 28 الی 31 را داشتند. همچنین استان های خوشه دوم با امتیاز تقریبا برابر در رتبه های 10 الی 27 قرار گرفتند.

    نتیجه گیری

    به منظور رسیدن به عدالت در سلامت باید شاخص های آن در استان های همدان، البرز، تهران و قم تا رسیدن به سرانه استاندارد ارتقا یابد.

    کلید واژگان: تاپسیس، خوشه بندی، رتبه بندی، شاخص های سلامت
    Emad Ashtarinezhad, Kambiz Ahmadi*, Azadeh Mojiri
    Objective (s)

    The use of statistical methods to reach the clustering and ranking of health in the society can give a proper view of the state of health in Iranian provinces. The aim of the current research was to cluster and rank Iranian provinces based on some health indicators.

    Methods

    This was a descriptive study. Clustering and ranking Iranian provinces were carried out according to several items such as the number of employees working in faculties of medical sciences, doctors, paramedics, hospitals, active beds, primary health care providers, laboratories, rehabilitation centers, nuclear medicine centers, clinics and emergency centers. The data were collected from the statistical yearbooks of the provinces.  Clustering analysis and data visualizations were performed in R software and ranks were obtained using Topsis software.

    Results

    The results showed that the provinces of Ilam, Yazd, Semnan, South Khorasan, Zanjan, Ardabil, Fars, Kohgiluyeh and Boyer Ahmad, and Chaharmahal and Bakhtiari had the highest health scores and belonged to the third cluster. Their ranks were 1 to 9 respectively. In the first cluster the following provinces were observed: Qom, Tehran, Alborz, and Hamedan with scores of 0.552, 0.540, 0.460, and 0.36 respectively indicating that these provinces had the lowest health scores and their ranks were 28 to 31. The other provinces appeared on the second cluster and ranked 10 to 27 with almost equal scores.

    Conclusion

    In order to achieve health equity, the indicators should be improved in provinces belonged to the first cluster to in order to achieve the standard per capita.

    Keywords: Topsis, Clustering, Ranking, Health indicators
  • محمدحسن عظیمی، زینب جوزی*
    سابقه و هدف

    ترکیب سیستم های بازیابی مبتنی بر هستی شناسی موجب بازیابی معنایی کلمات می شود. هدف از پژوهش حاضر بررسی مقالات حوزه هستی شناسی در بازیابی اطلاعات با استفاده از تکنیک های علم سنجی است.

    مواد و روش ها

    پژوهش حاضر با استفاده از روش اسنادی و تحلیل خوشه بندی واژگان انجام شده است. جامعه پژوهش شامل 2595 مقاله نمایه شده در دو پایگاه اسکوپوس و وب آو ساینس طی بازه زمانی 2001 تا 2023 است. تجزیه و تحلیل داده های پژوهش با کمک نرم افزار Excel، Bibexcel، SPSS 26، و نرم افزار UciNet صورت گرفت. ترسیم نقشه های پژوهش نیز با نرم افزار VOSviewer انجام شد.

    یافته ها

    رشد مقالات در زمینه هستی شناسی و بازیابی اطلاعات کم و نرخ رشد سالانه آن به طور متوسط برابر با 0/11% است. دانشگاه Stanford و California با همکاری در 6 مقاله و حوزه علوم کامپیوتر با نگارش 43% از مقالات، پرکارترین سازمان و حوزه بودند. خوشه بندی واژگان، منجر به تشکیل 4 خوشه موضوعی؛ بازیابی معنایی اطلاعات، هستی شناسی غیر انسانی، طبقه بندی سیستم ها و نقش فناوری شد. همچنین همبستگی مثبتی بین تولید علم و مرکزیت ها (مرکزیت درجه 0/323، مرکزیت نزدیکی 0/278 و مرکزیت بینابینی 0/447) وجود دارد.

    نتیجه گیری

    سیر تکامل واژگان به کار رفته در مقالات نشان داد که اگرچه رشد تولید مقاله این حوزه از ابتدا افزایشی بوده؛ ولی پیشرفت فناوری های هستی شناسی در بازیابی اطلاعات از آغاز از یک سیستم معنایی ضعیف به نام طبقه بندی اطلاعات آغاز شده و با پشت سر گذاشتن مراحل تکامل خود در حال حاضر با بهره گیری از یادگیری ماشین، در پی درک خواسته های کاربران و پردازش اطلاعات با کمک هوش مصنوعی است.

    کلید واژگان: هستی شناسی، بازیابی اطلاعات، بازنمون دانش، علم سنجی، خوشه بندی، هم رخدادی واژگان
    Mohammad Hassan Azimi, Zeinab Jozi*
    Background and aim

    The combination of ontology-based retrieval systems leads to the semantic retrieval of words. The aim of this study was to review ontology articles in information retrieval using scientometric techniques.

    Materials and methods

    The present study was conducted using the documentary method and word cluster analysis. The research population comprised 2595 articles indexed in two databases, Scopus and Web of Science, from 2001 to 2023. The data were analyzed using Excel, BibExcel, SPSS 26 and UCINET. VOSviewer was used to draw research maps.

    Findings

    The growth of articles in ontology and information retrieval was low and the annual growth rate averaged 0.11%.Stanford and California universities were the most prolific organizations, contributing to 6 articles, and the field of computer science was the most prolific with 43% of the articles written. The word clustering led to the formation of 4 thematic clusters: semantic retrieval of information, non-human ontology, classification of systems, and role of technology. In addition, there was a positive correlation between science production and centralities (degree centrality 0.323, closeness centrality 0.278, and betweenness centrality 0.447).

    Conclusion

    The evolution of the words used in the articles has shown that although the growth of article production in this field has increased from the beginning, the development of ontology technologies in information retrieval started with a weak semantic system called information classification, and after the various stages of development, it now uses machine learning to understand user requirements and process information with the help of artificial intelligence.

    Keywords: Ontology, Information retrieval, Knowledge retrieval, Scientometrics, Clustering, Word co-occurrence
  • فرشید دانش، فروغ رحیمی*
    زمینه و اهداف

      حجم بسیار بالای انتشارات معتبر COVID-19 در سراسر جهان، ضرورت پایش و تحلیل متون علمی COVID-19 را برای پژوهشگران در سطح خرد و برای سیاست گذاران و برنامه ریزان در سطح کلان بیش از پیش آشکار می سازد. به بیان دیگر، نتایج منتج از تحلیل مدارک منتشرشده COVID-19 با روش ها و تکنیک های متن کاوی از جایگاه و اهمیت ویژه ای برای پژوهشگران، سیاست گذاران و برنامه ریزان علوم پزشکی در سطح ملی و بین المللی برخوردار است و ضرورت انجام چنین پژوهشی را بیش از پیش آشکار می سازد. هدف اصلی پژوهش حاضر شناسایی موضوعات نو ظهور و روند تغییر در واژگان علمی در سطح ملی و بین المللی حوزه موضوعی COVID-19 با روش متن کاوی است.

    مواد و روش کار

      نوع پژوهش حاضر، کاربردی است. این پژوهش با استفاده روش متن کاوی و الگوریت م ها و تکنیک های مربوط به آن و همچنین طبقه بندی متون با رویکرد تحلیلی-تطبیقی انجام شده است. جامعه پژوهش حاضر شامل کلیه انتشارات COVID-19 نمایه شده در پایگاهPubMed Central® (PMC)  است. تا تاریخ بیست خردادماه سال 1400 تعداد رکوردهای بازیابی شده از پایگاه PubMed Central® (PMC)، 160862 مورد بود. از این تعداد 3143 مورد انتشارات ملی و 157719 مورد انتشارات بین المللی COVID-19 است. در این پژوهش از زبان برنامه نویسی پایتون و کتابخانه های مرتبط با این برنامه استفاده شد. مهم ترین واژگان بر اساس وزن دهی TF-IDF نیز شناسایی و گزارش شد. موضوعات نوظهور با توجه به رشد میانگین وزنی، شناسایی شدند.

    یافته ها

      تحلیل داده ها حاکی از آن است که “covid”، “infect” و “cell” از مهم ترین واژگان بکار رفته در انتشارات بین المللی COVID-19 و “patient”،  “SARS-Cov” و “covid” مهم ترین واژگان انتشارات ملی هستند.

    نتیجه گیری

      در خصوص روند تغییرات واژگان مورد استفاده در انتشارات COVID-19 از مهمترین نتایجی که می توان استنباط نمود تفاوت اساسی بین مهمترین واژه های انتشارات بین المللی با ملی و تاکید پژوهش های بین الملل بر کرونا و عفونت ناشی از آن و در سطح ملی بر بیماران و کرونا است. نتیجه مهم دیگر تغییرات سالانه بوجود آمده در واژه ها در سطح انتشارات ملی و بین المللی است. شایان ذکر است که تغییرات واژه ها به خصوص در انتشارات ملی و بین المللی هم راستا با اتفاقات و رویدادهای مهم علمی است.

    کلید واژگان: کووید-19، متن کاوی، فراوانی وزنی تی اف-آی دی اف، طبقه بندی، خوشه بندی، موضوعات نوپدید، پایتون
    Farshid Danesh, Forough Rahimi*
    Background and Aim

     The results from the analysis of COVID-19 literature by employing text-mining techniques are of particular importance for researchers, policymakers, and planners of medical sciences at the national and international levels, avoiding parallel research and waste of time and budget. The paper explore emerging topics and the trend of scientific words at the national and international levels in the subject area of COVID-19.

    Materials and Methods

     This applied research was conducted by employing the text-mining and its related algorithms and classifying texts. The population consists of all COVID-19 articles indexed in PubMed Central® (PMC). The number of records retrieved was 160,862 items until June 10, 2021. Among these, 3143 national and 157,719 international COVID-19 articles. Python and its related libraries were applied. The most significant words were also identified and reported based on TF-IDF weighting. Emerging topics were identified according to the weighted average growth.

    Results

    "COVID", "infect", and "cell" were among the most important words used in international COVID-19 articles. In addition, the most important words in the national COVID-19 articles were "patient", "SARS-Cov", and "COVID".

    Conclusion

     Among the most important conclusions that can be inferred from the trend of word change used in the COVID-19 literature is that the most significant words in international literature differ significantly from those in national literature, as international research focuses on COVID-19 and the infections caused by it. In contrast, national research focuses on COVID-19 and patients. Another significant result is the annual word-changing national and international literature.

    Keywords: Covid-19, Text Mining, TF-IDF, Classification, Clustering, Emerging Topics, Python
  • Taiebe Kenarangi, Enayatolah Bakhshi, Kolsoum InanlooRahatloo, Akbar Biglarian
    Aim

    This study aimed to detect gene signatures in RNA-sequencing (RNA-seq) data using Pareto-optimal cluster size identification.

    Background

    RNA-seq has emerged as an important technology for transcriptome profiling in recent years. Gene expression signatures involving tens of genes have been proven to be predictive of disease type and patient response to treatment.

    Methods

    Data related to the liver cancer RNA-seq dataset, which included 35 paired hepatocellular carcinoma (HCC) and non-tumor tissue samples, was used in this study. The differentially expressed genes (DEGs) were identified after performing pre-filtering and normalization. After that, a multi-objective optimization technique, namely multi-objective optimization for collecting cluster alternatives (MOCCA), was used to discover the Pareto-optimal cluster size for these DEGs. Then, the k-means clustering method was performed on the RNA-seq data. The best cluster, as a signature for the disease, was found by calculating the average Spearman's correlation score of all genes in the module in a pair-wise manner. All analyses were performed in the R 4.1.1 package in virtual space with 100 Gb of RAM memory.

    Results

    Using MOCCA, eight Pareto-optimal clusters were obtained. Ultimately, two clusters with the greatest average Spearman's correlation coefficient scores were chosen as gene signatures. Eleven prognosticgenes involved in HCC's abnormal metabolism were identified. In addition, three differentially expressed pathways were identified between tumor and non-tumor tissues.

    Conclusion

    These identified metabolic prognostic genes help us to provide more powerfulprognostic information and enhance survival prediction for HCC patients. In addition, Pareto-optimal cluster size identification is suggested for gene signature in other RNA-Seq data.

    Keywords: Hepatocellular carcinoma, Gene expression signature, RNA-Seq, Clustering
  • Zahra Zamaninasab, Hamid Najafipour, Moghaddameh Mirzaee*, Abbas Bahrampour
    Background

    Depression is a prevalent illness in the world. Given the importance of mental disorders, many researchers have investigated the effects of different variables on average depression scores. In this study, we decided to investigate the effect of some explanatory variables on the average depression score.

    Methods

    The data were obtained from the second phase of the cohort of the Kerman Coronary Artery Diseases Risk Factors study (KERCADRS), which was performed in 2014-2018. We used the cluster-wise linear regression model to find more accurate relationships between depression scores and predictor variables.

    Results

    The total number of the subjects in this study was 9811, out of whom 2144 were allocated to cluster 1, 4540 to cluster 2, and 3127 to cluster 3. The average depression score was 13.76 7.6 in cluster 1, 4.39 4.7 in cluster 2, and 10.83 6.7 in cluster 3. However, the average depression score for all the data was 8.5 7.2. In all the clusters, the average depression score of females was significantly greater than that of men (p-value<0.0001). In cluster 1, the age category of 35-54, in cluster 2, the age category of 55-80, and in cluster 3, the age category of 15-34 had a maximum average depression score.

    Discussion

    we can name the three clusters to low ( cluster 2), medium ( cluster 3 ), and high (cluster 1) depression score with respect to age group with the maximum ADS in each cluster. that they are 55-80 years old, 15-34 years old and 35-54 years old in cluster 2 ( low), cluster 3 ( medium) and cluster 1( high) respectively.

    Keywords: Depression, Coronary Artery Diseases, Clustering
  • عزت الله قدم پور*، لیلا امیریان، حسنا وفاپور
    مقدمه

    هدف از انجام پژوهش حاضر، خوشه بندی دانشجویان با نیم رخ های باورهای انگیزشی و جهت گیری هدف پیشرفت بالا و پایین، از لحاظ عملکرد تحصیلی بود.

    روش ها

    روش تحقیق این مطالعه، از نوع همبستگی و جزء طرح های خوشه بندی بود. جامعه آماری، کلیه دانشجویان ورودی دانشگاه علوم پزشکی شهر کرمانشاه در سال تحصیلی 98-1397 بودند که به روش نمونه گیری طبقه ای نسبی انتخاب شدند. داده ها از طریق پرسشنامه های استاندارد راهبردهای انگیزشی برای یادگیری پینتریچ و دی گروت، جهت گیری هدف پیشرفت الیوت و مک گریگور و برای سنجش عملکرد تحصیلی از میانگین نمرات دروس دانشجویان (معدل نیمسال) به صورت خودگزارش دهی استفاده شد. تحلیل اطلاعات به دست آمده با استفاده از نرم افزارSPSS و روش های آمارتوصیفی و آمار استنباطی تحلیل خوشه ای، تجزیه تابع تشخیص و آزمون تی برای گروه های مستقل استفاده شد.

    یافته ها

    براساس نتایج پژوهش، دو خوشه برای دانش آموزان شناسایی گردید. نخستین خوشه، با باورهای انگیزشی و جهت گیری هدف پیشرفت بالا، خوشه انگیزش بالا- گرایش و خوشه دوم با باورهای انگیزشی و جهت گیری هدف پیشرفت پایین، به عنوان خوشه انگیزش پایین- اجتناب نامیده شد. در ادامه برای تایید خوشه بندی، تجزیه تابع تشخیص انجام گرفت که نتایج حاکی از تایید خوشه بندی بود، آزمون تی با سطح معنی داری 01/0 نشان داد بین دو خوشه از نظر عملکرد تحصیلی تفاوتی معنی دار وجود دارد.

    نتیجه گیری

    باورهای انگیزشی و جهت گیری هدف پیشرفت بالا از عوامل مهم در افزایش عملکرد تحصیلی دانشجویان به شمار می آیند.

    کلید واژگان: خوشه بندی، باورهای انگیزشی، جهت گیری هدف پیشرفت، عملکرد تحصیلی، دانشجویان
    Ezatolla Ghadampour*, Leila Amirian, Hosna Vafapour
    Introduction

    The purpose of this study was to cluster students with profiles of motivational beliefs and orient the goal of high and low achievement in terms of academic performance.

    Methods

    The research method of this study was correlational and part of clustering schemes. The statistical population was all incoming students of Kermanshah University of Medical Sciences in the academic year of 1397-98 who were selected by stratified relative sampling method. Data were used through standard motivational strategies questionnaires for Pintrich and Digrott learning, Elliott and McGregor achievement goal orientation, and self-reported student average scores (semester grade point average) to assess academic performance. Data analysis was performed using SPSS software and descriptive statistics and inferential statistics. Cluster analysis, diagnostic function analysis and t-test were used for independent groups.

    Results

    Based on the research results, two clusters were identified for students. The first cluster, with motivational beliefs and high achievement goal orientation, was called high motivation-orientation cluster and the second cluster with motivational beliefs and low progress goal orientation was called low motivation-avoidance cluster. Then, to confirm the clustering, the analysis of the diagnostic function was performed, which showed that the clustering was confirmed. The t-test with a significance level of 0.01 showed that there is a significant difference between the two clusters in terms of academic performance.

    Conclusion

    It can be concluded that motivational beliefs and high achievement goal orientation are important factors in increasing studentschr('39') academic performance.

    Keywords: Clustering, Motivational Beliefs, Progression Orientation, Academic Performance, Students
  • R Lokeshkumar, Om Ashish Mishra, Shivam Kalra
    BACKGROUND

    Social media platforms such as Facebook, WhatsApp, and Instagram etc., are becoming very popular now not only for youth but for all walks of life. People are more often seen in busy in tweeting, chatting, or putting selfies. No one actually knows the mental state of a person in the online platform. In this article, we will be focusing on how social media is affecting issues such as road accident, murder, and suicide. The research is done by three parts.

    MATERIALS AND METHODS

    Google Form analysis, machine learning used for prediction, and by sentimental analysis of what people think in twitter. All the datasets are based in India. From these datasets, the different machine learning algorithm is used to do the analysis. The project strives to bring the real‑world solution in the matter of advancement.

    RESULTS

    The static data analysis and dynamic data analysis shows the various sentimental analysis and predictions and the technique to predict different mental states. Thus we get clearly about the current world is getting into social issues. This research findings helps to bring social awareness among the current generation by understanding the sensitivity of the youths.

    CONCLUSION

    Thus through this paper we get known clearly how the current world is getting into social issues like victim of murders or road accidents or committing suicide. The paper clearly helps us to understand the sensitivity of the youths. Therefore brings a social awareness among the current generation.

    Keywords: Clustering, mental state, prediction models, sentiment analysis
  • Arezo Askari Rad, Jamal Fayazi*, Houshang Dehghanzadeh
    Background

    Because milk and milk products play a vital role in human nutrition, dairy cattle farmers are working in increasing milk production or changing its composition. For this reason, researching the genes which play an important role in milk production and its composition is of high value. Information theory is an interdisciplinary branch of mathematics which overlaps with communications engineering, biology, and medicine. It has been used in genetic and bioinformatics analyses such as the biological structures and sequences.

    Materials and methods

    In this study, a total of 20 microRNAs from those affecting the breast tissue and mammary glands have been extracted from the microRNA database. For each microRNA sequence, the entropy values of the first- to third-order were calculated and the Kullback-Leibler divergence criteria were estimated. Then, the Kullback-Leibler divergence matrix of the microRNAs was considered as the inputs for clustering methods. All calculations were performed in the R program. The biological pathway of each target was predicted using the KEGG server.

    Results

    MicroRNAs are divided into two main groups based upon comparing and analyzing all the created clusters. The first group contains 18 microRNA and the second group contains 2 microRNAs at the first- and third-order entropies. The second-order entropy contains 19 microRNA in the first group and only 1 microRNA in the second group. The clustering topology changes as the entropy order changes from 1 to 3, with the most significant changes being seen in the clustering resulted from the third-order entropy.

    Conclusion

    In the proposed method of clustering, we obtained a biological grouping of genes. There is a good concordance between most of the microRNAs within one cluster and their biological pathway.  The algorithm is applicable for clustering a range of genes and even genomes based on their DNA sequences entropy. Our method can help assign and predict the biological activity of those genes that lack robust annotations because it relies only on the DNA sequence and length of the genes.

    Keywords: Information theory, Kullback–Leibler divergence, microRNA, Clustering, Entropy
  • رقیه خشا، محمد مهدی سپهری*، نسرین طاهرخانی
    زمینه و هدف

    آسم یک بیماری مزمن غیرقابل درمان، اما قابل کنترل است که پزشکان جهت دستیابی به سطح مطلوب کنترل بیماری، نظارت مداوم بر علایم و همچنین تنظیم یک برنامه درمانی مبتنی بر خودمراقبتی را پیشنهاد می نمایند. ارایه این برنامه، مطابق با سطح کنترلی که بیمار در آن قرار دارد، تنظیم میگردد. لذا ارزیابی و دسته بندی دقیق سطح کنترل آسم، می تواند در ارایه برنامه درمانی موثر به بیمار حایز اهمیت بوده و موجب بهبود خودمراقبتی و توسعه ی مداخلات پیشگیرانه جهت کاهش علایم آسم شود.

    روش بررسی

    در این مقاله، داده های 96 بیمار آسمی شامل اطلاعات دموگرافیک، متغیرهای بالینی و سوابق پزشکی بیمار، داده های زیست محیطی موثر بر آسم، معیارهای عملکرد ریه و گروه محرک مبتنی بر پرسش نامه های کنترل آسم، در یک دوره زمانی 9 ماهه از یک بیمارستان تخصصی بیماریهای ریوی تهران جمع آوری و در یک پایگاه داده چندمتغیره و چندکلاسه تجمیع شده و سپس سطح کنترل آسم با کمک یک مدل تلفیقی مبتنی بر خوشه بندی فازی و الگوریتمهای با نظارت در یادگیری ماشین دسته بندی شده است. 

    یافته ها

    مدل پیشنهادی برای ارزیابی سطح کنترل آسم که حاصل عملیات متوازن سازی، خوشه بندی فازی و انتخاب مشخصه بر روی داده هاست، دقتی به میزان 88% ارایه نموده است. 

    نتیجه گیری

    مدل حاضر، علاوه بر کمک به پزشکان برای شناسایی دقیق تر سطح کنترل آسم، می تواند در سیستم های الکترونیکی خودمراقبتی به منظور ارایه هشدارهای شخصی شده در مورد احتمال تضعیف کنترل آسم به کار رود. این چنین ابزارهایی می توانند مراقبت از آسم را از رویکرد مراقبتی واکنشی به یک رویکرد پیشگیرانه ارتقا دهند که در آن تصمیم ها و اقدام های درمانی از سوی پزشک ناشی از سطح کنترل آسم مزمن و پیشگیری از آسم حاد باشد.

    کلید واژگان: کنترل آسم، پیشگیرانه، خوشه بندی، دسته بندی با ناظر، خودمراقبتی
    Roghaye Khasha, Mohammad Mahdi Sepehri*, Nasrin Taherkhani
    Background and Aim

    Asthma is a common and chronic disease of respiratory tracts. The best way to treat Asthma is to control it. Experts of this field suggest the continues monitoring on Asthma symptoms and adjustment of self-care plan with offering the preventive treatment program to have desired control over Asthma. Presenting these plans by the physician is set based on the control level in which the patient is. Therefore, successful recognition and classification of the disease control level can play an important role in presenting the treatment program to the patient and improves the self-care and strengthens the early interventions to alleviate the Asthma symptoms.  

    Materials and Methods

    Based on this objective, we collected the data of 96 Asthma patients within a 9-month period from a specialized hospital for pulmonary diseases in Tehran. Then we classified the Asthma control level by fuzzy clustering and different types of data mining method within a multivariate dataset with the multi-class response variable.

    Results

    Our best model resulting from the balancing operations and feature selection on data have yielded the accuracy of 88%.

    Conclusion

    Our proposed model can be applied in electronic Asthma self-care systems to support the decision in real time and personalized warnings on the possible deterioration of Asthma control. Such tools can centralize the Asthma treatment from the current reactive care models into a preventive approach in which the physician’s decisions and therapeutic actions are resulting from the personal patterns of chronic Asthma control and prevention of acute Asthma.

    Keywords: Asthma Control, Preventive, Clustering, Classification, Self-Care
  • Najme Mardani *, Mohammad Pourjafari, MohammadAmin Irandegani, Nassim Ahmadi, Kowsar Baghban
    Background

    This study examined the effect of bilingualism on the processing of clustering and switching in verbal fluency tasks in Farsi-Balochi bilinguals.

    Methods

    Ninety participants entered this study, including 45 Farsi monolinguals and 45 Farsi-Balochi bilinguals. All participants were male university students between the ages of 18 to 24 years. Verbal fluency tests were performed and the clustering and switching scores were calculated. Data was analyzed in SPSS-16 software.

    Results

    The monolingual group obtained a score of 32.84 in the total semantic fluency task and 24.13 in the phonemic fluency task, while the bilingual group obtained 30.70 in the semantic task and 29.37 in the phonemic task. The number of switches between the clusters and the mean cluster size were 35.82 and 2.6 in the monolingual group and 38.65 and 2.26 in the bilingual group, respectively. The difference between groups in phonemic fluency, phonemic switching, and semantic clustering was significant (p˂0.05).

    Discussion

    The bilingual group performed better in phonemic fluency and switched more between the clusters. Meanwhile, the monolinguals produced more words in each cluster than the bilinguals.

    Keywords: Verbal Fluency, Switching, clustering, bilingualism
  • صفاناز حیدری، رضا رادفر*، محمود البرزی، محمدعلی افشار کاظمی، علی رجب زاده قطری
    مقدمه

    دیابت یک اختلال سوخت و سازی در بدن است که توانایی تولید هورمون انسولین در بدن از بین می رود . هدف کلی از انجام پژوهش حاضر کشف دانش نهفته در داده های بیماران دیابتی است، که می تواند به پزشکان در خوشه بندی بیماران جدید و تجویز داروی مناسب مطابق هر خوشه کمک نماید.

    روش کار

    در این مقاله از الگوریتم MR-VDBSCAN استفاده شده است. پیاده سازی این الگوریتم در بستر هدوپ مبتنی بر چارچوب نگاشت-کاهش می باشد. ایده اصلی تحقیق استفاده از چگالی محلی برای یافتن چگالی هر نقطه است. این استراتژی می تواند مانع از اتصال خوشه ها با چگالی های متفاوت شود.

    نتایج

    الگوریتم موردنظر بر روی دیتا ست انتخاب شده، تست و ارزیابی و نتایج نشان از دقت بالا و کارایی و مقیاس پذیری آن دارد. نتایج بدست آمده با نتایج اجرای خوشه بندی k-Means مقایسه شد، الگوریتم MR-VDBSCAN در مقایسه با آن از سرعت اجرای بالاتر و دقت تشخیص بهتری برخوردار هست و همچنین توانایی تشخیص خوشه ها با چگالی متفاوت برتری این الگوریتم نسبت به الگوریتم مورد مقایسه است. نتایج نشان می دهد که الگوریتم MR-VDBSCAN می تواند عملکرد بهتر را از سایر الگوریتم ها  فراهم کند.

    نتیجه گیری

    نتایج نشان می دهد که که الگوریتم MR-VDBSCAN نسبت به الگوریتم K-means  خوشه-بندی بهتری را انجام می دهد و می تواند بیماران را در زیرگروه هایی قرار دهد که پزشکان را در تجویز یاری نماید. نتیجه پیش بینی شده برای تشخیص اینکه کدوم گروه سنی و جنسیت بیشتر تحت تاثیر دیابت قرار دارند، استفاده می شود.

    کلید واژگان: خوشه بندی، هدوپ، مپ ردیوس، داده انبوه، دیابت، داده کاوی
    Safanaz Heydari, Reza Radfar *, Mahmood Alborzi, MohammadAli Afshar Kazemi, Ali Rajabzadeh Ghatari

    Introduction:

     Diabetes is a metabolic disorder in the body that is impaired by the ability to produce insulin hormone. The main purpose of the present study is to discover the hidden knowledge in the data of diabetic patients, which can assist clinicians in clustering new patients and prescribing appropriate medication according to each cluster.

    Methods

    In this paper, we use MR-VDBSCAN algorithm. The implementation of this algorithm is based on the map-reduce framework of Hadoop. The main idea of the research is to use local density to find the density of each point. This strategy can prevent clusters from joining at different densities.

    Results

    The algorithm is based on the selected dataset, tested and evaluated, and the results show high accuracy and efficiency. The results were compared with the results of k-Means clustering, The MR-VDBSCAN algorithm has a higher execution speed than that of the algorithm and has the ability to detect clusters with different density of superiority of this algorithm than the comparable algorithm. The results show that the MR-VDBSCAN algorithm can provide better performance than other algorithms. In particular, the similarity of the proposed algorithm is 97% for the diabetes set.

    Conclusion

    The results show that the MR-VDBSCAN algorithm performs better clustering than the K-means algorithm and can place patients into subgroups that assist physicians in prescribing.

    Keywords: Data mining, Clustering, Hadoop, Map-Reduce, Big data, Diabetic
  • فرشته سوری، یعقوب نوروزی*، سید علی اکبر فامیل روحانی، عاطفه زارعی
    سابقه و هدف

    هدف این پژوهش تحلیل و مصورسازی تولیدات علمی پژوهشگران دانشگاه آزاد اسلامی در موضوع علوم پزشکی در پایگاه وب-آوساینس بود.

    روش بررسی

    پژوهش حاضر از نوع پژوهش های کاربردی علم سنجی بود که عملکرد کمی حوزه علوم پزشکی دانشگاه آزاد اسلامی در پایگاه وب آو ساینس را  از ابتدا تا 2018 میلادی مورد مطالعه قرار داد. جامعه آماری این پژوهش کلیه تولیدات علمی علوم پزشکی دانشگاه آزاد اسلامی (11155 رکورد) در پایگاه وب آو ساینس بود. 

    یافته ها

    اولین تولید علمی علوم پزشکی دانشگاه آزاد اسلامی در پایگاه وب آو ساینس در سال 1996 و بیشترین در سال 2016 نمایه شده است. کاظم پریور رتبه اول را در پژوهشگران کسب و بیشترین همکاری علمی پژوهشگران با کشور آمریکا بود. نشریه African Journal of Biotechnology هم به عنوان منبع هسته علوم پزشکی دانشگاه آزاد اسلامی در پایگاه وب آوساینس شناخته شد. بیشترین بسامد را کلید واژه "ایران" داشت  و کلیدواژه های "شیمی دارویی" و "داروشناسی و داروسازی" بیشترین همایندی واژگان را داشتند. در نهایت، کلیدواژه های تولیدات علمی دانشگاه آزاد اسلامی در زمینه علوم پزشکی در 7 خوشه کلی تقسیم بندی شد.

    نتیجه گیری

    نتایج پژوهش بیانگر این است که پژوهشگران علوم پزشکی دانشگاه آزاد اسلامی توانسته اند با تلاش خوبی رتبه سوم را در بین دانشگاه های علوم پزشکی کشور از پایگاه وب آوساینس کسب کنند. اما، پتانسیل لازم را در شناساندن پیشرفت های ایران در کنترل شیوع بیماری های مسری در سطح جهانی صرف نکرده اند.

    کلید واژگان: علم سنجی، نقشه علمی، تولیدات علمی، خوشه بندی، پایگاه وب آو ساینس، علوم پزشکی، دانشگاه آزاد اسلامی
    Fereshteh Souri, Yaghob Nourozi*, Seyed Aliakbar Familrohany, Atefeh Zarei
    Background

    The aim of this research was to analyze and illustrate scientific productions of Islamic Azad University researchers under title of Medical Sciences in Web of Science (WOS) data base.

    Materials and methods

    The present study was a kind of applied scientific research which studied the quantitative performance of Islamic Azad University of Medical Sciences in WOS database from beginning to 2018. Statistical population of this study was all scientific productions of Medical Sciences of Islamic Azad University (11155 records) in WOS database.

    Results

    The first scientific output of medical sciences of Islamic Azad University was indexed in 1996 and the highest number of indexed output was in 2016. Kazem Parivar has been ranked the first among all researches and had the highest scientific collaboration was with the USA academic centers. The journal "African Journal of Biotechnology" was also recognized as the source of the medical science core of the Islamic Azad University on the Web of Science. The most frequently use key word was "Iran" and key words "Pharmaceutical Chemistry" and "Pharmacology and Pharmacy" had the most frequent synonyms. Finally, the keywords of Islamic Azad University's scientific productions in medical sciencesweare divided into 7 general clusters.

    Conclusion

    The results of this study indicate that Islamic Azad University of Medical Sciences researchers have been able to obtain the third rank among the medical universities of Iran with a good effort. But they have not used their potential to recognize Iran's progress in controlling the spread of communicable diseases worldwide.

    Keywords: Scientometrics, Scientific products, Clustering, Web of Science database, Medical sciences, Islamic Azad University
  • امین عینی پور، محمد مصلح*، کریم انصاری اصل
    مقدمه

    استفاده از فناوری «توالی یابی RNA سلول-منفرد» باعث شناخت بهتر ساختارهای سلولی شده و داده های با وضوح بسیار بالایی از بیان ژن های مختلف هر سلول را در یک زمان واحد ارایه می دهد. یکی از زمینه های پرکاربرد در این حوزه، خوشه بندی داده ها بر اساس ژن های بیان شده است که بعضا منتج به شناسایی جمعیت های سلولی جدید می گردد. عملکرد روش های پیشنهادی عمدتا به شکل جمعیت ها و ابعاد داده ها بستگی دارد؛ لذا توسعه یک روش که بتواند فارغ از این موانع به شناسایی جمعیت های سلولی بپردازد، بسیار مهم است.

    روش

    در روش پیشنهادی که یک روش کتابخانه ای بود، ابتدا تعداد جمعیت های سلولی تخمین زده شد. این تخمین از آن جهت اهمیت دارد که در دنیای واقعی، اطلاعات اولیه مثل تعداد و نوع جمعیت های سلولی در دسترس نیست. سپس با استفاده از یک کرنل گاوسی مبتنی بر گراف، ضمن کاهش ابعاد مسیله، اقدام به شناسایی جمعیت های سلولی با روش خوشه بندی kmeans++ شد.

    نتایج

    نتایج پیاده سازی نشان داد که روش پیشنهادی می تواند نسبت به سایر روش های یادگیری ماشین ارایه شده در این زمینه، بهبود قابل قبولی را حاصل کند. به عنوان مثال برای معیار ARI، مقادیر 100، 93/47 و 84/69 به ترتیب برای مجموعه داده های سلول-منفرد Kolod، Buettner و Usoskin حاصل شد.

    نتیجه گیری

    روش پیشنهادی بدون هیچ اطلاعات اولیه در مورد تعداد و نوع جمعیت های سلولی و فارغ از ابعاد بالای مسیله، می تواند اقدام به خوشه بندی و در نتیجه شناسایی جمعیت های سلولی با دقت و کیفیت بالایی نماید.

    کلید واژگان: توالی یابی RNA سلول-منفرد، خوشه بندی، شناسایی جمعیت های سلولی، کرنل گاوسی مبتنی بر گراف
    Amin Einipour, Mohammad Mosleh*, Karim Ansari-Asl
    Introduction

    The emergence of single-cell RNA-sequencing (scRNA-seq) technology has provided new information about the structure of cells, and provided data with very high resolution of the expression of different genes for each cell at a single time. One of the main uses of scRNA-seq is data clustering based on expressed genes, which sometimes leads to the detection of rare cell populations. However, the results of the proposed methods mainly depend on the shape of the cell populations and the dimensions of the data. Therefore, it is very important to develop a method that can identify cell populations regardless of these obstacles.

    Method

    In the proposed method, which was a library method, at first, the number of clusters (cell populations) was estimated. Estimating the number of clusters is important because in the real world, basic information such as the number and type of cell populations is not available. Thereafter, using a graph-based Gaussian kernel, while reducing the dimensions of the problem, the cell populations were identified by means of the kmeans++ clustering.

    Results

    The results of the implementation showed that the proposed method can achieve an acceptable improvement compared to other machine learning methods presented in this regard. For example, for the ARI criterion, values of 100, 93.47 and 84.69 were obtained for Kolod, Buettner, and Usoskin single-cell data sets, respectively.

    Conclusion

    The proposed method can cluster and thus identify cell populations with high accuracy and quality without having any basic information about the number and type of cell populations, regardless of the high dimensions of the problem.

    Keywords: Single-cell RNA-sequencing, Clustering, Identification of Cell Populations, Graph-based Gaussian Kernel
  • Ali Soroush, Payam Sariaslani, Nadya Baharirad, Nasim Shams Alizadeh, Saeid Komasi*
    Background

    (i) Cluster analysis and partitioning samples based on cardio-cerebrovascular histories and length of stay (LOS); (ii) Determining related demographic and medical factors in individual clusters; and (iii) Comparing clusters based on 12-month health outcomes.

    Methods

    The statistical population of the study included 2,293 stroke patients hospitalized in Imam Reza hospital of Kermanshah city from January 1, 2015, to December 31, 2016. After a one-year follow-up, the data collection window was closed on December 31, 2017. The patients’ data were extracted from the electronic hospital information system (HIS). Two-step cluster analysis (TSCA), chi-square, Fisher exact, Kruskal-Wallis, and Mann-Whitney U tests, as well as multinomial logistic regression analysis were the analysis methods.

    Results

    This model suggested five distinct clusters: the patients (i) without any cardio-cerebrovascular history and LOS = 5 days (36.2%); (ii) without any cardio-cerebrovascular history and LOS = 6 days (21.6%); (iii) with cerebrovascular history and LOS = 6 days (18.6%); (iv) with cardiovascular history and LOS = 6 days (16.1%); and (v) with cardio-cerebrovascular history and LOS = 6 days (7.5%). Hypertension, diabetes, and smoking were respectively the most significant modifiable risk factors, while sex, cerebrovascular diseases in the family, and age were respectively the most significant non-modifiable risk factors in high-risk clusters and LOS = 6 days. Compared to Cluster 1 (reference), during a one-year follow-up, a larger number of members in Clusters 3 and 5 were readmitted and/or expired.

    Conclusion

    Considering the modifiable risk factors identified in the current study, providing programs for preventing readmission and potential death caused by stroke for Clusters 3 and 5 seems essential

    Keywords: Clustering, Hospitalization, Medical history taking, Mortality, Patient readmission, Stroke
نکته
  • نتایج بر اساس تاریخ انتشار مرتب شده‌اند.
  • کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شده‌است. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
  • در صورتی که می‌خواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.
درخواست پشتیبانی - گزارش اشکال