variant filtering
در نشریات گروه پزشکی-
مقدمه
دقت و زمان لازم برای آنالیز داده های نسل نوین توالی یابی (NGS) بسته به ابزارهای استفاده شده برای هم ترازی، فراخوانی واریانت، حاشیه نویسی، اولویت بندی و فیلترینگ واریانت ها، تسلط افراد به تحلیل و تفسیر داده ها و ظرفیت محاسباتی آزمایشگاه متفاوت بوده و بهینه سازی آن یک مسئله چالش برانگیز است.
روشیک نرم افزار کاربردی به منظور بهینه سازی مرحله سوم آنالیز داده های NGS طراحی و با زبان برنامه نویسی C# پیاده سازی شد. در این مطالعه روند حاشیه نویسی، فیلترینگ و تفسیر داده های NGS برای بیماری ناشنوایی غیرسندرمیک با وراثت اتوزومی مغلوب به طور اختصاصی بهینه شده است.
نتایجداده مربوط به بیماری که دارای یک جهش بیماری زای تایید شده توسط آنالیز ژنتیکی فامیلی بود و تعداد واریانت های اولیه در فایل حاصل از آنالیز مراحل اولیه وی شامل 671829 واریانت می شد توسط نرم افزار پیاده سازی شده مورد تحلیل قرار گرفت. بعد از انجام مرحله اولویت بندی خودکار واریانت ها با استفاده از فایل BED، تعداد واریانت ها 508 شد. با توجه به شجره ی خانوادگی بیمار در مرحله بعدی آنالیز واریانت های هوموزیگوت انتخاب شدند و به این ترتیب تعداد واریانت ها به 187 رسید. بعد از اعمال آستانه فراوانی جمعیتی 0/6% در پایگاه های داده genomAD و ExAC تعداد واریانت های باقی مانده به ترتیب 110 و 3 واریانت شد. پاتوژن شناسایی شده نهایی با نتیجه ی توالی یابی سنگر که به منظور بررسی هم تفکیکی واریانت مورد نظر در خانواده انجام شده بود، همخوانی داشت. مدت زمان آنالیز توسط نرم افزار طراحی شده بر روی یک کامپیوتر شخصی متوسط 15 دقیقه بود.
نتیجه گیری:
نرم افزار طراحی شده کاملا گرافیکی و بدون نیاز به کدنویسی است که علاوه بر قابلیت مقایسه و یکپارچه کردن فایل های ورودی، امکان ایجاد یک دیتابیس داخلی از فایل های آنالیز شده، امکان اعمال محدودیت ناحیه آنالیز و آستانه گذاری بر فیلدهای مختلف پایگاه های داده انتخابی توسط کاربر را دارد.
کلید واژگان: نسل نوین توالی یابی، حاشیه نویسی، تعیین اثر واریانت، فیلترینگ واریانت هاIntroductionThe precision and time required for analysis of data in next-generation sequencing (NGS) depends on many factors including the tools utilized for alignment, variant calling, annotation and filtering of variants, personnel expertise in data analysis and interpretation, and computational capacity of the lab and its optimization is a challenging task.
MethodAn application software was designed and implemented in C# for optimizing the third step of NGS data analysis. In this study, annotation, filtering, and interpretation of NGS data were specifically optimized for non-syndromic autosomal recessive hearing loss disease.
ResultsWhole-exome sequencing data of a patient with a pathogenic mutation confirmed by familial genetic analysis, which contained a total number of 671829 variants after primary analysis, were evaluated by the implemented software. After filtering the variants based on a predefined BED file, 508 variants remained. According to the patient’s pedigree, in the next step of analysis, homozygote variants were selected and only 187 variants remained. After applying the population frequency threshold of 0.6% on gnomeAD and ExAC databases, the number of variants reached 110 and 3, respectively. The identified pathogen was approved by the results of Sanger sequencing done for family co-segregation. This analysis took about 15 minutes on a moderate PC.
ConclusionThe designed software is a fully graphical one that has the capability of comparing, viewing, filtering, and merging input files without any coding. Moreover, it can construct a local database from the analyzed files and apply region constraints and user-defined thresholds on various fields of the database.
Keywords: Next-Generation Sequencing, Annotation, Variant Effect, Variant Filtering
- نتایج بر اساس تاریخ انتشار مرتب شدهاند.
- کلیدواژه مورد نظر شما تنها در فیلد کلیدواژگان مقالات جستجو شدهاست. به منظور حذف نتایج غیر مرتبط، جستجو تنها در مقالات مجلاتی انجام شده که با مجله ماخذ هم موضوع هستند.
- در صورتی که میخواهید جستجو را در همه موضوعات و با شرایط دیگر تکرار کنید به صفحه جستجوی پیشرفته مجلات مراجعه کنید.