فهرست مطالب

فصلنامه پردازش علائم و داده ها
سال نوزدهم شماره 3 (پیاپی 53، پاییز 1401)

  • تاریخ انتشار: 1401/11/04
  • تعداد عناوین: 12
|
  • بهمن روایی*، کیوان رحیمی زاده صفحات 1-18

    یکی از چالش برانگیزترین مسایل در شبکه های سیار اجتماعی [1] طراحی روش جلورانی [2] پیامی است که دارای نرخ دریافت بالا و سربار ارتباطی پایین باشد. روش های جلورانی اغلب با افزایش تعداد نسخه های پیام سعی در بالا بردن نرخ دریافت می کنند. افزایش تعداد نسخه های پیام از یک طرف باعث افزایش شانس تحویل پیام می شود و از سوی دیگر ممکن است، باعث ازدحام در شبکه و کاهش نرخ دریافت شود؛ بنابراین، محدود کردن تعداد نسخه های پیام و انتخاب گره های رله مناسب در راستای افزایش بهره وری شبکه و کاهش هزینه چالشی است که در این مقاله به آن می پردازیم. در این مقاله یک روش مبتنی بر گروه های اجتماعی [3] به نام MCCAF 4]  برای جلورانی چندنسخه ای پیام ها ارایه می شود. این روش از مدل مخفی شبه مارکوف (HSMM[5]) برای یافتن گروه های اجتماعی استفاده می کند. بدین منظور گروه های اجتماعی به حالت ها در مدل مخفی شبه مارکوف مدل می شوند؛ سپس، احتمال گذار گره ها در میان گروه های اجتماعی محاسبه و پس از آن با در نظر گرفتن زمان انقضای پیام ها، با محاسبه گروه های اجتماعی آینده گره های رله و تعداد نسخه های منتشر شده از پیام، اقدام به انتخاب گره رله و جلورانی پیام می شود. روش MCCAF تعداد نسخه های موجود از یک پیام را در شبکه محدود و از انتشار سیل آسای پیام جلوگیری می کند. از طرفی این روش سعی می کند که به سمت تمامی گروه های اجتماعی که مقصد در آنها عضویت دارد نسخه ای از پیام را ارسال کند تا ضمن افزایش شانس تحویل موفقیت آمیز پیام، تاخیر در تحویل پیام را نیز کاهش دهد. نتایج ارزیابی بر روی داده های واقعی نشان دهنده کارایی MCCAF نسبت به دیگر روش ها از جنبه های تاخیر، نرخ دریافت و هزینه جلورانی است.

    کلیدواژگان: جلورانی پیام، مسیریابی، شبکه های سیار اجتماعی، جلورانی چند نسخه ای، گروه اجتماعی، مدل مخفی شبه مارکوف
  • الهه شهروز، جعفر طهمورث نژاد* صفحات 19-34

    در بسیاری از الگوریتم های یادگیری ماشین، فرض اولیه بر این اساس است که مجموعه داده آموزشی (دامنه منبع) و مجموعه داده آزمون (دامنه هدف) توزیع یکسانی را به اشتراک می گذارند. این در حالی است که در اغلب مسایل دنیای واقعی، به دلیل اختلاف توزیع احتمال بین دامنه منبع و هدف، این فرض نقض می شود. برای مقابله با این مشکل، یادگیری انتقالی و تطبیق دامنه، مدل را برای مقابله با داده های هدف دارای توزیع متفاوت، تعمیم می دهند. در این مقاله ما یک روش تطبیق دامنه با عنوان هم ترازی تصویر از طریق یادگیری خصوصیت کرنل شده (IMAKE) را به منظور حفظ اطلاعات عمومی و هندسی دامنه های منبع و هدف پیشنهاد می دهیم. روش پیشنهادی یک زیرفضای مشترک بین دامنه های منبع و هدف جستجو می کند تا اختلاف توزیع آنها را به کمینه برساند. IMAKE از هر دو تطبیق توزیع هندسی و عمومی به صورت هم زمان بهره می برد. روش پیشنهادی دامنه های منبع و هدف را به یک زیرفضای کم بعد مشترک به صورت بدون نظارت منتقل می کند تا اختلاف احتمال توزیع شرطی و حاشیه ای داده های دامنه منبع و هدف را از طریق بیشینه اختلاف میانگین ها کمینه کند و برای تطبیق توزیع هندسی از هم ترازی منیفلد بهره می گیرد. کارایی روش پیشنهادی با استفاده از پایگاه داده های بصری متنوع و استاندارد با 36 آزمایش مورد ارزیابی قرار گرفته است. نتایج به دست آمده، نشان دهنده بهبود قابل ملاحظه از عملکرد روش پیشنهادی در مقایسه با جدیدترین روش های حوزه یادگیری ماشین و یادگیری انتقالی است.

    کلیدواژگان: طبقه بندی تصویر، یادگیری انتقالی، تطبیق دامنه بصری، هم ترازی منیفلد، اختلاف توزیع
  • روح الله کشوری، مریم ایمانی*، محسن پارسا مقدم صفحات 35-48

    پیش بینی کوتاه مدت بار الکتریکی نقش مهمی در طراحی و بهره بردای از سیستم های قدرت ایفا می کند. با توجه به ماهیت سری زمانی بار الکتریکی کوتاه مدت، پیش بینی دقیق بار بسیار چالش برانگیز است. در این مقاله، روشی برای پیش بینی بار کوتاه مدت پیشنهاد شده است. در مرحله نخست توابع مد ذاتی (IMFها) منحنی بار با استفاده از روش تجزیه مد تجربی (EMD) استخراج می شوند. باقی مانده سیگنال که حاوی نوفه است در این مرحله دور ریخته می شود تا سیگنال به نسبه تمیزی حاصل شود. در مرحله دوم هر IMF با استفاده از تبدیل موجک تجزیه می شود تا زیر دنباله های آن حاصل شود. هر زیردنباله حاوی اطلاعات و جزییات متفاوتی است که می تواند به بهبود دقت پیش بینی کمک کند. در مرحله سوم زیردنباله های به دست آمده تجمیع شده و در نهایت به وسیله رگرسیون بردار پشتیبان (SVR) جهت پیش گویی استفاده می شوند. روش پیشنهادی بر روی دو مجموعه داده لهستان و کانادا و با چهار معیار خطای میانگین مربعات (MSE) ریشه میانگین مربعات خطا (RMSE)، میانگین درصد مطلق خطا (MAPE) و میانگین خطای مطلق (MAE) مورد ارزیابی قرار گرفت. یافته ها نشان می دهد که خطای پیش بینی بار برای مجموعه داده لهستان با معیار MSE  برابر 0.0012 ، با معیار RMSE  برابر 0.0342 با معیار MAPE برابر 2.9771، با معیار MAE برابر 0.0044 و برای مجموعه داده کانادا با معیار MSE  برابر 5.0969e-07، با معیار RMSE  برابر 7.1393e-04 با معیار MAPE برابر 0. 9571 و با معیار MAE برابر 2624e-04 است. از مقایسه روش پیشنهادی نسبت به سایر روش های رقیب، نتایج بهتری از نظر میزان خطا مشاهده شده است.

    کلیدواژگان: پیش بینی بار کوتاه مدت، تقاضای بار، تجزیه مولفه ذاتی، تبدیل موجک، رگرسیون بردار پشتیبان
  • عاطفه توبیها، ندا بهزادفر*، محمدرضا یوسفی، همایون مهدوی نسب، غضنفر شاهقلیان صفحات 49-64

    هرویین یکی از مواد مخدر اعتیادآور است که با اثر بر روی دستگاه عصبی مرکزی، سبب کاهش تراکم نورون ها در مغز و ایجاد اختلال در تصمیم گیری می شود. در این مقاله به بررسی اثرات هرویین بر عملکرد مغز با مطالعه روابط بین قدرت طیفی سیگنال الکتروانسفالوگرام (EEG) و سوء مصرف هرویین اشاره شده است. به این منظور سیگنال EEG در حال استراحت و انجام فعالیت شناختی از پانزده فرد سالم و پانزده فرد وابسته به هرویین در شانزده کانال در یک جلسه ثبت شد. محدوده فرکانسی زیرباندهای سیگنال EEG برای هر فرد به صورت مجزا محاسبه شد. از روش ولش جهت استخراج توان زیرباندهای فرکانسی سیگنال EEG استفاده شده است. ویژگی های استخراج شده با استفاده از آزمون آماری من-ویتنی و شاخص دیویس بولدین مورد بررسی قرارگرفته اند. نتایج نشان می دهد که گروه وابسته به هرویین در مقایسه با گروه کنترل دارای توان بالاتری در زیرباندهای دلتا (در مناطق پیشانی، مرکزی و گیجگاهی) و تتا (در تمام کانال ها) هستند. در گروه وابسته به مصرف هرویین توان زیرباندهای الفا نسبت به گروه کنترل کاهش یافته است. توان زیرباند  بالای آلفا در لوب پیشانی، گیجگاهی و مرکزی نسبت به سایر زیر باند های فرکانسی و همچنین در لوب های مرکزی، آهیانه و گیجگاهی توان دومین زیر باند پایین آلفا در افراد معتاد کاهش یافته است. براساس معیار دیویس بولدین، توان دومین زیرباند پایین آلفا در کانال T6 از قدرت بهتری در متمایز کردن افراد سالم و وابسته به مصرف هرویین برخوردار است.

    کلیدواژگان: اعتیاد به هروئین، سیگنال EEG، ویژگی های فرکانسی، توان، شاخص دیویس-بولدین
  • مریم عظیمی فر، صمد نجاتیان*، حمید پروین، کرم الله باقری فرد، وحیده رضایی صفحات 65-86

    استفاده از هوش مصنوعی در فرآیند تشخیص بیماری های قلبی سال ها مورد توجه پژوهش گران قرار گرفته است. در این مقاله، روشی کارآمد جهت گزینش ویژگی های مناسب استخراج شده از سیگنال های الکترکاردیوگرام (ECG)، بر پایه الگوریتم ژنتیک برای استفاده در یک اجماعی از طبقه بندهای ماشین بردار پشتیبان (SVM) چندهسته ای که هر کدام از این طبقه بندها به وسیله یک الگوریتم ژنتیک بهینه شده اند، پیشنهاد شده است. پیشتر نشان داده شده که به علت خاصیت هایش (نگاشت فضای ویژگی و حداکثرسازی مرز تصمیم) طبقه بند ماشین بردار پشتیبان یکی از روش های طبقه بندی است که مناسب هر نوع محیطی محسوب می شود. این مقاله از تعدادی طبقه بند ماشین بردار پشتیبان چندهسته ای به عنوان یک طبقه بند ترکیبی بهره می گیرد. تنوع اجماع به وسیله آموزش هر طبقه بند ماشین بردار پشتیبان چندهسته ای بر روی یک زیرفضا (یعنی زیرمجموعه ای از ویژگی ها) ایجاد می شود. در این روش برای ترکیب خروجی طبقه بندها از روش رای اکثریت استفاده شده است. از طرفی در طبقه بندی سیگنال های ECG به طور معمول از سیگنال ها به عنوان ویژگی های آن استفاده می شود؛ در نتیجه از آن جایی که روش های طبقه بندی سیگنال ها با تعداد زیادی ویژگی مواجه هستند و حذف نکردن این ویژگی ها مشکل ابعاد بالا را ایجاد می کند و همچنین بار محاسباتی را برای کاربرد مورد نظر بالا می برد، گام انتخاب ویژگی اجتناب ناپذیر است. ویژگی های استخراج شده شامل ویژگی های زمانی، AR[1] و ضرایب موجک است که تعداد این ویژگی ها با استفاده از الگوریتم ژنتیک بهینه خواهد شد. ارزیابی این مجموعه از ویژگی های ا نتخاب شده به وسیله الگوریتم ژنتیک با اعمال به یک SVM چندهسته ای بررسی می شود. از الگوریتم ژنتیک جهت بهینه سازی پارامترهای هر کدام از SVM-ها استفاده می شود. به کمک شبیه سازی رایانه ای، صحت کلی سامانه برای شناسایی شش نوع ریتم قلبی %15/99 به دست آمده است که در مقایسه دقت حاصل شده با پژوهش های پیشین، کارایی مطلوب روش پیشنهادی را نشان می دهد.

    کلیدواژگان: سیگنال ECG، انتخاب ویژگی، ماشین بردار پشتیبان چندهسته ای، اجماع طبقه بندی، الگوریتم ژنتیک
  • مرتضی سید رضایی، قربان خردمندیان، جواد کاظمی تبار امیرکلایی* صفحات 87-104

    با پیشرفت و گسترش فناوری شاهد رشد بالای استفاده از کارت های عابر بانک هستیم. با افزایش استفاده از کارت های بانکی، همواره فرصت هایی برای مهاجمان فراهم می شود؛ لذا به کارگیری الگوریتم های تشخیص تقلب به منظور جلوگیری از اقدامات متقلبانه در کارت های بانکی اجتناب ناپذیر است. داده کاوی به عنوان یک تکنیک که قادر به شناسایی الگوهای مفید از میان انبوهی از داده هاست، یکی از روش های موثر در تشخیص تقلب در این حوزه است. هدف اصلی این مقاله ارایه یک روش جدید در تشخیص داده های پرت بدون نظارت است که از دقت و فراخوانی بالایی برخوردار باشد. روش پیشنهادی این مقاله، ترکیب تکنیک های NMF، hierarchical k-means، k-means و k نزدیک ترین همسایه است. برای ارزیابی روش پیشنهادی تشخیص داده های پرت، ارزیابی های متعددی با استفاده از داده های استاندارد انجام شد و از منظر دقت و فراخوانی با الگوریتم های معیار همچون Isolation Forest، K Nearest Neighbors، Median kNN، Average kNN و غیره مقایسه شد. مطابق نتایج به دست آمده از آزمایش ها، روش پیشنهادی از دقت و فراخوانی بالاتری نسبت به دیگر الگوریتم ها برخوردار است.

    کلیدواژگان: تشخیص تقلب کارت های بانکی، داده کاوی، شناسایی داده های پرت، kmeans، NMF سلسله مراتبی
  • جواد حمیدزاده*، منا مرادی صفحات 105-118

    تحلیل تفکیک کننده خطی یکی از روش های پرکاربرد در حوزه کاهش ابعاد فضای ویژگی و طبقه بندی داده ها به وسیله بیشینه سازی نسبت پراکندگی بین طبقه ها به پراکندگی درون طبقه ها است. این روش مبتنی بر معیار فیشر بوده و از تحلیل واریانس برای بیان تفکیک پذیری طبقه ها استفاده می کند. مهم ترین محدودیت این معیار در مواجهه با داده های ناهمگن است. برای رفع این محدودیت، استفاده از فواصل توزیعی نظیر معیار چیرنف پیشنهاد شده است. معیار چیرنف با در نظر گرفتن فاصله چیرنف میان دو توزیع داده، قادر به اندازه گیری فواصل میان توابع چگالی احتمال و استخراج ویژگی هایی با بیش ترین قابلیت تفکیک کنندگی است؛ اما ایراد این روش آن است که چنانچه دو توزیع طبقه داده های ناهمگن از یکدیگر فاصله کمی داشته باشند، موجب هم پوشانی طبقه ها در فضای نگاشت شده و باعث افزایش خطای طبقه بندی می شود. این مقاله، با معرفی روش انتخاب نمونه با نام حاشیه بیشینه ای به شناسایی نمونه های مرزی و غیرمرزی پرداخته و با بهره گیری از نمونه های مرزی، ماتریس پراکندگی مطلوبی برای افزایش کارایی تحلیل تفکیک کننده خطی ایجاد می کند. در روش پیشنهادی، فرایند انتخاب نمونه همانند یک مساله بهینه سازی مقید دودویی در نظر گرفته شده و جواب های مساله با استفاده از تابع پرکننده به دست می آیند. عملکرد روش پیشنهادی بر روی داده های برگرفته شده از پایگاه داده UCI به وسیله روش اعتبارسنجی ضرب دری ده تایی ارزیابی و با طبقه بندهای سنتی و مرز دانش مقایسه شده است. آزمایش ها نشان دهنده برتری روش پیشنهادی از نظر صحت طبقه بندی و زمان محاسبه است.

    کلیدواژگان: طبقه بندی داده ها، معیار چیرنف، حاشیه حداکثری، تابع پرکننده
  • مسعود گراوانچی زاده*، پریسا مبشری، هادی جمشیدی اوانکی صفحات 119-134

    در این مقاله، سامانه جدیدی با استفاده از ویژگی های مبتنی بر فرکانس گام (Pitch) جهت طبقه بندی دستگاه های موسیقی سنتی ایرانی ارایه شده است. موسیقی سنتی ایرانی از هفت دستگاه اصلی شامل چهارگاه، همایون، ماهور، سه گاه، شور، نوا و راست پنجگاه تشکیل می شود. در این الگوریتم،  ویژگی های ضرایب لاگرانژ لگاریتم فرکانس گام (LCPL)، دسته های شباهت فازی نوع دو (FSST2) و نیز ترکیب آنها جهت طبقه بندی سیگنال های موسیقی به کار برده می شود و از ماشین بردار پشتیبان چند رده ای به منظور طبقه بندی دستگاه های موسیقی ایرانی استفاده می شود. دادگان به کاررفته در سامانه جداساز ارایه شده، شامل قطعاتی از تک نوازی های تار علیزاده، استاد مطرح موسیقی ایرانی، است. عملکرد الگوریتم های طبقه بندی پایه و پیشنهادی توسط معیارهای ارزیابیAccuracy، Recall، Precision،F-   measure   و MCC  صورت می گیرد. نتایج به دست آمده نشان می دهند که الگوریتم پیشنهادی نسبت به روش های پایه عملکرد بهتری را بر حسب معیارهای مختلف طبقه بندی در بر دارد.

    کلیدواژگان: طبقه بندی موسیقی، فرکانس گام، منطق فازی نوع دو، ماشین بردار پشتیبان چندکلاسی، دستگاه های موسیقی ایرانی
  • زهرا عاشوری*، جلیل عظیم پور، حسن مزارعی صفحات 135-146

    امروز استفاده از شبکه های بی سیم و هوشمند کاربردهای فراوانی در حوزه فناوری اطلاعات و شبکه یافته است. فراهم ساختن یک ارتباط واقعی و سریع نیاز اولیه این فناوری هاست که سوییچینگ برچسب دار چند پروتکلی (MPLS) این امکان را مهیا می سازد. اما در شبکه های MPLS مسایل و مشکلاتی در بحث طراحی و اجرا وجود دارد که از آن جمله می توان به امنیت، گذردهی، تلفات، انرژی مصرفی و غیره اشاره داشت. یکی از مفاهیم مهم در مهندسی ترافیک MPLS، مسیریابی مسیر سوییچ برچسب (LSP) است. هدف الگوریتم های مسیریابی، افزایش تعداد درخواست های پذیرفته شده با توجه به رضایت از کیفیت خدمات است. در این مقاله، برای مسیریابی مبتنی بر انرژی در شبکه های MPLS ارایه شده که مسیریابی را به صورت برخط و با افزایش تعداد درخواست ها انجام می دهد. این الگوریتم پهنای باند و تاخیر انتها به انتها را تضمین می کند و عملکرد آن بر مبنای الگوریتم MDMF است. هدف روش پیشنهادی توزیع یک نواخت بار در شبکه برای تمام درخواست ها و به تعویق انداختن درخواست هایی با پهنای باند بالا و بیشینه تاخیر انتها به انتها کم با استفاده از یک رویکرد فازی مبتنی بر قانون است؛ علاوه بر این، این روش استفاده از منابع را بهینه می کند و تعداد درخواست های پذیرفته شده را افزایش می دهد. روش پیشنهادی در نرم افزار متلب پیاده سازی شده و نتایج به دست آمده از آن نشان دهنده کاهش انرژی مصرفی و بهبود پارامترهای عملکردی شبکه نسبت به روش های مشابه است.

    کلیدواژگان: شبکه های MPLS، مسیریابی مبتنی بر انرژی، الگوریتم فازی مبتنی بر قانون، پهنای باند، تااخیر انتها به انتها
  • پیام بحرانی، بهروز مینایی بیدگلی، حمید پروین*، میترا میرزارضایی، احمد کشاورز صفحات 147-162

    مدل نزدیک ترین همسایگی (KNN) و سامانه های توصیه گر مبتنی بر این مدل (KRS) از موفق ترین سامانه های توصیه گر در حال حاضر در دسترس هستند. این روش ها شامل پیش بینی رتبه بندی یک آیتم بر اساس میانگین رتبه بندی آیتم های مشابه است. میانگین رتبه بندی آیتم های مشابه، با در نظر گرفتن تشابه تعریف شده، میانگین امتیازی را به هر آیتم، به عنوان ویژگی به آن خواهد داد. در این مقاله KRS ایجاد شده با ترکیب رویکردهای زیر ارایه شده است: (الف) استفاده از میانگین و واریانس رتبه بندی اقلام به عنوان ویژگی های آیتم، برای یافتن موارد مشابه در (IKRS)؛ (ب) استفاده از میانگین و واریانس رتبه بندی کاربر به عنوان ویژگی های کاربر برای یافتن کاربران مشابه با KRS کاربرپسند (UKRS)؛ (ج) استفاده از میانگین وزنی برای تلفیق رتبه بندی کاربران/آیتم های همسایه. (د) استفاده از یادگیری جمعی. سه روش پیشنهادی EVMBR، EWVMBR و EWVMBR-G در این مقاله پیشنهاد داده شده است. هر سه روش مبتنی بر کاربر بوده، که در آن ها از فاصله VM  به عنوان معیار تفاوت بین کاربران/آیتم ها، برای یافتن کاربران/آیتم های همسایه استفاده و سپس به ترتیب از میانگین غیروزنی، وزنی و وزنی بر اساس مدل ترکیبی کوواریانس کامل گوسین، برای پیش بینی رتبه بندی کاربر ناشناخته استفاده می شوند. هر سه روش مبتنی بر کاربر بوده، که در آن ها از فاصله VM  به عنوان معیار تفاوت بین کاربران/آیتم ها، برای یافتن کاربران/آیتم های همسایه استفاده و سپس میانگین به ترتیب از میانگین غیروزنی، وزنی، وزنی بر اساس مدل ترکیبی کوواریانس کامل گوسین رتبه بندی، برای پیش بینی رتبه بندی کاربر ناشناخته استفاده می شوند. ارزیابی های تجربی نشان می دهد که سه روش پیشنهادی EVMBR، EWVMBR و EWVMBR-G، که از یادگیری جمعی استفاده می کند، دقیق ترین روش در بین روش های ارزیابی شده است. بسته به مجموعه داده، روش پیشنهادی EWVMBR-G موفق به دست یابی به بیست تا سی درصد خطای مطلق کمتر از MBR اصلی شده است. از نظر زمان اجرا، روش های پیشنهادی قابل مقایسه با MBR و بسیار سریع تر از روش slope-one و روش های توصیه گر KNN مبتنی بر کسینوس یا پیرسون هستند.

    کلیدواژگان: K-نزدیک ترین همسایه، رتبه بندی، واریانس، سیستم پیشنهاددهنده
  • مریم دوروشی، ندا بهزادفر*، غضنفر شاهقلیان صفحات 163-174

    آموزش نوروفیدبک روشی است که با تغییر نوسانات سیگنال مغزی می تواند فعالیت مغزی را تغییر دهد. رخداد خستگی در حین آموزش نوروفیدبک منجر به کاهش قابلیت یادگیری می شود. تشخیص به موقع خستگی در حین آموزش نوروفیدبک سبب حفظ کیفیت آموزش  نوروفیدبک می شود. در این مقاله، تشخیص خستگی در سیگنال الکتروآنسفالوگراف دوازده فرد شرکت کننده در طی آموزش نوروفیدبک در طی ده جلسه آموزش مورد بررسی قرار گرفته است. آموزش نوروفیدبک مورد بررسی شامل دو پروتکل آموزش نوروفیدبک به نام های پروتکل های یک و دو هستند که هر کدام شامل شش شرکت کننده است که به منظور بهینه سازی حافظه کاری طراحی شده اند. ویژگی آموزشی در پروتکل یک ترکیبی از افزایش توان دومین زیرباند پایین آلفا در کانال OZ و کاهش آنتروپی جای گشتی در کانال FZ است و ویژگی آموزشی در پروتکل دو تنها افزایش توان دومین زیرباند  پایین آلفا در کانال OZ است. رخداد خستگی در هنگام آموزش نوروفیدبک در روند تغییرات ویژگی های آموزشی تغییر ایجاد می کند. روند تغییرات شیب ویژگی های آموزشی کمتر و کند یا مخالف هدف آموزش نوروفیدبک می شود؛ لذا بررسی روند تغییرات شیب ویژگی های آموزشی می تواند آشکارگر خستگی ایجاد شده باشد. در حین رخداد خستگی، در پروتکل  یک، روند شیب تغییرات توان دومین زیرباند پایین آلفا در کانال OZ کاهشی و آنتروپی جایگشتی در کانال  FZ  افزایشی است. روند شیب تغییرات امتیاز  نیز کاهشی است. همچنین در پروتکل دو نیز روند شیب تغییرات توان دومین زیرباند پایین آلفا در کانال OZ و امتیاز کاهشی است که نشان دهنده عدم تغییر ویژگی در راستای هدف آموزش نوروفیدبک در اثر خستگی است و سوژه نمی تواند امتیازگیری داشته باشد. در پروتکل یک، 1 سوژه و در پروتکل دو، برای سه سوژه خستگی رخ داده است. در پروتکل یک، تعداد افراد کمتری نسبت به پروتکل دو دچار خستگی می شوند؛ زیرا ویژگی های آموزشی پروتکل یک، ترکیبی از ویژگی های فرکانسی و غیرفرکانسی هستند و پروتکل دو تنها شامل ویژگی فرکانسی است.

    کلیدواژگان: آموزش نوروفیدبک، ویژگی های آموزشی، سیگنال الکتروآنسفالوگرافی، خستگی
  • مژگان فرهودی*، مریم محمودی، مونا داودی شمسی صفحات 175-188

    متون نگاشته شده فارسی به طورمعمول دو مشکل ساده، ولی مهم دارند. مشکل نخست واژه های چندواحدی هستند که از اتصال یک واژه به واژه های بعدی حاصل می شوند. مشکل دیگر واحدهای چندواژه ای هستند که از جداشدگی واژه هایی که با هم یک واحد واژگانی را تشکیل می دهند، حاصل می شوند. ابزار واحدساز در زبان فارسی که به عنوان یکی از ابزارهای پیش پردازش زبان است، کاربرد فراوانی در تجزیه و تحلیل متون داشته و باید بتواند واحدهای واژگانی را تشخیص دهد. به عبارتی، این ابزار، مرکز کلمات را در متون تشخیص داده و آن را به دنباله ای از کلمات به منظور تحلیل های بعدی تبدیل می کند. تنوع در رسم‎ الخط فارسی و عدم رعایت قوانین جدانویسی و پیوسته نویسی کلمات از یک سو و پیچیدگی های واژگانی زبان فارسی از سویی دیگر فرایندهای مختلف پردازشی زبان از جمله واحدسازی را با چالش های بسیاری روبه رو می کند؛ لذا برای عملکرد بهینه این ابزار، لازم است ابتدا ملاحظات زبان شناسی رایانشی واحدسازی در زبان فارسی مشخص و سپس بر اساس این ملاحظات مجموعه داده ای برای آموزش و آزمایش آن فراهم شد. در این مقاله سعی شد ضمن تبیین ملاحظات یاد شده، به تهیه پیکره ای در این خصوص بپردازیم. پیکره تهیه شده شامل 183/21 کلمه و متوسط طول جملات 28/40 است.

    کلیدواژگان: پیکره واحدساز زبان فارسی، پردازش زبان فارسی، زبان شناسی رایانشی
|
  • Bahman Ravaei*, Keyvan Rahimizadeh Pages 1-18

    Mobile social networks (MSNs) are a special type of Delay tolerant networks (DTNs) in which mobile devices communicate opportunistically to each other. One of the most challenging issues in Mobile Social Networks (MSNs) is to design an efficient message forwarding scheme that has a high performance in terms of delivery ratio, latency and communication cost. There are two different approaches for message forwarding: the single copy and the multi copy. In the single copy schemes, only one copy of a message exists in the network, which is carried by a custodian relay. On the other hand, in multi copy schemes more than one copy of the message exist. Although the multi copy schemes generally have superior performance in terms of delivery ratio and latency, they incur high congestion in the network, which consequently degrades the network performance and increases message forwarding cost. Therefore, we present a scheme for managing the number of replica and selecting appropriate relays in order to increase the performance and decrease the forwarding cost.In this paper, we present a novel message forwarding scheme, named Multi Copy Community Aware Forwarding (MCCAF), for managing the number of message replicas and selecting appropriate relays in order to increase the performance and decrease the forwarding cost. MCCAF only forwards one replica of message to each community that the destination node belongs to it. In order to find communities and nodes’ future communities, MCCAF exploits a hidden semi-Markov model (HSMM). In the proposed method, hidden states represent communities and environmental chronological information such as location, visited nodes and access points are modeled as observation in HSMM. To have a more precise community prediction, the semi-Markov model is extended to compute the likelihoods of a node being in a particular community after N transitions. After that, appropriate relays are selected to forward a message with taking into account the message expiration time, future communities of relays and the number of message replica. Evaluation results on real traces demonstrate that the MCCAF has superior performance over rival schemes in terms of delivery ratio, latency, and forwarding cost. Specifically, MCCAF yields on average about 8% better delivery ratio and about 23% less delivery delay than the nearest rival method.

    Keywords: Forwarding, routing, mobile social networking, multi copy, community, hidden semi-Markov model
  • Elahe Shahrouz, Jafar Tahmoresnezhad* Pages 19-34

    Machine learning is an application of artificial intelligence that is able to automatically learn and improve from experience without being explicitly programmed. The primary assumption for most of the machine learning algorithms is that the training set (source domain) and the test set (target domain) follow from the same probability distribution. However, in most of the real-world applications, this assumption is violated since the probability distribution of the source and target domains are different. This issue is known as domain shift. Therefore, transfer learning and domain adaptation generalize the model to face target data with different distribution.In this paper, we propose a domain adaptation method referred to as IMage Alignment via KErnelized feature learning (IMAKE) in order to preserve the general and geometric information of the source and target domains. IMAKE finds a common subspace across domains to reduce the distribution discrepancy between the source and the target domains. IMAKE adapts both the geometric and the general distributions, simultaneously. Moreover, IMAKE transfers the source and target domains into a shared low dimensional subspace in an unsupervised manner.Our proposed method minimizes the marginal and conditional probability distribution differences of the source and target data via maximum mean discrepancy and manifold alignment for geometrical distribution adaptation. IMAKE maps the input data into a common latent subspace via manifold alignment as a geometric matching method. Therefore, the samples with the same class labels are collected around their means, and samples with different class are separated, as well. Moreover, IMAKE maintains the source and target domain manifolds to preserve the original data position and domain structure. Also, the use of kernels and mapping data into Hilbert space provides more accurate separation between different classes and is suitable for data with complex and unbalanced structures. The proposed method has been evaluated using a variety of benchmark visual databases with 36 experiments. The results indicate the significant improvements of the proposed method performance against other machine learning and transfer learning approaches.

    Keywords: Image classification, Transfer learning, Visual domain adaptation, Manifold alignment, Distribution mismatch
  • Ruhollah Keshvari, Maryam Imani*, Mohsen Parsa Moghaddam Pages 35-48

    The Short-term forecasting of electric load plays an important role in designing and operation of power systems. Due to the nature of the short-term electric load time series (nonlinear, non-constant, and non-seasonal), accurate prediction of the load is very challenging. In this article, a method for short-term daily and hourly load forecasting is proposed. In this method, in the first step, the intrinsic mode functions (IMFs) of the Electric load curve, which are a group of average and pseudo-periodic average signals, are extracted by using the empirical mode decomposition (EMD) method, which is a non-linear and non-constant time-frequency method. For this purpose, the maximum and minimum points of the signal are determined, and then, in one cycle, the difference between the average curve of the upper and lower envelope is calculated with it. This continues until the result falls below a threshold value, and then, the rest of the signal which contains noise is discarded to get a relatively clean signal. In the second step, we need to obtain the sub-sequences of each IMF. So, we use the wavelet transform. The wavelet transform is a kind of transform that is used to decompose a continuous signal into its frequency components, and the resolution of each component is equal to its scale. Each subsequence contains different information and details that can help the improvement of the prediction accuracy. In the third step, the obtained subsequences are aggregated and finally used for prediction by Support Vector Regression (SVR). Support vector regression is a type of supervised learning system that is used for both grouping and estimating the fitting function of data in regression problems so that the least error occurs in the grouping of data or in the fitting function. The purpose of the proposed method is to reduce the error for daily and hourly load prediction. In this method, two datasets of Poland and Canada have been experimented. With four criteria of mean square error (MSE), root mean square error (RMSE), average absolute percentage error (MAPE) and mean absolute error (MAE), the results are evaluated. The findings show that the load prediction error for the Polish data set are as follows: MSE equal to 0.0012, RMSE equal to 0.0342, MAPE equal to 2.9771, and MAE equal to 0.0044. For Canadian data set, the results are as follows: MSE equal to 5.0969e-07, RMSE equal to 7.1393e-04, MAPE criterion equal to 0.9571, and the MAE criterion equal to 2624e-04. Comparison of the proposed method with other competing methods show that better results are achieved by the proposed method in term of the error rate.

    Keywords: Short-term electrical load forecasting, Electricity demand, empirical mode decomposition, wavelet transform, support vector regression
  • Atefeh Tobeiha, Neda Behzadfar*, Mohamadreza Yousefi-Najafabadi, Homayon Mahdavi-Nasab, Ghazanfar Shahgholian Pages 49-64

    Addiction is a biological, psychological, and social disease. Several factors are involved in etiology, substance abuse, and addiction which interact with each other and lead to the beginning of drug use and then addiction. Heroin is an addictive drug that, by acting on the central nervous system, reduces the density of neurons in the brain and interferes with decision making. This paper examines the effects of heroin on brain function by studying the relationship between spectral strength of electroencephalogram (EEG) signal and heroin abuse. For this purpose, the resting EEG signal and cognitive activity of 15 healthy individuals and 15 heroin addicts were recorded in 16 channels in one session. The frequency range of EEG signal sub-bands was calculated separately for each individual. Welch method has been used to extract the power of EEG signal frequency sub-bands. The extracted features were examined using Mann-Whitney test and Davies-Bouldin index. The results show that the heroin-dependent group has higher power in delta (in the frontal, central and temporal regions) and theta (in all canals) than in the control group. In the heroin-dependent group, the power of alpha decreased compared to the control group. High alpha sub-bands power in the frontal, temporal and central lobes compared to other frequency sub-bands, as well as in the central, parietal and temporal lobes, the power of the second low alpha sub-band in decreased addicts. According to Davies-Bouldin, the power of the second low alpha sub-band in the T6 channel has a better power to differentiate between healthy and heroin-dependent people.

    Keywords: Heroin addiction, EEG signal, frequency characteristics, power, Davis- Boldin index
  • Maryam Azimi Far, Samad Nejatian*, Hamid Parvin, Karamollah Bagheri Fard, Vahideh Rezaei Pages 65-86

    The use of artificial intelligence in the process of diagnosing heart disease has been considered by researchers for many years. In this paper, an efficient method for selecting appropriate features extracted from electrocardiogram (ECG) signals, based on a genetic algorithm for use in an ensemble multi-kernel support vector machine classifiers, each of which is based on an optimized genetic algorithm is proposed. It has already been shown that due to its features (feature space mapping and decision boundary maximization), support vector machine classification is one of the classification methods that are suitable for any type of environment. This paper uses a number of multi-kernel support vector machine classifiers as an ensemble classifier. ensemble diversity is created by teaching each multi-kernel support vector machine classifier on a subspace (ie, a subset of features). In this method, the majority vote method is used to combine the output of the categories. On the other hand, in the classification of ECG signals, signals are usually used as their characteristics; As a result, since the methods of classifying signals are faced with a large number of features, and not removing these features creates a problem of high dimensions and also increases the computational for the intended application, the step of selecting the feature is inevitable. The extracted features include temporal properties, AR, and wavelet coefficients, the number of which will be optimized using a genetic algorithm. The evaluation of this set of features selected by the genetic algorithm is examined by applying it to a multivariate SVM. A genetic algorithm is used to optimize the parameters of each of the SVMs. Indicates the desired method. With the help of computer simulation, the overall accuracy of the system for identifying 6 types of heart rhythms is 99.15%, which in comparison with the accuracy obtained with previous research, shows the optimal performance of the proposed method.

    Keywords: ElectroCardioGram Signals, Feature Selection, Multiple Support Vector Machine, Esemble classification, Genetic Algorithm
  • Morteza Seyed Rezaie, Ghorban Kheradmandian, Javad Kazemitabar Amirkolaie* Pages 87-104

    With the advancement of technology, the use of ATM and credit cards are increased. Cyber fraud and theft are the kinds of threat which result in using these Technologies. It is therefore inevitable to use fraud detection algorithms to prevent fraudulent use of bank cards. Credit card fraud can be thought of as a form of identity theft that consists of an unauthorized access to another person's card information for the purpose of charging purchases to the account or removing funds from it. Credit card fraud schemes are divided into two categories: application fraud and account takeover. When a credit card account gets opened without someone’s permission is called application fraud. Account takeovers, on the other hand, is when an existing credit card account is hijacked, and the criminal obtains enough personal information to modify the account's information. The criminal then subsequently reports the card lost or stolen in order to obtain a new card and make unauthorized purchases with it. Data mining as a technique capable of identifying useful patterns among a great deal of data is an effective method in detecting fraud in this regard. The main purpose of this paper is to present a new method for detecting unattended outliers that require high accuracy and recall. The method presented in this study is based on a combination of NMF, hierarchical k-means, k-means and k-nearest neighbors’ techniques. To evaluate the proposed method of outlier detection, several experiments were performed using standard data, in terms of accuracy and recall with Isolation Forest, k-nearest neighbors, Median kNN, and Average kNN. The dataset used in this paper is one that was provided in a 2016 Kaggle competition and was provided by a European bank after anonymization. The results, corroborate that the proposed method has higher accuracy and recall than other algorithms.

    Keywords: Fraud detection, Data mining, Outlier detection, hierarchical k means, NMF
  • Javad Hamidzadeh*, Mona Moradi Pages 105-118

    Linear discriminant analysis is a well-known matrix-based dimensionality reduction method. It is a supervised feature extraction method used in two-class classification problems. However, it is incapable of dealing with data in which classes have unequal covariance matrices. Taking this issue, the Chernoff distance is an appropriate criterion to measure distances between distributions. In the proposed method, for data classification, LDA is used to extract most discriminative features but instead of its Fisher criterion, the Chernoff distance is employed to preserve the discriminatory information for the several classes with heteroscedastic data. However, the Chernoff distance cannot handle the situations where the component means of distributions are close and leads to the component distribution overlap and underperforming classification. To overcome this issue, the proposed method designs an instance selection method that provides the appropriate covariance matrices. Aiming to improve LDA-based feature selection, the proposed method includes two phases: (1) it removes non-border instances and keeps border ones by introducing a maximum margin sampling method. The basic idea of this phase is based on keeping the hyperplane that separates a two-class data and provides large margin separation. In this way, the most representative instances are selected. (2) It extracts features on selected instances by the proposed extension of LDA which generates a desirable scatter matrix to increase the efficiency of LDA. In the proposed method, the instance selection process is considered a constrained binary optimization problem with two contradicting objects, and the problem solutions are obtained by using a heuristic method named filled function. This optimization method does not easily get stuck in local minima; meanwhile, it is not affected by improper initial points. The performance of the proposed method on data collected from the UCI database is evaluated by 10-fold validation. The results of experiments are compared to several competing methods, which show the superiority of the proposed method in terms of classification accuracy percentage and computational time.

    Keywords: Chernoff criterion, Data classification, Instance selection, Filled function, Maximum margin
  • Masoud Geravanchizadeh*, Parisa Mobasheri, Hadi Jamshidi Avanaki Pages 119-134

    The Iranian traditional music is composed of seven majors Dastgahs: Chahargah, Homayoun, Mahour, Segah, Shour, Nava, and Rast-Panjgah. In this paper, a new algorithm for the classification of the Iranian traditional music Dastgahs based on pitch frequency is proposed. In this algorithm, the features of Lagrange coefficients of pitch logarithm (LCPL), Fuzzy similarity sets type 2 (FSST2), and their combination are used as the representation of music signals which are fed into the multi-class support vector machine (MSVM) as the classifier. The features of LCPL and FSST2 are obtained by applying some modifications on the pitch frequency of the desired music. To compute LCPL, first, the values of pitch frequency are extracted by the PRAAT algorithm. Then, after the applying a logarithmic operation, the tracks of pitch frequency are partitioned into smaller segments. The method of feature extraction is based on detecting the trough or valley points of the pitch tracks. In the following, the coordinates of trough points (i.e., the index of pitch frequency and the logarithmic value of the frequency) are considered as each segment boundaries. In the next step, the track between the two boundaries of each segment is approximated by a 6th order Lagrange polynomial and the computed polynomial coefficients are considered as a 6-dimensional feature vector. The first step in extracting the FSST2 feature is to compute the pitch frequencies of the input signal by the PRAAT algorithm. The second step involves the classification of music notes. Then, the subtractive clustering method is used to eliminate the incorrectly estimated pitch frequencies of the previous step. Next, the process of folding notes (i.e., transferring the extracted pitch frequencies into the reference octave band of 220-440 Hz) is performed followed by translating the frequency points to the cents with respect to 220 Hz. After folding notes in one octave, the Mahalanobis distance is applied to recognize which point on the reference octave corresponds to each musical note. These same procedures are conducted for the information pattern (theoretical data) of each Dastgah. In the final step, the folded frequency points of the unknown input signal and the information pattern of all Dastgahs are transferred to the Fuzzy logicType-2 domain and compared to determine a similarity measure which is considered as the extracted feature. The dataset used in the proposed classification algorithm contains the excerpts from solo performances with Tar played by Alizadeh, the well-known Iranian music master. The performances of the baselines and proposed classification algorithms are evaluated by the measures of Accuracy, Recall, Precision, F-measure, and MCC. The results show that the proposed algorithm has a better performance as compared with the baseline methods in terms of different classification criteria.

    Keywords: Music Classification, Pitch Frequency, Fuzzy Logic Type 2, MSVM, Iranian Music Dastgahs
  • Zahra Ashoori*, Jalil Azimpour, Hasan Mazarei Pages 135-146

    Today, the use of wireless and intelligent networks are widely used in many fields such as information technology and networking. There are several types of these networks that MPLS networks are one of these types. However, in MPLS networks there are issues and problems in the design and implementation discussion, for example security, throughput, losses, power consumption and so on. Basically, the performance parameters of MPLS networks are directly dependent on the type of routing performed between these networks. In this paper, a routing algorithm for energy-based routing in MPLS networks is presented which performs routing online with increasing number of requests. This algorithm guarantees bandwidth and end-to-end delay and its performance is based on the Minimum Delay and Maximum Flow (MDMF) algorithm. The purpose of this algorithm is to uniformly distribute the load across the network for all requests and to delay high-bandwidth requests and maximum end-to-end delay using a fuzzy law-based approach. In addition, the proposed algorithm optimizes the use of resources and increases the number of requests accepted. In the proposed routing algorithm, the weight of each link of the network graph is first calculated based on a multi-objective weighted sum maximization problem. The weight of links must be calculated in such a way as to determine the shortest path weighted by the sum of the minimum weights in the graph. Then, links which their residual bandwidth is less than the requested bandwidth are removed from the grid graph and in the residual subgraph, the shortest weighted path between the input-output nodes is calculated using Dijkstra algorithm and based on the weights of each link. Therefore, this algorithm only requires the remaining capacity information of the links, where assumed this information is always available. The proposed method is implemented in MATLAB software and the results show a decrease in energy consumption and improvement of network performance parameters compared to similar methods.

    Keywords: MPLS Networks, Energy-Based Routing, Rule-Based Fuzzy Algorithm, Bandwidth, End-to-End Delay
  • Payam Bahrani, Behrouz Minaei Bidgoli, Hamid Parvin*, Mitra Mirzarezaee, Ahmad Keshavarz Pages 147-162

    K-nearest neighbors (KNN) based recommender systems (KRS) are among the most successful recent available recommender systems. These methods involve in predicting the rating of an item based on the mean of ratings given to similar items, with the similarity defined by considering the mean rating given to each item as its feature. This paper presents a KRS developed by combining the following approaches: (a) Using the mean and variance of item ratings as item features to find similar items in an item-wise KRS (IKRS); (b) Using the mean and variance of user ratings as user features to find similar users with a user-wise KRS (UKRS); (c) Using the weighted mean to integrate the ratings of neighboring users/items; (d) Using ensemble learning. Three proposed methods EVMBR, EWVMBR and EWVMBR-G are presented in this paper. All three methods are user-based, in which VM distance is used as a measure of the difference between users / items, to find neighboring users / items, and then the weighted average is weighted, respectively. Also, weights based on the Gaussian combined covariance model are used to predict unknown user ratings. Our empirical evaluations show that the proposed method EVMBR, EWVMBR and EWVMBR-G, which utilizes ensemble learning, are the most accurate among the methods evaluated. Depending on the dataset, the proposed method EWVMBR-G managed to achieve 20 to 30 percent lower mean absolute error than the original MBR. In terms of runtime, the proposed methods are comparable to the MBR and much faster than the slope-one method and the cosine- or Pearson-based KNN recommenders.

    Keywords: K-Nearest Neighbor, Rating, Variance, Recommender System
  • Maryam Dorvashi, Neda Behzadfar*, Ghazanfar Shahgholian Pages 163-174

    Timely diagnosis of fatigue helps to improve the quality and effectiveness of neurofeedback training. Neurofeed back training (NFT) is a method that can change brain activity by altering brain signal fluctuations and teaches individuals to produce or reproduce their brain activity patterns in order to improve performance. Neurofeedback training has been widely utilized over the recent years owing to its considerable effect on the cognitive processes. Fatigue during NFT is one of factors affecting the functioning and achievement of NFT which results in decreased learning ability. Timely diagnosis of fatigue during NFT preserves quality of NFT.Decreased learning ability reduces individuals' motivation for learning during NFT. In this paper, 12 participants` electroencephalogram signals were investigated to detect fatigue during NFT. Two training protocols named protocol 1 and 2 have been designed to improve working memory. Each protocol includes 6 participants and 10 training sessions that each session takes three 10-minute training intervals. Training features in protocol 1 are increased in power of lower2 alpha frequency band in OZ channel and permutation entropy reduction in FZ channel, while protocol 2`s training feature is increased in power of lower2 alpha frequency band in OZ channel. Occurrence of fatigue during NFT changes trend of training features. Changing of training features slope will decrease or become opposite to the goal of NFT. Therefore, examining trend of training features slope is a novel approach in detection of fatigue during NFT. During the occurrence of fatigue, in protocol 1, trend of power of lower2 alpha frequency band`s slope in the OZ channel is decreasing and the trend of entropy` s slope in the FZ channel is increasing. Consequently, the trend of score`s slope is also decreasing. Also in the protocol 2, the trend of power of lower 2 alpha frequency band`s slope in the OZ channel and score is decreasing. This shows that training features do not change in line with the neurofeedback`s goal. Fatigue was detected for 3 subjects in the protocol 1 and 1 subject in the protocol 2. Occurrence of fatigue was less in protocol 1 compared with protocol 2 since Protocol 1 `s training features are combination of frequency and non-frequency features, while the Protocol 2 `s training feature is only frequency feature. Detection of fatigue during NFT is an essential issue which contributes to increase in the effect of training and participants` performance.

    Keywords: neurofeedback training, training feature, electroencephalogram signal, fatigue
  • Mojgan Farhoodi*, Maryam Mahmoudi, Mona Davoudi Pages 175-188

    The main task of the tokenization is to divide the sentences of the text into its constituent units and remove punctuation marks (dots, commas, etc.). Each unit is a continuous lexical or grammatical writing chain that is an independent semantic unit. Tokenization occurs at the word level and the extracted units can be used as input to other components such as stemmer. The requirement to create this tool is to identify and recognize the units that are known as independent semantic units in Persianlanguage. This tool detects word boundaries in texts and converts the text into a sequence of words.In the English language, many activities have been done in the field of text tokenization and many tools have been development; such as: Stanford, Ragel, ANTLR, JFLex, JLex, Flex and Quex. In recent decades, valuable researches have also been conducted in the field of tokenization in Persian language that all of them have worked on the lexical and syntactic layer. In the current research, we tried to focus on the semantic layer in addition to those two layers.Persian texts usually have two simple but important problems. The first problem is multi-word tokens that result from connecting one word to the next. Another problem is polysyllabic units, which result from the separation of words that together form a lexical unit.  Tokenizer is one of the language preprocessing tools that is widely used in text analysis. This component recognizes the center of words in texts and turns it into a sequence of words for later analysis. Variety in Persian script and non-observance of the rules of separation and spelling of words on the one hand and the lexical complexities of Persian language on the other hand, different language processing such as tokenization face many challenges. Therefore, in order to obtain the optimal performance of this tool, it is necessary to first specify the computational linguistics considerations of tokenization in Persian and then, based on these considerations, provide a data set for training and testing. In this article, while explaining the mentioned considerations, we tried to prepare a data set in this regard. The prepared data set contains 21.183 tokens and the average length of sentences is 40.28.

    Keywords: Persian text tokenization corpus, Natural Language Processing (NLP), cyber linguistic