Magiran | فصلنامه ره آورد نور، سال دهم شماره 34 (پیاپی 51، بهار 1390)

سرمقاله: آثار پیشرفت در اندیشه های خلاق

محمدمهدی نمازی صفحه 2

اولین سمینار کامپیوتر و علوم اسلامی، در 18 دیماه سال 1371 در سالن اجتماعات مدرسه عالی دارالشفاء قم با حضور جمعی از بزرگان حوزه، مهندسان و متخصصان، فضلا و دانشجویان رشته‌های کامپیوتر، به همت مرکز تحقیقات کامپیوتری علوم اسلامی برگزار شد. اگرچه گردهمایی‌ها و سمینارهای دیگری نیز در طی سال‌های بعد در همین موضوع از طرف این مرکز برگزار گردید، اما با توجه به عناوین و موضوعات مطرح شده در اولین سمینار و نیم‌نگاهی به موضوعات و مقالات ارایه شده در سمینار «فناوری‌های هوشمند پردازش متون اسلامی» در اردیبهشت ماه سال جاری و پیشرفت‌های حاصله در زمینه طراحی و تولید نرم‌افزارهای اسلامی، با سیر و حرکت معناداری در عرصه فناوری اطلاعات و ارتباطات در حوزه‌های علوم اسلامی و انسانی روبه‌رو می‌شویم. برخی از عناوین مقالات ارایه شده در نخستین سمینار کامپیوتر و علوم اسلامی عبارت بودند از:بررسی ضرورت تولید نرم‌افزار اسلامی، ضرورت استفاده از کامپیوتر در تحقیقات اسلامی، نقش کامپیوتر در خدمات اطلاع‌رسانی، نقش اعراب در معجم الفاظ کامپیوتری و برخی موضوعات دیگر که همگی از ضرورت و نیاز ورود به گستره فناوری اطلاعات و استفاده از ماشین‌های پردازشگر و طراحی برنامه‌ها و نرم‌افزارهای کاربردی و تشریح کارکرد رایانه در داده‌پردازی علوم اسلامی سخن می‌راندند. همچنین بیشتر سخنرانان در آن سمینار، بر تبیین نقش رایانه‌ها در پژوهش‌های اسلامی پرداخته و برای ترسیم دورنمای استفاده رایانه در علوم اسلامی تلاش بسیاری به خرج دادند. البته برخی نیز هشدارهایی در استفاده از رایانه در تحقیقات اسلامی مطرح می‌کردند و دل‌نگرانی‌های خود را از باز شدن پای کامپیوتر به حوزه‌های علمیه بروز می‌دادند! ترسیم فضای ابهام‌آلود آن روز حاکم بر حوزویان از یک سو، و مهندسان و متخصصان علوم رایانه از سوی دیگر، در استفاده از رایانه و کاربرد این فناوری مدرن و دانش نوظهور در حوزه‌های علمیه و پردازش داده‌های اسلامی، شاید در نگاه امروز کمی تعجب‌برانگیز باشد؛ اما واقعیت امر این است که دو دهه قبل هیچ کس تصور نمی‌کرد رایانه روزی بتواند آنچنان در حوزه‌های علوم اسلامی جای باز کند که هیچ نهاد پژوهشی یا پژوهشگری نتواند بدون استفاده از دانش فناوری اطلاعات و ارتباطات و به‌کارگیری نرم‌افزارهای پژوهشی، تحقیقات خود را به سامان رسانده و به‌روز و به‌موقع ارایه نماید. امروزه کاهش هزینه‌های تامین منابع و تتبع، تنها با تکیه بر فناوری‌های اطلاعاتی و ارتباطاتی امکان‌پذیر و مقرون به صرفه است. مدیریت زمان و استفاده بهینه از وقت در عصر انفجار اطلاعات موجب شده است تا بیشتر 2 پژوهش‌ها در بستر این فناوری به نتیجه مطلوب دست یابد. کارشناسان معتقدند به‌کارگیری رایانه‌ها موجب شده تا بیش از هفتاد درصد از وقت محققان، از حوزه‌های تتبع، داده‌کاوی و شناسایی منابع، آزاد گردیده و به بخش پژوهش و تولید علم اضافه گردد. این بدان معنا است که سرعت تولید علم سه برابر شده و اختصاص زمان برای منبع‌یابی و داده‌کاوی، به یک‌چهارم کاهش‌یافته است...

فناوری پردازش هوشمند متون اسلامی، نتایج ارزشمندی را در عرصه تولید علم به دنبال دارد / گفتگو با دکتر بهروز مینایی، دبیر علمی سمینار فناوری های پردازش هوشمند متون اسلامی

صفحه 5

در دنیای امروز، رشد چشمگیر متون دیجیتالی ایجاب می‌کند تا با بهره‌گیری بهینه از فناوری‌های نوین «متن‌کاوی» و ایجاد سامانه‌های هوشمند «پردازش زبان طبیعی» برای زبان عربی و فارسی، استخراج اطلاعات علوم اسلامی را از دادگان متنی دیجیتالی کارآمدتر سازیم. از این رو، مرکز تحقیقات کامپیوتری علوم اسلامی، یکی از پیشگامان این عرصه، با تاسیس «گروه پژوهشی متن‌کاوی نور» بدین مهم توجه نمود و به دستاوردهای ارزشمندی چون: صرف هوشمند زبان عربی، دسته‌بندی خودکار متون، تشخیص روایات مشابه و اعراب‌گذاری ماشینی دست یافت. حاصل این موارد، پژوهشگران را یاری می‌کند تا سریع‌تر و مطلوب‌تر به نتایج پژوهشی مورد نظر خود نایل آیند. در راستای برگزاری «سمینار فناوری‌های پردازش هوشمند متون اسلامی» در مرکز تحقیقات کامپیوتری علوم اسلامی، به حضور دکتر بهروز مینایی، دبیر این سمینار رسیدیم تا از نزدیک با اهداف و برنامه‌های این گردهمایی علمی آشنا شویم. آنچه در ذیل می‌خوانید، حاصل این گفتگو است.

کاربردهای داده کاوی در علوم اسلامی

حسین عابدینی، بهروز مینایی صفحه 7

«داده‌کاوی» یا فرایند کشف دانش در پایگاه داده، زمینه‌ای نسبتا نوظهور است. داده‌کاوی، پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم است. داده‌کاوی، فرآیند یا پروژه‌ای نسبتا پیچیده برای شناسایی الگوها و مدل‌های صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ به گونه‌ای که این الگوها و مدل‌ها برای انسان‌ها قابل درک باشند. داده‌های در اختیار ما اغلب حجیم هستند و به‌تنهایی قابل استفاده نیستند؛ بلکه دانش نهفته در داده‌ها است که قابل استفاده است. در اینجا است که فرایند داده‌کاوی به ما امکان شناسایی الگوها، مدل‌ها و ارتباط میان عناصر مختلف در پایگاه داده را می‌دهد تا دانش نهفته در داده‌ها را کشف و نهایتا این دانش را به اطلاعات تبدیل کنیم. گاهی داده‌کاوی را با دانش آمار مقایسه می‌کنند. ابتدایی‌ترین تفاوت‌ها و در حقیقت، مزایای داده‌کاوی نسبت به دانش آمار این است که در دانش آمار غالبا فرضیه‌ای طرح می‌شود و با استفاده از تحلیل‌های آماری به اثبات یا رد آن فرضیه می‌پردازند؛ اما داده‌کاوی نیازمند فرضیه نیست. در تعبیر این موضوع، گاهی چنین گفته می‌شود که در داده‌کاوی خود داده‌کاوی هم ممکن است نداند که به دنبال چه می‌گردد یا چه نتیجه و کاربردهایی برایش حاصل خواهد شد. به این ترتیب، با کاوش میان داده‌ها، ارتباطات مخفی، گوناگون و معناداری میان آنها کشف خواهد شد. گذشته از اینکه دست‌مایه دانش آمار، بیشتر داده‌های عددی است؛ اما دست‌مایه داده‌کاوی، منحصر به داده‌های عددی نیست...

ملاحظاتی در باب تاسیس یک نهاد پژوهشی میان رشته ای در حوزه «فناوری اطلاعات و علوم اسلامی» با محوریت «داده کاوی علوم اسلامی»

مهدی بهنیافر، بهروز مینایی صفحه 13

مرکز تحقیقات کامپیوتری علوم اسلامی به‌زودی در چارچوب ساختار پژوهشی مورد تایید وزارت علوم، تحقیقات و فناوری یک نهاد پژوهشی جانبی تاسیس خواهد کرد. آنچه در پی می‌آید، توضیحاتی درباره زمینه‌های فعالیت این نهاد نوپا است که در گام اول، در قالب یک گروه پژوهشی و در گام‌های بعد و توسعه‌یافته خود، در قالب یک پژوهشکده زیر نظر «مرکز نور» فعالیت خواهد کرد. در اینجا ابتداء با توضیحاتی درباره زمینه علمی فعالیت آن و سپس درباره ساختار سازمانی آن مواجه می‌شوید.

سیستم هوشمند برچسب گذار ادات سخن زبان عربی؛ لایه صرف

حبیب سریانی، بهروز مینایی صفحه 18

جهت فهم زبان عربی، سه دانش مهم، نقش اساسی را بر عهده دارند که عبارت‌اند از: علم لغت، صرف و نحو. علم لغت، یعنی فهم معنای حقیقی یک کلمه و همچنین آشنایی با برخی معانی مجازی و کنایی یک کلمه یا یک عبارت. در کنار علم لغت، علم صرف و نحو نیز وجود دارد که مبتنی بر قواعدی است که فهم هوشمند از آنها را امکان‌پذیر می‌کند. بدون تردید، علم صرف را باید پیش‌نیاز علم نحو دانست. اینکه یک کلمه چه جایگاهی را در یک کلام دارد، ابتدا وابسته به این است که کلمه به خودی خود قابلیت کدام یک از نقوش نحوی را دارد؛ به طور مثال، فاعل یا مفعول شدن یک کلمه، در ابتداء وابسته به این است که آن کلمه اسم باشد و نه فعل یا حرف. در حال حاضر، چند موتور صرف وجود داردکه با قدرت و دقت نسبتا مناسبی به کار تجزیه صرفی متون عربی می‌پردازد؛ اما عواملی منجر به آن شده که طراحی موتور جدیدی در دستور کار مرکز قرار گیرد که به برخی از آنها اشاره می‌کنیم: 1. موتور «بوک والتر (1) از جمله موتورهایی است که در این زمینه تدوین شده و از یک پایگاه بزرگ لغات تجزیه‌شده بهره می‌گیرد؛ اما تعداد برچسب‌های اعلام‌شده توسط آن، محدود بوده و نیز عملکرد آن در متون اولیه اسلامی، چون آیات و روایات، دارای اشکالات بسیاری است و از طرفی، چون مالکیت معنوی آن برای مرکز نیست، جهت استفاده از آن باید هم اجازه گرفته و هم ارجاع دهیم. 2. موتور «صرف مبین» نیز در مورد متون قرآنی عملکرد مناسبی دارد؛ ولی در دیگر متون عربی دقت آن کاهش می‌یابد. در ضمن، متن ورودی به این موتور نیز باید منحصرا دارای اعراب باشد تا پاسخ مرتبط ارایه شود. در این موتور به سماعیات زبان عربی نیز چندان پرداخته نشده و بر همین اساس، در مورد برخی لغات جواب صحیح ندارد و در ارتباط با خصوص متون اسلامی نیز در بسیاری از موارد برای هر کلمه، کدی مخصوص به آن نوشته شده است؛ بدون آنکه مجموعه‌ای از کلمات مشابه در پایگاه‌های مجزا گردآوری شوند. این مقاله درصدد آن است که با توجه به نیاز اصلی استفاده از موتور صرف در متون اسلامی، مقدمات موردنیاز جهت تهیه موتور صرف در مرکز تحقیقات، مراحل تدوین، نقاط قوت و کارکردهای آن را بیان دارد.

شناسایی واحدهای اسمی در زبان عربی

بهروز مینایی، محمدرضا وفایی صفحه 29

پردازش زبان‌ها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانه‌ای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشه‌ای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبان‌های طبیعی می‌شد. تلاش‌های زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاش‌ها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال می‌نمود. پردازش زبان طبیعی، یکی از عرصه‌های مهم در علم هوش مصنوعی است. مفاهیم و مباحث مطرح در پردازش زبان طبیعی به شرح ذیل است: 1. آواشناسی و واج‌شناسی (phonology and phonetics)؛ 2. تحلیل لغوی (lexical analysis)؛ 3. تحلیل ساختواژی (morphology)؛ 4. تجزیه نحوی (syntax)؛ 5. پردازش معنایی (semantics)؛ 6. تحلیل کاربردشناسی (pragmatics)؛ 7. تحلیل گفتمان (discourse) . بر همین مبنا، الگوریتم‌های بسیاری برای رسیدن به برنامه‌هایی هوشمندتر توسط دانشمندان و متخصصان علوم رایانه، زبان‌شناسی و ریاضیدانان، طراحی و پیشنهاد شده است؛ به عنوان مثال، می‌توان به الگوریتم‌های مدل مارکوف و مدل مخفی مارکوف و نیز تلاش‌های چندین ساله نوام چامسکی اشاره نمود. با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاش‌های محققان، روزبه‌روز بر این پیشرفت‌ها افزوده می‌شود و پژوهشگران در سراسر دنیا سعی در بهبود و پیاده‌سازی این روش‌ها در زبان‌های بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامه‌ها، کتب و... لزوم استخراج و ساماندهی داده‌ها را بیش از پیش نمایان می‌سازد. یکی از 2 مهم‌ترین مشکلات در سیستم‌های استخراج اطلاعات (IE)، شناسایی و سازماندهی واحدهای اطلاعاتی است. سیستم‌های IE، به دو گروه اصلی: نگرش‌های دانش مهندسی (که عموما از سیستم‌های نقش‌محور استفاده می‌کنند) و نگرش‌های یادگیری ماشینی تقسیم می‌شوند. در این نگرش‌ها از فهرست اسامی جهت کمک به شناسایی واحدهای اسمی (1) (NE) استفاده می‌شود. البته سیستم‌های نقش‌محور معمولا بیش از سیستم‌های یادگیری ماشینی، به این فهرست‌های اسامی متکی هستند. چنین فهرست‌هایی، نه تنها شامل مدخل‌های جغرافیایی از قبیل: نام شهرها، کشورها و غیره‌اند، بلکه نام افراد (به‌ویژه نام کوچک)، سازمان‌های بزرگ، ماه‌های سال، روزهای هفته، اعداد را نیز در بر می‌گیرند. در حال حاضر، کار شناسایی واحد‌های اسمی به طور گسترده‌ای استفاده می‌شود و نقش بسیار مهمی در حوزه‌های مختلف پردازش زبان به‌خصوص در سیستم پاسخ به سوال، خلاصه‌سازی متون، بازیابی اطلاعات، سیستم استخراج و ترجمه ماشینی دارد. واحدهای اسمی (NE)، ماهیتی است که نامگذاری آن بر اساس اطلاق نام خاص مانند: شخص (جعفر)، سازمان (مرکز تحقیقات کامپیوتری)، مکان (قم)، واحد پولی (ریال)، تاریخ (10 ذی حجه)، اعداد (1389) و... صورت می‌پذیرد. شناسایی واحدهای اسمی (NER)، فرآیند شناسایی واحدهای اسمی در متون مختلف همچون: متون اینترنتی، روزنامه و... می‌باشد. در دهه‌های اخیر تلاش‌های فراوانی صورت گرفته است تا عملکرد و شناسایی واحدهای اسمی بهبود یابد. وظیفه فرآیند شناسایی واحدهای اسمی، جمع‌آوری فهرست اسامی یک متن است که با بسیاری از چالش‌های زبان عربی از قبیل املاء صحیح، پیچیدگی و ابهام زبان سر و کار دارد. در این مقاله، پس از مقدمه‌ای که در بالا ذکر شد، به بررسی پیشینه کار شناسایی واحدهای اسمی پرداخته، سپس به ساختار اسم در زبان عربی و مشکلات شناسایی آن می‌پردازیم. در بخش بعد، به روش‌های شناسایی واحدهای اسمی و در نهایت، به نتیجه‌گیری از مباحث مطروحه خواهیم پرداخت.

امکان سنجی بر چسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص حدود جمله

محمد امین الهی منش، بهروز مینایی صفحه 41

انسان‌ها برای انتقال مقصود خود به مخاطب، از راه‌های مختلفی استفاده می‌کنند. یکی از متداول‌ترین روش‌ها، استفاده از تکلم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با به‌کارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب می‌فهماند. برای فهم هدف متکلم لازم است مخاطب، جملات او را از جنبه‌های گوناگون مانند: محدوده، معنا، (1) اعراب و... مورد بررسی قرار دهد و تنها بهره‌گیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتداء و انتهاء جملات است، نخستین مرحله پردازش جمله به شمار می‌آید. پس از آن، اعراب و لایه معناشناسی قرار دارد. تشخیص حدود جمله، مبتنی بر شناسایی ارکان (مسند و مسندالیه)، عامل‌ها و معمول‌ها، کلمات مرتبط به آنها و ادات ابتداء جمله است. به این صورت که ادات شناسای ابتداء جمله، شروع جمله را مشخص می‌نماید، پس ارکان جمله با کلمات اطراف خود ارتباط عاملیت برقرار کرده و باواسطه یا بی‌واسطه در آنها عمل می‌کند.

امکان سنجی بر چسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیستم تشخیص اسم و خبر نواسخ (خانواده«إن»)

محمدرضا جوان آراسته صفحه 49

متن‌کاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متن‌کاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهم‌ترین ابزارهای پردازش زبان طبیعی نیز می‌توان به برچسب‌گذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسب‌گذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری می‌شود. اول حوزه ریخت‌شناسی (Morphology) (صرف) و دوم گرامر (نحو). در صرف، (1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساخت‌شان مورد بررسی قرار می‌گیرند؛ اما در نحو، (2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار می‌گیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بی‌سرانجام می‌نماید. شاید نخستین و اصلی‌ترین کار در دایره نحو، تشخیص جملات و کشف مرز بین آنها است. در کنار این مهم، وظیفه دیگر نحو، شناخت نقش هر کلمه در ساختار کلام است. در واقع، مسیر هدفمند آن است که ابتدا محدوده هر جمله مشخص شده و سپس به کشف نقش هر یک از کلمات داخل آن پرداخته شود. در این بین، گاهی نیز راهی میانه پیدا می‌شود. در زبان عربی برخی ترکیب‌ها خودشان جمله‌سازند؛ به این معنا که اگر نقش‌شان معلوم شود، تا حد زیادی محدوده جمله‌ای که بر پایه این کلمات بنا شده است، مشخص می‌شود. بررسی این دسته از ترکیب‌ها، سرعت پیشرفت کار را دو چندان می‌کند و حتی در برخی موارد تکیه‌گاهی برای تحقیقی دیگر در باب جمله‌یابی 2 می‌شوند. ترکیب «إن» به همراه اسم و خبرش، یکی از این ترکیب‌ها است. این ترکیب که از خانواده نواسخ (3) نامیده می‌شود، یکی از مهم‌ترین و پرکاربردترین استعمالات را دارد؛ به صورتی که اگر قرآن را به عنوان یکی از متون فصیح عربی مد نظر قرار دهیم، واژه «إن» بیش از 834 بار در آن به کار رفته است. این آمار در مورد واژه «کان» (دیگر عضو پرکاربرد از مجموعه نواسخ) 408 مورد است. نکته دیگر اینکه پرداختن به این دسته، نه فقط گره از «إن» و اسم و خبرش باز می‌کند، بلکه با اندک تفاوتی در قوانین می‌توان اسم و خبر حروف شبیه به «إن» (ان، کان، لیت و لعل)، اسم و خبر کان و افعال شبیه به آن (لیس، صار، اصبح، امضی، اضحی، امسی، ظل، بات، مادام، مابال، مابرح، ماانفک، مافتی) و حتی مبتدا و خبر را شناسایی کرد و این، یعنی گامی بزرگ در راه‌اندازی موتور برچسب‌گذار نحوی و غنی‌سازی مراحل متن‌کاوی در لایه نحو.

امکان سنجی بر چسب گذاری ادات سخن متون عربی در لایه نحو؛ قوانین سیست تشخیص معطوف و معطوف علیه «واو»

محمدرضا جوان آراسته، بهروز مینایی صفحه 59

موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار می‌گیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهم‌ترین موضوعاتی که می‌توان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط می‌سازد. یکی از دلایلی که بررسی عطف را در اولویت قرار می‌دهد، میزان استفاده و فراوانی آن در متون است. مشخص‌شدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیداکردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحله‌های بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد. مسیری که برای کشف معطوف و معطوف علیه طی شد، راهی برخاسته از دل متون عربی بود. برای پیداکردن معطوف و معطوف علیه، به قوانینی بیش از آنچه در کتب عربی معمول می‌باشد، نیاز است. از همین رو، تلاش بر آن بود تا با بررسی متون متعدد، قوانینی استقرایی از دل جملات عربی به دست آید. در بحث عطف، سه رکن وجود دارد: 1. حرف عطف: حروفی که می‌توانند عاطف باشند، محدود هستند. در نتیجه، تشخیص آنها نیازی به قاعده ندارد و در یک بانک کوچک قابل جمع‌آوری هستند. 2. معطوف: کلمه یا عبارتی را که پس از حرف عطف می‌آید، معطوف می‌گویند. تشخیص ابتدای معطوف مشکل نیست؛ چرا که شروع معطوف بلافاصله پس از حرف عطف است؛ اما پیداکردن پایان آن نیازمند دقت و قاعده‌نگاری است. 3. معطوف علیه: کلمه یا عبارتی که معطوف به آن عطف می‌شود. پیداکردن آغاز و پایان معطوف علیه، سخت و نیازمند قاعده‌نگاری است. نتیجه آنکه در بحث عطف، قاعده‌نگاری‌ها تنها متمرکز بر کشف انتهای معطوف و ابتداء و انتهاء معطوف علیه خواهد بود. 2 آنچه در این مقاله پی‌گرفته می‌شود، عطف با حرف واو است. بنابراین، اگر در جایی از متن سخن از حرف عطف آمد، منظور چیزی جز همان حرف «و» نیست. إن شاء الله در مجالی دیگر، به بررسی سایر حروف عطف خواهیم پرداخت.

مروری بر نرم افزار هوشمند صرف

حامد مقیسه صفحه 65

با بررسی کوتاهی در طول زندگانی انسان‌ها می‌فهمیم که همیشه نیازها، علت ساخت ابزارها بوده است. نقاط ضعف و مشکلات حل‌نشدنی، انسان‌ها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راه‌حل‌هایی برای رفع آن بیابند. همین روند، صاحب‌نظران را به این رساند که «نیاز، عامل ایجاد علوم بود». رایانه دنیایی را به وجود آورد که در علوم مختلف، شریک بی‌رقیب انسان، به دلیل «سرعت، انعطاف و فراموش نکردن» باشد؛ یعنی دنیایی که تفکر، خلاقیت و برنامه‌ریزی به عنوان وظیفه انسان قرار داده شد و در مقابل، سرعت بخشیدن به محاسبات، سرعت بخشیدن به تبادل اطلاعات، آسان کردن ارتباط بین انسان‌ها، جمع‌آوری انبوه اطلاعات و لحاظ‌کردن همه آنها بدون فراموش‌کاری و ازقلم‌افتادن، وظیفه رایانه گردید. برای همین، به این دوره «قرن رایانه و ارتباطات» می‌گوییم. اما هدف از دو مقدمه مذکور این است که بر خلاف تصور رایج، بسیاری از طرح‌ها نقطه شروعشان، نیاز و خلا موجود در علم یا فنون بوده است. برای همین، متخصصان را به تفکر درباره راه‌حل واداشته و علوم رایانه نیز نقش ابزار موثر را در این میان بازی می‌کند. کمتر پیش آمده که بدون احساس نیاز، و تنها خلاقیت و ابتکار، طرحی را به وجود آورد و به پیش برد. پس در تحلیل هر طرح موفقی باید نیازها و کمبودها را دید و عوامل سوق دهنده به این راه‌حل را تحلیل کرد. در مقوله هوش مصنوعی در زبان‌های طبیعی نیز همین نکته‌ها وجود دارد. ابتداء پاسخ به این سوال بسیار مهم و کلیدی است که: چه نیازی به پردازش ماشینی یک زبان طبیعی وجود دارد؟ چه هدفی از ماشین انتظار می‌رود؟ و در نهایت، این طرح چه نیازی را برآورده می‌کند؟ پس از پاسخ به این سوال‌ها، به پلکان بعدی می‌رویم که با چه اسلوبی این طرح عملی می‌شود؟ مقدمات موردنیاز چیست؟ معمولا افراد یا شرکت‌ها نیازها و دلایل مختلفی برای ماشینی کردن یک زبان طبیعی دارند؛ مثلا یک محقق زبان‌شناس از این جهت به این مقوله علاقه‌مند می‌شود که ماشینی‌سازی یک زبان، مستلزم باب‌بندی دقیق و ظریف آن علم و داشتن قواعد محکم و عام می‌باشد. پس انگیزه‌ای است برای کنجکاوی و نمونه‌ای از یک برنامه تبدیل تصویر به متن 2 تحقیق بیشتر در زبان موردعلاقه و به دست آوردن قواعد و باب‌بندی کردن صرف و نحو در یک زبان. حال ممکن است در زبانی علم صرف و نحو از سابقه کار تحقیقی طولانی و مداومی برخوردار باشد «مانند زبان عربی»، یا ماشینی‌سازی، متخصصان آن زبان را به تحقیق وادارد؛ همان‌طور که در بیشتر زبان‌های هند و اروپایی «مانند فارسی و انگلیسی» رایج است. از دیگر دلایل گرایش به ماشینی‌سازی می‌توان به شرکت‌های فعال در عرصه ترجمه اشاره کرد که می‌توانند با ماشینی کردن ترجمه متون، به سود بالا با هزینه کم برسند؛ یا سازمان‌های تحقیقاتی که با تبدیل صدا به متن یا تصویر به متن «OCR»، از منابع زیادی در امور پژوهشی خود بهره می‌برند؛ یا خلاصه‌برداری از یک متن به گونه‌ای که معنا دچار دگرگونی و کمبود نشود؛ یا استخراج موضوعات از یک متن و طرح‌ریزی یک معجم موضوعی و... . از دیگر مزایای ماشینی‌سازی می‌توان به چند مورد زیر اشاره کرد: 1. سرعت بسیار بالا در رسیدن به نتایج مطلوب یا نیمه‌مطلوب و در نتیجه کاهش هزینه‌ها؛ 2. استفاده از نیروی انسانی در امور سنگین تحقیقی و عیب‌یابی پاسخ‌ها؛ 3. دقت بالا در استفاده از منابع انبوه و اطمینان از لحاظ شدن همه قواعد در پاسخ‌ها؛ 4. دستیابی به قواعد و قوانین به صورت تجربی و استقرایی که شاید در هیچ منبعی مکتوب نشده است.

جستجوی هوشمند عبارات قرآنی در متون دیجیتالی

محمد حبیب زاده بیژنی صفحه 77

برجسته‌کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علایم ویرایشی - موضوعی است که قرن‌ها موردتوجه مولفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تالیفات دهه‌های اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرم‌افزارهای تولیدی حفظ نماید که این تلاش‌ها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روش‌های ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» می‌باشد.

کنکاشی در الگوریتم های خطایابی

بهروز مینایی، محمدحسین شیخ الاسلام صفحه 83

خطایابی، (1) شامل دو بخش اصلی است: بخش اول، بهره‌گیری از یک واژه‏نامه (2) است و بخش دوم، مجموعه‏ای از الگوریتم‏ها و شگردها (Techniques) می‏باشد که این واژه‏نامه برای خطایابی استفاده می‏کند. این شگردها به سه دسته اصلی تقسیم می‏شود: 1. جستجو در واژه‏نامه؛ 2. یافتن لغت صحیح جایگزین در واژه‏نامه؛ 3. رتبه‌بندی اصلاحات.

کلیدواژگان: خطایابی، اصلاح خطای کلمه ای، اصلاح خطای مفهوم گرا

رده بندی متون فارسی با استفاده از روش های آماری

محمدحسین الهی منش، بهروز مینایی صفحه 90

در این گزارش، سعی شده است تا یکی از تکنیک‌های موفق در زمینه رده‌بندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از رده‌بندی متون، می‌توان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش رده‌بندی K نزدیک‌ترین همسایه(1) و دو معیار فاصله متون، آزمایش‌های خودمان را انجام داده‌ایم. یکی از این دو معیار، الگو گرفته از نوعی رده‌بندی متون زبان عربی[4]‌ بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایش‌ها بر روی پیکره همشهری[1] است. این دو نوع فاصله‌سنجی، هر کدام با الگوریتم نزدیک‌ترین همسایه ترکیب شده و رده‌بند 1 تا 20 نزدیک‌ترین همسایه را برای آزمایش‌های ما آماده کرده‌اند. نتایج ما نشان می‌دهد که این روش می‌تواند با دقت (2) 89% عمل رده‌بندی را انجام دهد.

ویراستیار؛ مطالعه تطبیقی یک فعالیت پردازشی متن باز در زبان فارسی

امید کاشفی صفحه 96

نرم‌افزار «ویراستیار»، یک خطایاب املایی متن‌باز (open source) فارسی است که نسخه اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را می‌دهد که متن نگاشته شده فارسی در محیط مایکروسافت ورد را اصلاح کند. اگر چه این نرم‌افزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگی‌ها و قابلیت‌های آن افزوده شده است، اما نهاد توسعه دهنده آن، یعنی دبیرخانه شورای عالی اطلاع‌رسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب هم‌افزایی در این حوزه را باز کند. این نرم‌افزار به همراه کتابخانه کد و فایل‌های پشتیبان و جانبی آن از طریق وب‌گاه http://www.virastyar.ir عرضه شده و در دسترس کاربران و توسعه‌دهندگان قرار دارد. نوشتار پیش روی، پس از مقدمه‌ای کوتاه، به مقایسه و تطبیق ویژگی‌های ویراستیار در کنار برخی نرم‌افزارهای مشابه می‌پردازد.

برچسب گذاری ادات سخن متون فارسی به کمک مدل مخفی مارکوف

محمدحسین الهی منش، بهروز مینایی صفحه 102

در این مستند، به یکی از دغدغه‏های بزرگ در زمینه زبان‏شناسی محاسباتی (1) با نام برچسب‏گذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسب‏گذاری ادات سخن که یکی از پایه‏ای‏ترین نیازهای پردازش هوشمند متن به شمار می‏آید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسب‏گذاری قوی برای زبان فارسی، جزو اولویت‌های کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مساله، استفاده از مدل مخفی مارکوف (2) بوده است. این تکنیک در بسیاری از شیوه‏های برچسب‏گذاری به کار برده می‏شود؛ برای نمونه، در برچسب‏گذار TNT[2] که یکی از قوی‌ترین برچسب‏گذارها در زبان‏های مختلف است[4, 5, 8]. طبق آزمایش‌های انجام شده ما، با استفاده از این برچسب‏گذار می‏توان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.

وضعیت موجود خلاصه سازی خودکار متون فارسی

بهروز مینایی، احسان براتی صفحه 107

با گسترش روزافزون حجم اطلاعات، نیاز به سیستم‌های کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس می‌شود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیرساختاریافته (1) و نیمه‌ساختاریافته (2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، به‌شدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستم‌هایی که در تحلیل و پردازش متون وجود دارد، سیستم‌های خلاصه‌ساز متن (3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتم‌ها و تکنیک‌های مختلف، آن را خلاصه می‌نماید. این مقاله به معرفی فرآیند خلاصه‌سازی متون فارسی می‌پردازد.

کلیدواژگان: خلاصه سازی، فارسی، فرآیند، پیش پردازش، تحلیل، انتخاب، خلاصه

به جمع مشترکان مگیران بپیوندید!

فهرست مطالب

فصلنامه ره آورد نور
سال دهم شماره 34 (پیاپی 51، بهار 1390)

فصلنامه ره آورد نور

به جمع مشترکان مگیران بپیوندید!

فهرست مطالب

فصلنامه ره آورد نور سال دهم شماره 34 (پیاپی 51، بهار 1390)

فصلنامه ره آورد نور

فصلنامه ره آورد نور
سال دهم شماره 34 (پیاپی 51، بهار 1390)