فهرست مطالب
فصلنامه ره آورد نور
سال دهم شماره 34 (پیاپی 51، بهار 1390)
- ویژه نامه سمینار فناوری های پردازش هوشمند متون اسلامی
- 112 صفحه، بهای روی جلد: 11,000ريال
- تاریخ انتشار: 1390/03/05
- تعداد عناوین: 16
-
صفحه 2
اولین سمینار کامپیوتر و علوم اسلامی، در 18 دیماه سال 1371 در سالن اجتماعات مدرسه عالی دارالشفاء قم با حضور جمعی از بزرگان حوزه، مهندسان و متخصصان، فضلا و دانشجویان رشتههای کامپیوتر، به همت مرکز تحقیقات کامپیوتری علوم اسلامی برگزار شد. اگرچه گردهماییها و سمینارهای دیگری نیز در طی سالهای بعد در همین موضوع از طرف این مرکز برگزار گردید، اما با توجه به عناوین و موضوعات مطرح شده در اولین سمینار و نیمنگاهی به موضوعات و مقالات ارایه شده در سمینار «فناوریهای هوشمند پردازش متون اسلامی» در اردیبهشت ماه سال جاری و پیشرفتهای حاصله در زمینه طراحی و تولید نرمافزارهای اسلامی، با سیر و حرکت معناداری در عرصه فناوری اطلاعات و ارتباطات در حوزههای علوم اسلامی و انسانی روبهرو میشویم. برخی از عناوین مقالات ارایه شده در نخستین سمینار کامپیوتر و علوم اسلامی عبارت بودند از:بررسی ضرورت تولید نرمافزار اسلامی، ضرورت استفاده از کامپیوتر در تحقیقات اسلامی، نقش کامپیوتر در خدمات اطلاعرسانی، نقش اعراب در معجم الفاظ کامپیوتری و برخی موضوعات دیگر که همگی از ضرورت و نیاز ورود به گستره فناوری اطلاعات و استفاده از ماشینهای پردازشگر و طراحی برنامهها و نرمافزارهای کاربردی و تشریح کارکرد رایانه در دادهپردازی علوم اسلامی سخن میراندند. همچنین بیشتر سخنرانان در آن سمینار، بر تبیین نقش رایانهها در پژوهشهای اسلامی پرداخته و برای ترسیم دورنمای استفاده رایانه در علوم اسلامی تلاش بسیاری به خرج دادند. البته برخی نیز هشدارهایی در استفاده از رایانه در تحقیقات اسلامی مطرح میکردند و دلنگرانیهای خود را از باز شدن پای کامپیوتر به حوزههای علمیه بروز میدادند! ترسیم فضای ابهامآلود آن روز حاکم بر حوزویان از یک سو، و مهندسان و متخصصان علوم رایانه از سوی دیگر، در استفاده از رایانه و کاربرد این فناوری مدرن و دانش نوظهور در حوزههای علمیه و پردازش دادههای اسلامی، شاید در نگاه امروز کمی تعجببرانگیز باشد؛ اما واقعیت امر این است که دو دهه قبل هیچ کس تصور نمیکرد رایانه روزی بتواند آنچنان در حوزههای علوم اسلامی جای باز کند که هیچ نهاد پژوهشی یا پژوهشگری نتواند بدون استفاده از دانش فناوری اطلاعات و ارتباطات و بهکارگیری نرمافزارهای پژوهشی، تحقیقات خود را به سامان رسانده و بهروز و بهموقع ارایه نماید. امروزه کاهش هزینههای تامین منابع و تتبع، تنها با تکیه بر فناوریهای اطلاعاتی و ارتباطاتی امکانپذیر و مقرون به صرفه است. مدیریت زمان و استفاده بهینه از وقت در عصر انفجار اطلاعات موجب شده است تا بیشتر 2 پژوهشها در بستر این فناوری به نتیجه مطلوب دست یابد. کارشناسان معتقدند بهکارگیری رایانهها موجب شده تا بیش از هفتاد درصد از وقت محققان، از حوزههای تتبع، دادهکاوی و شناسایی منابع، آزاد گردیده و به بخش پژوهش و تولید علم اضافه گردد. این بدان معنا است که سرعت تولید علم سه برابر شده و اختصاص زمان برای منبعیابی و دادهکاوی، به یکچهارم کاهشیافته است...
-
فناوری پردازش هوشمند متون اسلامی، نتایج ارزشمندی را در عرصه تولید علم به دنبال دارد / گفتگو با دکتر بهروز مینایی، دبیر علمی سمینار فناوری های پردازش هوشمند متون اسلامیصفحه 5
در دنیای امروز، رشد چشمگیر متون دیجیتالی ایجاب میکند تا با بهرهگیری بهینه از فناوریهای نوین «متنکاوی» و ایجاد سامانههای هوشمند «پردازش زبان طبیعی» برای زبان عربی و فارسی، استخراج اطلاعات علوم اسلامی را از دادگان متنی دیجیتالی کارآمدتر سازیم. از این رو، مرکز تحقیقات کامپیوتری علوم اسلامی، یکی از پیشگامان این عرصه، با تاسیس «گروه پژوهشی متنکاوی نور» بدین مهم توجه نمود و به دستاوردهای ارزشمندی چون: صرف هوشمند زبان عربی، دستهبندی خودکار متون، تشخیص روایات مشابه و اعرابگذاری ماشینی دست یافت. حاصل این موارد، پژوهشگران را یاری میکند تا سریعتر و مطلوبتر به نتایج پژوهشی مورد نظر خود نایل آیند. در راستای برگزاری «سمینار فناوریهای پردازش هوشمند متون اسلامی» در مرکز تحقیقات کامپیوتری علوم اسلامی، به حضور دکتر بهروز مینایی، دبیر این سمینار رسیدیم تا از نزدیک با اهداف و برنامههای این گردهمایی علمی آشنا شویم. آنچه در ذیل میخوانید، حاصل این گفتگو است.
-
صفحه 7
«دادهکاوی» یا فرایند کشف دانش در پایگاه داده، زمینهای نسبتا نوظهور است. دادهکاوی، پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم است. دادهکاوی، فرآیند یا پروژهای نسبتا پیچیده برای شناسایی الگوها و مدلهای صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ به گونهای که این الگوها و مدلها برای انسانها قابل درک باشند. دادههای در اختیار ما اغلب حجیم هستند و بهتنهایی قابل استفاده نیستند؛ بلکه دانش نهفته در دادهها است که قابل استفاده است. در اینجا است که فرایند دادهکاوی به ما امکان شناسایی الگوها، مدلها و ارتباط میان عناصر مختلف در پایگاه داده را میدهد تا دانش نهفته در دادهها را کشف و نهایتا این دانش را به اطلاعات تبدیل کنیم. گاهی دادهکاوی را با دانش آمار مقایسه میکنند. ابتداییترین تفاوتها و در حقیقت، مزایای دادهکاوی نسبت به دانش آمار این است که در دانش آمار غالبا فرضیهای طرح میشود و با استفاده از تحلیلهای آماری به اثبات یا رد آن فرضیه میپردازند؛ اما دادهکاوی نیازمند فرضیه نیست. در تعبیر این موضوع، گاهی چنین گفته میشود که در دادهکاوی خود دادهکاوی هم ممکن است نداند که به دنبال چه میگردد یا چه نتیجه و کاربردهایی برایش حاصل خواهد شد. به این ترتیب، با کاوش میان دادهها، ارتباطات مخفی، گوناگون و معناداری میان آنها کشف خواهد شد. گذشته از اینکه دستمایه دانش آمار، بیشتر دادههای عددی است؛ اما دستمایه دادهکاوی، منحصر به دادههای عددی نیست...
-
صفحه 13
مرکز تحقیقات کامپیوتری علوم اسلامی بهزودی در چارچوب ساختار پژوهشی مورد تایید وزارت علوم، تحقیقات و فناوری یک نهاد پژوهشی جانبی تاسیس خواهد کرد. آنچه در پی میآید، توضیحاتی درباره زمینههای فعالیت این نهاد نوپا است که در گام اول، در قالب یک گروه پژوهشی و در گامهای بعد و توسعهیافته خود، در قالب یک پژوهشکده زیر نظر «مرکز نور» فعالیت خواهد کرد. در اینجا ابتداء با توضیحاتی درباره زمینه علمی فعالیت آن و سپس درباره ساختار سازمانی آن مواجه میشوید.
-
صفحه 18
جهت فهم زبان عربی، سه دانش مهم، نقش اساسی را بر عهده دارند که عبارتاند از: علم لغت، صرف و نحو. علم لغت، یعنی فهم معنای حقیقی یک کلمه و همچنین آشنایی با برخی معانی مجازی و کنایی یک کلمه یا یک عبارت. در کنار علم لغت، علم صرف و نحو نیز وجود دارد که مبتنی بر قواعدی است که فهم هوشمند از آنها را امکانپذیر میکند. بدون تردید، علم صرف را باید پیشنیاز علم نحو دانست. اینکه یک کلمه چه جایگاهی را در یک کلام دارد، ابتدا وابسته به این است که کلمه به خودی خود قابلیت کدام یک از نقوش نحوی را دارد؛ به طور مثال، فاعل یا مفعول شدن یک کلمه، در ابتداء وابسته به این است که آن کلمه اسم باشد و نه فعل یا حرف. در حال حاضر، چند موتور صرف وجود داردکه با قدرت و دقت نسبتا مناسبی به کار تجزیه صرفی متون عربی میپردازد؛ اما عواملی منجر به آن شده که طراحی موتور جدیدی در دستور کار مرکز قرار گیرد که به برخی از آنها اشاره میکنیم: 1. موتور «بوک والتر (1) از جمله موتورهایی است که در این زمینه تدوین شده و از یک پایگاه بزرگ لغات تجزیهشده بهره میگیرد؛ اما تعداد برچسبهای اعلامشده توسط آن، محدود بوده و نیز عملکرد آن در متون اولیه اسلامی، چون آیات و روایات، دارای اشکالات بسیاری است و از طرفی، چون مالکیت معنوی آن برای مرکز نیست، جهت استفاده از آن باید هم اجازه گرفته و هم ارجاع دهیم. 2. موتور «صرف مبین» نیز در مورد متون قرآنی عملکرد مناسبی دارد؛ ولی در دیگر متون عربی دقت آن کاهش مییابد. در ضمن، متن ورودی به این موتور نیز باید منحصرا دارای اعراب باشد تا پاسخ مرتبط ارایه شود. در این موتور به سماعیات زبان عربی نیز چندان پرداخته نشده و بر همین اساس، در مورد برخی لغات جواب صحیح ندارد و در ارتباط با خصوص متون اسلامی نیز در بسیاری از موارد برای هر کلمه، کدی مخصوص به آن نوشته شده است؛ بدون آنکه مجموعهای از کلمات مشابه در پایگاههای مجزا گردآوری شوند. این مقاله درصدد آن است که با توجه به نیاز اصلی استفاده از موتور صرف در متون اسلامی، مقدمات موردنیاز جهت تهیه موتور صرف در مرکز تحقیقات، مراحل تدوین، نقاط قوت و کارکردهای آن را بیان دارد.
-
صفحه 29
پردازش زبانها و مکالمات طبیعی، یکی از اموری است که با ورود فناوری رایانهای به زندگی بشر، مورد توجه بسیاری از دانشمندان قرار گرفته است. حتی اندیشهای که تورینگ از ماشین هوشمند خود و تعریفی که او از هوش مصنوعی داشت، در مرحله اول مربوط به پردازش زبانهای طبیعی میشد. تلاشهای زیادی برای پیگیری این امر صورت گرفت؛ به عنوان مثال، یکی از نتایج قابل توجه این تلاشها ماشین «الیزا» بود که با تایپ از راه دور با یک انسان، جملات او را پردازش نموده و جوابی درخور آن ارسال مینمود. پردازش زبان طبیعی، یکی از عرصههای مهم در علم هوش مصنوعی است. مفاهیم و مباحث مطرح در پردازش زبان طبیعی به شرح ذیل است: 1. آواشناسی و واجشناسی (phonology and phonetics)؛ 2. تحلیل لغوی (lexical analysis)؛ 3. تحلیل ساختواژی (morphology)؛ 4. تجزیه نحوی (syntax)؛ 5. پردازش معنایی (semantics)؛ 6. تحلیل کاربردشناسی (pragmatics)؛ 7. تحلیل گفتمان (discourse) . بر همین مبنا، الگوریتمهای بسیاری برای رسیدن به برنامههایی هوشمندتر توسط دانشمندان و متخصصان علوم رایانه، زبانشناسی و ریاضیدانان، طراحی و پیشنهاد شده است؛ به عنوان مثال، میتوان به الگوریتمهای مدل مارکوف و مدل مخفی مارکوف و نیز تلاشهای چندین ساله نوام چامسکی اشاره نمود. با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاشهای محققان، روزبهروز بر این پیشرفتها افزوده میشود و پژوهشگران در سراسر دنیا سعی در بهبود و پیادهسازی این روشها در زبانهای بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامهها، کتب و... لزوم استخراج و ساماندهی دادهها را بیش از پیش نمایان میسازد. یکی از 2 مهمترین مشکلات در سیستمهای استخراج اطلاعات (IE)، شناسایی و سازماندهی واحدهای اطلاعاتی است. سیستمهای IE، به دو گروه اصلی: نگرشهای دانش مهندسی (که عموما از سیستمهای نقشمحور استفاده میکنند) و نگرشهای یادگیری ماشینی تقسیم میشوند. در این نگرشها از فهرست اسامی جهت کمک به شناسایی واحدهای اسمی (1) (NE) استفاده میشود. البته سیستمهای نقشمحور معمولا بیش از سیستمهای یادگیری ماشینی، به این فهرستهای اسامی متکی هستند. چنین فهرستهایی، نه تنها شامل مدخلهای جغرافیایی از قبیل: نام شهرها، کشورها و غیرهاند، بلکه نام افراد (بهویژه نام کوچک)، سازمانهای بزرگ، ماههای سال، روزهای هفته، اعداد را نیز در بر میگیرند. در حال حاضر، کار شناسایی واحدهای اسمی به طور گستردهای استفاده میشود و نقش بسیار مهمی در حوزههای مختلف پردازش زبان بهخصوص در سیستم پاسخ به سوال، خلاصهسازی متون، بازیابی اطلاعات، سیستم استخراج و ترجمه ماشینی دارد. واحدهای اسمی (NE)، ماهیتی است که نامگذاری آن بر اساس اطلاق نام خاص مانند: شخص (جعفر)، سازمان (مرکز تحقیقات کامپیوتری)، مکان (قم)، واحد پولی (ریال)، تاریخ (10 ذی حجه)، اعداد (1389) و... صورت میپذیرد. شناسایی واحدهای اسمی (NER)، فرآیند شناسایی واحدهای اسمی در متون مختلف همچون: متون اینترنتی، روزنامه و... میباشد. در دهههای اخیر تلاشهای فراوانی صورت گرفته است تا عملکرد و شناسایی واحدهای اسمی بهبود یابد. وظیفه فرآیند شناسایی واحدهای اسمی، جمعآوری فهرست اسامی یک متن است که با بسیاری از چالشهای زبان عربی از قبیل املاء صحیح، پیچیدگی و ابهام زبان سر و کار دارد. در این مقاله، پس از مقدمهای که در بالا ذکر شد، به بررسی پیشینه کار شناسایی واحدهای اسمی پرداخته، سپس به ساختار اسم در زبان عربی و مشکلات شناسایی آن میپردازیم. در بخش بعد، به روشهای شناسایی واحدهای اسمی و در نهایت، به نتیجهگیری از مباحث مطروحه خواهیم پرداخت.
-
صفحه 41
انسانها برای انتقال مقصود خود به مخاطب، از راههای مختلفی استفاده میکنند. یکی از متداولترین روشها، استفاده از تکلم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با بهکارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب میفهماند. برای فهم هدف متکلم لازم است مخاطب، جملات او را از جنبههای گوناگون مانند: محدوده، معنا، (1) اعراب و... مورد بررسی قرار دهد و تنها بهرهگیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتداء و انتهاء جملات است، نخستین مرحله پردازش جمله به شمار میآید. پس از آن، اعراب و لایه معناشناسی قرار دارد. تشخیص حدود جمله، مبتنی بر شناسایی ارکان (مسند و مسندالیه)، عاملها و معمولها، کلمات مرتبط به آنها و ادات ابتداء جمله است. به این صورت که ادات شناسای ابتداء جمله، شروع جمله را مشخص مینماید، پس ارکان جمله با کلمات اطراف خود ارتباط عاملیت برقرار کرده و باواسطه یا بیواسطه در آنها عمل میکند.
-
صفحه 49
متنکاوی (Text Mining)، دانش استخراج خودکار الگوهای پنهان از متون حجیم است. یکی از علوم مرتبط با متنکاوی، پردازش زبان طبیعی (NLP) نام دارد. از مهمترین ابزارهای پردازش زبان طبیعی نیز میتوان به برچسبگذاری ادات سخن (Part of Speech Tagging) اشاره کرد. برچسبگذاری خودکار متن، در هر زبانی در دو حوزه مهم پیگیری میشود. اول حوزه ریختشناسی (Morphology) (صرف) و دوم گرامر (نحو). در صرف، (1) کلمات جدای از هم، مستقل از یکدیگر و تنها با توجه به ساختشان مورد بررسی قرار میگیرند؛ اما در نحو، (2) جایگاه هر کلمه در کنار سایر کلمات مد نظر قرار میگیرد. جایگاه صرف نسبت به مباحث نحوی، جایگاه تقدمی است. در واقع، تا زمانی که ساختار صرفی کلمات در یک متن مشخص نشده باشد، ورود به حوزه نحو کاری بیسرانجام مینماید. شاید نخستین و اصلیترین کار در دایره نحو، تشخیص جملات و کشف مرز بین آنها است. در کنار این مهم، وظیفه دیگر نحو، شناخت نقش هر کلمه در ساختار کلام است. در واقع، مسیر هدفمند آن است که ابتدا محدوده هر جمله مشخص شده و سپس به کشف نقش هر یک از کلمات داخل آن پرداخته شود. در این بین، گاهی نیز راهی میانه پیدا میشود. در زبان عربی برخی ترکیبها خودشان جملهسازند؛ به این معنا که اگر نقششان معلوم شود، تا حد زیادی محدوده جملهای که بر پایه این کلمات بنا شده است، مشخص میشود. بررسی این دسته از ترکیبها، سرعت پیشرفت کار را دو چندان میکند و حتی در برخی موارد تکیهگاهی برای تحقیقی دیگر در باب جملهیابی 2 میشوند. ترکیب «إن» به همراه اسم و خبرش، یکی از این ترکیبها است. این ترکیب که از خانواده نواسخ (3) نامیده میشود، یکی از مهمترین و پرکاربردترین استعمالات را دارد؛ به صورتی که اگر قرآن را به عنوان یکی از متون فصیح عربی مد نظر قرار دهیم، واژه «إن» بیش از 834 بار در آن به کار رفته است. این آمار در مورد واژه «کان» (دیگر عضو پرکاربرد از مجموعه نواسخ) 408 مورد است. نکته دیگر اینکه پرداختن به این دسته، نه فقط گره از «إن» و اسم و خبرش باز میکند، بلکه با اندک تفاوتی در قوانین میتوان اسم و خبر حروف شبیه به «إن» (ان، کان، لیت و لعل)، اسم و خبر کان و افعال شبیه به آن (لیس، صار، اصبح، امضی، اضحی، امسی، ظل، بات، مادام، مابال، مابرح، ماانفک، مافتی) و حتی مبتدا و خبر را شناسایی کرد و این، یعنی گامی بزرگ در راهاندازی موتور برچسبگذار نحوی و غنیسازی مراحل متنکاوی در لایه نحو.
-
صفحه 59
موضوع گرامر زبان (نحو)، یکی از موضوعاتی است که در پردازش زبان طبیعی مورد توجه قرار میگیرد. گرامر زبان، یعنی بررسی چینش کلمات و نقش هر واژه در کنار سایر واژگان. از مهمترین موضوعاتی که میتوان در گرامر زبان مطرح کرد، بحث عطف است. عطف، به منزله مفصلی است که قسمتی از عبارت پس از خود را به قبل آن مربوط میسازد. یکی از دلایلی که بررسی عطف را در اولویت قرار میدهد، میزان استفاده و فراوانی آن در متون است. مشخصشدن رابطه کلمه پس از حرف عطف با پیش از آن، هم به پیداکردن نقش کلمه پس از حرف عطف کمک کرده و هم در مرحلههای بعدی به یافتن رابطه معنایی جملات کمک خواهد کرد. مسیری که برای کشف معطوف و معطوف علیه طی شد، راهی برخاسته از دل متون عربی بود. برای پیداکردن معطوف و معطوف علیه، به قوانینی بیش از آنچه در کتب عربی معمول میباشد، نیاز است. از همین رو، تلاش بر آن بود تا با بررسی متون متعدد، قوانینی استقرایی از دل جملات عربی به دست آید. در بحث عطف، سه رکن وجود دارد: 1. حرف عطف: حروفی که میتوانند عاطف باشند، محدود هستند. در نتیجه، تشخیص آنها نیازی به قاعده ندارد و در یک بانک کوچک قابل جمعآوری هستند. 2. معطوف: کلمه یا عبارتی را که پس از حرف عطف میآید، معطوف میگویند. تشخیص ابتدای معطوف مشکل نیست؛ چرا که شروع معطوف بلافاصله پس از حرف عطف است؛ اما پیداکردن پایان آن نیازمند دقت و قاعدهنگاری است. 3. معطوف علیه: کلمه یا عبارتی که معطوف به آن عطف میشود. پیداکردن آغاز و پایان معطوف علیه، سخت و نیازمند قاعدهنگاری است. نتیجه آنکه در بحث عطف، قاعدهنگاریها تنها متمرکز بر کشف انتهای معطوف و ابتداء و انتهاء معطوف علیه خواهد بود. 2 آنچه در این مقاله پیگرفته میشود، عطف با حرف واو است. بنابراین، اگر در جایی از متن سخن از حرف عطف آمد، منظور چیزی جز همان حرف «و» نیست. إن شاء الله در مجالی دیگر، به بررسی سایر حروف عطف خواهیم پرداخت.
-
صفحه 65
با بررسی کوتاهی در طول زندگانی انسانها میفهمیم که همیشه نیازها، علت ساخت ابزارها بوده است. نقاط ضعف و مشکلات حلنشدنی، انسانها را واداشته که از نیروی خدادادی تفکر استفاده کنند و راهحلهایی برای رفع آن بیابند. همین روند، صاحبنظران را به این رساند که «نیاز، عامل ایجاد علوم بود». رایانه دنیایی را به وجود آورد که در علوم مختلف، شریک بیرقیب انسان، به دلیل «سرعت، انعطاف و فراموش نکردن» باشد؛ یعنی دنیایی که تفکر، خلاقیت و برنامهریزی به عنوان وظیفه انسان قرار داده شد و در مقابل، سرعت بخشیدن به محاسبات، سرعت بخشیدن به تبادل اطلاعات، آسان کردن ارتباط بین انسانها، جمعآوری انبوه اطلاعات و لحاظکردن همه آنها بدون فراموشکاری و ازقلمافتادن، وظیفه رایانه گردید. برای همین، به این دوره «قرن رایانه و ارتباطات» میگوییم. اما هدف از دو مقدمه مذکور این است که بر خلاف تصور رایج، بسیاری از طرحها نقطه شروعشان، نیاز و خلا موجود در علم یا فنون بوده است. برای همین، متخصصان را به تفکر درباره راهحل واداشته و علوم رایانه نیز نقش ابزار موثر را در این میان بازی میکند. کمتر پیش آمده که بدون احساس نیاز، و تنها خلاقیت و ابتکار، طرحی را به وجود آورد و به پیش برد. پس در تحلیل هر طرح موفقی باید نیازها و کمبودها را دید و عوامل سوق دهنده به این راهحل را تحلیل کرد. در مقوله هوش مصنوعی در زبانهای طبیعی نیز همین نکتهها وجود دارد. ابتداء پاسخ به این سوال بسیار مهم و کلیدی است که: چه نیازی به پردازش ماشینی یک زبان طبیعی وجود دارد؟ چه هدفی از ماشین انتظار میرود؟ و در نهایت، این طرح چه نیازی را برآورده میکند؟ پس از پاسخ به این سوالها، به پلکان بعدی میرویم که با چه اسلوبی این طرح عملی میشود؟ مقدمات موردنیاز چیست؟ معمولا افراد یا شرکتها نیازها و دلایل مختلفی برای ماشینی کردن یک زبان طبیعی دارند؛ مثلا یک محقق زبانشناس از این جهت به این مقوله علاقهمند میشود که ماشینیسازی یک زبان، مستلزم باببندی دقیق و ظریف آن علم و داشتن قواعد محکم و عام میباشد. پس انگیزهای است برای کنجکاوی و نمونهای از یک برنامه تبدیل تصویر به متن 2 تحقیق بیشتر در زبان موردعلاقه و به دست آوردن قواعد و باببندی کردن صرف و نحو در یک زبان. حال ممکن است در زبانی علم صرف و نحو از سابقه کار تحقیقی طولانی و مداومی برخوردار باشد «مانند زبان عربی»، یا ماشینیسازی، متخصصان آن زبان را به تحقیق وادارد؛ همانطور که در بیشتر زبانهای هند و اروپایی «مانند فارسی و انگلیسی» رایج است. از دیگر دلایل گرایش به ماشینیسازی میتوان به شرکتهای فعال در عرصه ترجمه اشاره کرد که میتوانند با ماشینی کردن ترجمه متون، به سود بالا با هزینه کم برسند؛ یا سازمانهای تحقیقاتی که با تبدیل صدا به متن یا تصویر به متن «OCR»، از منابع زیادی در امور پژوهشی خود بهره میبرند؛ یا خلاصهبرداری از یک متن به گونهای که معنا دچار دگرگونی و کمبود نشود؛ یا استخراج موضوعات از یک متن و طرحریزی یک معجم موضوعی و... . از دیگر مزایای ماشینیسازی میتوان به چند مورد زیر اشاره کرد: 1. سرعت بسیار بالا در رسیدن به نتایج مطلوب یا نیمهمطلوب و در نتیجه کاهش هزینهها؛ 2. استفاده از نیروی انسانی در امور سنگین تحقیقی و عیبیابی پاسخها؛ 3. دقت بالا در استفاده از منابع انبوه و اطمینان از لحاظ شدن همه قواعد در پاسخها؛ 4. دستیابی به قواعد و قوانین به صورت تجربی و استقرایی که شاید در هیچ منبعی مکتوب نشده است.
-
صفحه 77
برجستهکردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علایم ویرایشی - موضوعی است که قرنها موردتوجه مولفان، نسخهبرداران و ناشران قرار گرفته است. همچنین، فهرستبرداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تالیفات دهههای اخیر متداول بوده است. مرکز تحقیقات کامپیوتری علوم اسلامی، طی بیش از دو دهه فعالیت خود تلاش نموده تا محوریت قرآن و حدیث را در نرمافزارهای تولیدی حفظ نماید که این تلاشها ابتدا تفاوت چندانی با مدل مکتوب نداشته است؛ اما به مرور زمان روشهای ابتکاری نوینی برای سرعت و دقت بیشتر به کار گرفته شده که آخرین آنها طرح «جستجوی هوشمند عبارات قرآنی در متون دیجیتال» میباشد.
-
صفحه 83
خطایابی، (1) شامل دو بخش اصلی است: بخش اول، بهرهگیری از یک واژهنامه (2) است و بخش دوم، مجموعهای از الگوریتمها و شگردها (Techniques) میباشد که این واژهنامه برای خطایابی استفاده میکند. این شگردها به سه دسته اصلی تقسیم میشود: 1. جستجو در واژهنامه؛ 2. یافتن لغت صحیح جایگزین در واژهنامه؛ 3. رتبهبندی اصلاحات.
کلیدواژگان: خطایابی، اصلاح خطای کلمه ای، اصلاح خطای مفهوم گرا -
صفحه 90
در این گزارش، سعی شده است تا یکی از تکنیکهای موفق در زمینه ردهبندی متون را برای متون فارسی به کار بندیم. به عنوان تعریفی ساده از ردهبندی متون، میتوان روند شناسایی رده یا طبقه یک متن ناشناخته را بیان نمود. در این روش ما با استفاده از روش ردهبندی K نزدیکترین همسایه(1) و دو معیار فاصله متون، آزمایشهای خودمان را انجام دادهایم. یکی از این دو معیار، الگو گرفته از نوعی ردهبندی متون زبان عربی[4] بوده و دیگری، معیار ترکیبی تولید شده خودمان است. مجموعه آزمایشها بر روی پیکره همشهری[1] است. این دو نوع فاصلهسنجی، هر کدام با الگوریتم نزدیکترین همسایه ترکیب شده و ردهبند 1 تا 20 نزدیکترین همسایه را برای آزمایشهای ما آماده کردهاند. نتایج ما نشان میدهد که این روش میتواند با دقت (2) 89% عمل ردهبندی را انجام دهد.
-
صفحه 96
نرمافزار «ویراستیار»، یک خطایاب املایی متنباز (open source) فارسی است که نسخه اول آن در زمستان سال گذشته عرضه شد و به کاربر خود این امکان را میدهد که متن نگاشته شده فارسی در محیط مایکروسافت ورد را اصلاح کند. اگر چه این نرمافزار هنوز هم در حال توسعه و تجدید ویراست است و از زمان رونمایی آن در زمستان 1389 تاکنون، به ویژگیها و قابلیتهای آن افزوده شده است، اما نهاد توسعه دهنده آن، یعنی دبیرخانه شورای عالی اطلاعرسانی ترجیح داده است تا آن را به صورت متن باز عرضه کند تا باب همافزایی در این حوزه را باز کند. این نرمافزار به همراه کتابخانه کد و فایلهای پشتیبان و جانبی آن از طریق وبگاه http://www.virastyar.ir عرضه شده و در دسترس کاربران و توسعهدهندگان قرار دارد. نوشتار پیش روی، پس از مقدمهای کوتاه، به مقایسه و تطبیق ویژگیهای ویراستیار در کنار برخی نرمافزارهای مشابه میپردازد.
-
صفحه 102
در این مستند، به یکی از دغدغههای بزرگ در زمینه زبانشناسی محاسباتی (1) با نام برچسبگذاری ادات سخن (part of speech tagging) پرداخته شده است. برچسبگذاری ادات سخن که یکی از پایهایترین نیازهای پردازش هوشمند متن به شمار میآید، وابسته به زبان متن مورد پردازش است. از این رو، فراهم شدن برچسبگذاری قوی برای زبان فارسی، جزو اولویتهای کار ما قرار گرفت. تکنیک مورد کاربرد ما برای حل این مساله، استفاده از مدل مخفی مارکوف (2) بوده است. این تکنیک در بسیاری از شیوههای برچسبگذاری به کار برده میشود؛ برای نمونه، در برچسبگذار TNT[2] که یکی از قویترین برچسبگذارها در زبانهای مختلف است[4, 5, 8]. طبق آزمایشهای انجام شده ما، با استفاده از این برچسبگذار میتوان با دقت 94.3% برچسب گونه صرفی کلمات فارسی را مشخص نمود.
-
صفحه 107
با گسترش روزافزون حجم اطلاعات، نیاز به سیستمهای کامپیوتری جهت پردازش و تحلیل اطلاعات بیشتر احساس میشود. از آنجا که درصد قابل توجهی از اطلاعات تولید شده به صورت متنی غیرساختاریافته (1) و نیمهساختاریافته (2) است، سیستمی که بتواند این اطلاعات را تحلیل و پردازش کند، بهشدت مورد توجه قرار خواهد گرفت. یکی از انواع سیستمهایی که در تحلیل و پردازش متون وجود دارد، سیستمهای خلاصهساز متن (3) است که حجم زیادی از متن را دریافت نموده و بر اساس الگوریتمها و تکنیکهای مختلف، آن را خلاصه مینماید. این مقاله به معرفی فرآیند خلاصهسازی متون فارسی میپردازد.
کلیدواژگان: خلاصه سازی، فارسی، فرآیند، پیش پردازش، تحلیل، انتخاب، خلاصه