ITanalyze

تحلیل وضعیت فناوری اطلاعات در ایران :: Iran IT analysis and news

ITanalyze

تحلیل وضعیت فناوری اطلاعات در ایران :: Iran IT analysis and news

  عبارت مورد جستجو
تحلیل وضعیت فناوری اطلاعات در ایران

نرم‌افزار بانک نحو زبان فارسی تولید شد

| شنبه, ۲۰ اسفند ۱۳۹۰، ۰۲:۲۶ ب.ظ | ۰ نظر

نرم‌افزار تولید درخت بانک پیکره متنی زبان فارسی به عنوان یکی از زیرساخت‌های مدل‌سازی نحو جملات زبان فارسی جهت تولید و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی با همکاری دبیرخانه شورای عالی اطلاع‌رسانی و آزمایشگاه زبان‌شناسی دانشگاه تهران تهیه شد.

به گزارش واحد ارتباطات دبیرخانه شورای عالی اطلاع‌رسانی، با توجه به اهمیت توسعه خط و زبان فارسی در محیط رایانه‌ای و مورد توجه قرار گرفتن آن در برنامه‌های راهبردی کشور از جمله سند چشم‌انداز بیست‌ساله و نقشه جامع علمی کشور، تولید زیرساخت‌ها و نرم‌افزارهایی که بتوانند این موضوع را تحقق بخشند، حائز اهمیت فراوان است.

در این میان یکی از این زیرساخت‌ها، درخت‌بانک گروه‌های نحوی متون فارسی است تا امکان تعبیر و تفسیر جملات زبان فارسی در سطح نحو را برای تولید و توسعه نرم‌افزارهای کاربردی پردازش متون و گفتار فارسی در محیط رایانه‌ای ایجاد کند.

با توجه به این که در سال 1384 بخشی از زیرساخت‌های موردنظر در چارچوب طرح دادگان ملی زبان فارسی در دبیرخانه شورای عالی اطلاع‌رسانی پیش‌بینی و طراحی شد و در سال 1386 در جهت استانداردسازی بخشی از این دادگان تحت عنوان "پیکره متنی زبان فارسی" گام اولیه برداشته شد، تولید درخت‌بانک متون این پیکره در دستور کار کارگروه خط و زبان فارسی در دبیرخانه قرار گرفت.

هدف از طرح فعلی نوشتن نرم‌افزاری بود که بتواند با دقت قابل‌قبولی متون پیکره را در قالب یک نظریه زبان‌شناختی تجزیه و تحلیل نحوی کند تا از میزان کار دستی به میزان زیادی بکاهد.

مسئله اصلی استخراج قواعد دستوری زبان نوشتاری فارسی است که با استفاده از سیستم برچسب‌های نحوی-معنایی پیکره متنی زبان فارسی به دست می‌آید.

دستاوردهای این طرح نرم‌افزاری است که متون پیکره متنی زبان فارسی را تقطیع، کلمات چندقطعه‌ای را استخراج و قطعه‌های چندواحدی را شناسایی می‌کند و در نهایت گروه‌بندی نحوی اجزای تشکیل‌دهنده جملات را با بررسی برچسب‌های اجزای کلام پیکره انجام می‌دهد. برای صحت‌سنجی و بررسی چالشهای موجود در تولید نرم‌افزار خودکار درخت‌بانک نحوی جملات فارسی اصلاح دستی درخت‌بانک یکصد پرونده متنی کم حجم نیز صورت گرفته است.

این نرم‌افزار اکنون توسط شورا در اختیار پژوهشکده پردازش هوشمند علائم قرار گرفته و به زودی بصورت رایگان به متقاضیان ارائه خواهد شد. در ضمن متقاضیان استفاده از این نرم‌افزار نیاز به فایل‌های پیکره متنی زبان فارسی به عنوان ورودی و محتوای نرم‌افزار دارند که بر اساس تفاهم‌نامه‌ دبیرخانه شورای عالی اطلاع‌رسانی با پژوهشکده پردازش هوشمند علائم که گردآورنده اصلی فایل‌های پیکره متنی است، فایل‌های مذکور با تخفیف ویژه به مراکز علمی و دانشگاه‌ها ارائه می‌شود. بدیهی است خروجی این نرم‌افزار ، همان درخت بانک نحوی جملات پیکره متنی زبان فارسی خواهد بود.

گفتنی است اجزای نظام تولید درخت‌بانک نحوی جملات فارسی و تحلیل نتایج نیز در قالب دو گزارش تشریح شده است که در آینده در قالب کتابی به چاپ خواهد رسید.

  • ۹۰/۱۲/۲۰

نظرات  (۰)

هیچ نظری هنوز ثبت نشده است

ارسال نظر

ارسال نظر آزاد است، اما اگر قبلا در بیان ثبت نام کرده اید می توانید ابتدا وارد شوید.
شما میتوانید از این تگهای html استفاده کنید:
<b> یا <strong>، <em> یا <i>، <u>، <strike> یا <s>، <sup>، <sub>، <blockquote>، <code>، <pre>، <hr>، <br>، <p>، <a href="" title="">، <span style="">، <div align="">