نرمافزار بانک نحو زبان فارسی تولید شد
نرمافزار تولید درخت بانک پیکره متنی زبان فارسی به عنوان یکی از زیرساختهای مدلسازی نحو جملات زبان فارسی جهت تولید و توسعه نرمافزارهای کاربردی پردازش متون و گفتار فارسی با همکاری دبیرخانه شورای عالی اطلاعرسانی و آزمایشگاه زبانشناسی دانشگاه تهران تهیه شد.
به گزارش واحد ارتباطات دبیرخانه شورای عالی اطلاعرسانی، با توجه به اهمیت توسعه خط و زبان فارسی در محیط رایانهای و مورد توجه قرار گرفتن آن در برنامههای راهبردی کشور از جمله سند چشمانداز بیستساله و نقشه جامع علمی کشور، تولید زیرساختها و نرمافزارهایی که بتوانند این موضوع را تحقق بخشند، حائز اهمیت فراوان است.
در این میان یکی از این زیرساختها، درختبانک گروههای نحوی متون فارسی است تا امکان تعبیر و تفسیر جملات زبان فارسی در سطح نحو را برای تولید و توسعه نرمافزارهای کاربردی پردازش متون و گفتار فارسی در محیط رایانهای ایجاد کند.
با توجه به این که در سال 1384 بخشی از زیرساختهای موردنظر در چارچوب طرح دادگان ملی زبان فارسی در دبیرخانه شورای عالی اطلاعرسانی پیشبینی و طراحی شد و در سال 1386 در جهت استانداردسازی بخشی از این دادگان تحت عنوان "پیکره متنی زبان فارسی" گام اولیه برداشته شد، تولید درختبانک متون این پیکره در دستور کار کارگروه خط و زبان فارسی در دبیرخانه قرار گرفت.
هدف از طرح فعلی نوشتن نرمافزاری بود که بتواند با دقت قابلقبولی متون پیکره را در قالب یک نظریه زبانشناختی تجزیه و تحلیل نحوی کند تا از میزان کار دستی به میزان زیادی بکاهد.
مسئله اصلی استخراج قواعد دستوری زبان نوشتاری فارسی است که با استفاده از سیستم برچسبهای نحوی-معنایی پیکره متنی زبان فارسی به دست میآید.
دستاوردهای این طرح نرمافزاری است که متون پیکره متنی زبان فارسی را تقطیع، کلمات چندقطعهای را استخراج و قطعههای چندواحدی را شناسایی میکند و در نهایت گروهبندی نحوی اجزای تشکیلدهنده جملات را با بررسی برچسبهای اجزای کلام پیکره انجام میدهد. برای صحتسنجی و بررسی چالشهای موجود در تولید نرمافزار خودکار درختبانک نحوی جملات فارسی اصلاح دستی درختبانک یکصد پرونده متنی کم حجم نیز صورت گرفته است.
این نرمافزار اکنون توسط شورا در اختیار پژوهشکده پردازش هوشمند علائم قرار گرفته و به زودی بصورت رایگان به متقاضیان ارائه خواهد شد. در ضمن متقاضیان استفاده از این نرمافزار نیاز به فایلهای پیکره متنی زبان فارسی به عنوان ورودی و محتوای نرمافزار دارند که بر اساس تفاهمنامه دبیرخانه شورای عالی اطلاعرسانی با پژوهشکده پردازش هوشمند علائم که گردآورنده اصلی فایلهای پیکره متنی است، فایلهای مذکور با تخفیف ویژه به مراکز علمی و دانشگاهها ارائه میشود. بدیهی است خروجی این نرمافزار ، همان درخت بانک نحوی جملات پیکره متنی زبان فارسی خواهد بود.
گفتنی است اجزای نظام تولید درختبانک نحوی جملات فارسی و تحلیل نتایج نیز در قالب دو گزارش تشریح شده است که در آینده در قالب کتابی به چاپ خواهد رسید.
- ۹۰/۱۲/۲۰