جایگاه زبان فارسی در فضای مجازی
عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات گفت: طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است و این زبان دهمین زبان دنیا در فضای مجازی به شمار می آید.
محمد هادی بکایی عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات و مدیر گروه سامانههای پردازش وب و رایا زبان در گفتگو با خبرنگار مهر در خصوص پروژه جویشگر بومی و وضعیت آن در پژوهشگاه ارتباطات و فناوری اطلاعات گفت: در حال حاضر پژوهشگاه ارتباطات و فناوری اطلاعات در خصوص طرح جویشگر بومی نقش ایجاد زیرساختهای لازم را دارد. در پژوهشگاه برای زیرساختهای مورد نیاز جویشگر بومی و زیرساخت هر نوع کار پردازشی و تحلیلی مرتبط با جویشگر، پروژههایی در قالب طرح شبکه ملی اطلاعات تعریف شده و در حال اجرا است.
وی به مهمترین زیرساختهای مورد نیاز یک جویشگر بومی اشاره کرد و افزود: زیرساختهای مربوط به ذخیرهسازی و بازیابی اطلاعات و دادهها، زیرساختهای پردازشی جهت انجام حجم بالایی از پردازش و زیرساختهای نرمافزاری و الگوریتمی از جمله مهمترین نیازها برای اجرای یک طرح کلان ملی از جمله جویشگر بومی است.
بکایی در ادامه در خصوص اقدامات انجامشده در پژوهشگاه در راستای ایجاد این زیرساختها اینگونه توضیح داد: به عنوان مثال در خصوص زیرساختهای داده پروژههایی در خصوص قطبهای مراکز داده کشوری داریم. برای ایجاد زیرساختهای پردازشی با همکاری دانشگاه امیرکبیر ابررایانه سیمرغ به بهرهبرداری رسید و در حال برنامهریزی برای اجرای ابررایانههای قویتر هستیم و در لایه نرمافزاری و الگوریتمها نیز اقداماتی به خصوص در حوزه خط و زبان فارسی در وب انجام شده است.
وی در ادامه در خصوص اقدامات انجام شده در حوزه خط و زبان فارسی در وب تصریح کرد: مهمترین اقدامی که در حوزه خط و زبان فارسی فضای وب در حال انجام است، آزمایشگاه ارزیابی و رتبهبندی خدمات و محصولات حوزه خط و زبان فارسی است که میتوان در قالب آن انتظار داشت مدلها و الگوریتمهای مورد نیاز با استفاده از خرد جمعی جامعه نخبگانی و دانشگاهی به بلوغ خود برسند.
وی تصریح کرد: یکی از مشکلاتی که در کشور داریم این است که این خدمات و محصولات با استفاده از استانداردهای مرسوم ارزیابی نشده و با هم مقایسه نشدهاند. به طور مثال نقاط قوت و ضعف محصول یک شرکت با محصول مشابه شرکت دیگر مقایسه نشده است و این عدم مقایسه باعث میشود افراد و شرکتهایی که به این خدمات نیاز دارند نمیتوانند به راحتی خدمتدهنده خود را انتخاب کنند. این مساله در زبانهای دیگر به خصوص زبان انگلیسی تا حد خوبی حل شده است و افراد و شرکتهای مختلف مدلها و الگوریتمهایی را که در حوزههای مختلف خیلی خوب عمل میکنند و نتایج خوبی دارند را میشناسند و میتوانند از آنها استفاده کنند.
زبان فارسی دهمین زبان فضای وب است
بکایی در خصوص رتبه جهانی و وضعیت خط و زبان فارسی در وب افزود: زبان فارسی در وب وضعیتش خیلی بد نیست و دهمین زبان دنیاست هرچند اختلافش با زبانهای اول و برتر خیلی زیاد است. طبق آمارهای تخمین زده شده سهم زبان فارسی در وب، ۱.۷ درصد است که دهمین زبان دنیاست و از زبانهایی مانند عربی و چینی رتبه بهتری دارد. اما با توجه به تعداد افرادی که به این زبان صحبت میکنند میتواند جایگاه بهتری را به خودش اختصاص دهد که البته این بهتر شدن منوط به ایجاد زیرساختهایی از جنس دادگان و الگوریتم و ایجاد این زیرساختها یکی از اهداف آزمایشگاه است.
وی با بیان اینکه این رتبه نشان دهنده این است که چه تعداد وب سایت در هر زبانی وجود دارد افزود: سهم وب سایتهایی که به زبان فارسی هستند از کل وب سایتهایی که وجود دارد، ۱.۷ درصد است که میتوان گفت حوزه خط و زبان فارسی در وب در رتبه ۱۰ است و طبق این آمار از کشورهایی مثل ترکیه و ژاپن پایینتر هستیم اما از کشور چین و یا کشورهای عربی وضع استفاده خط و زبان فارسی در فضای وب بهتر است.
بکایی در خصوص زبان انگلیسی گفت: ما سالانه مسابقات و چالشهایی داریم که در حوزههای اولویتدار در پردازش زبان انگلیسی چالشهایی را مطرح و جوایزی تعریف میکنند. شرکتکنندگان در چالش با هدف کسب جوایز و احتمالاً انتشار مقالات و تعریفکنندگان چالش با هدف حل یک مساله واقعی موجود، در این روال مشارکت دارند. متأسفانه در ایران هرچند در این خصوص کارهایی در سالهای گذشته انجام شده، اما انسجام لازم را نداشته است.
وی به دلیل ایجاد آزمایشگاه ارزیابی و رتبهبندی خدمات و محصولات خط و زبان فارسی اشاره کرد و ادامه داد: در ایران بستر و زیرساختی نداشتیم که بتواند برای حوزههای اولویتدار بنچمارک و دادگان ارزیابی و تست تعریف کند تا بتواند الگوریتمها و مدلهای مختلفی که یک هدف دارند و در یک حوزه در حال فعالیت هستند را به صورت عادلانه با هم مقایسه کند. بنابراین اولین هدف در این آزمایشگاه این است که با تعریف روالهای ارزیابی استاندارد برای مسائل اولویتدار زمینه را برای این ارزیابیها آماده کند.
چالش پردازش خط و زبان فارسی در فضای مجازی برگزار می شود
بکایی همچنین گفت: پروژه آزمایشگاه ارزیابی و رتبه بندی خدمات و محصولات خط و زبان فارسی در فضای وب تحت عنوان پروژه پارسیآزما (محفلی برای حل مسائل و چالشهای حوزه پردازش خط و زبان فارسی در فضای مجازی) در حال انجام است و دوره اول مسابقات مربوط به پارسیآزما امسال برگزار میشود.
وی افزود: در دوره اول به دنبال ایجاد زیرساختهای لازم برای ادامهدار بودن پارسی آزما و آزمایشگاه هستیم. همچنین اولویت و تمرکز ما در تعریف چالشهای اولین دوره، الگوریتمهای مرتبط با پردازش متنهای موجود در شبکههای اجتماعی به خصوص متنها و پستهای توئیتر است.
عضو هیأت علمی پژوهشگاه ارتباطات و فناوری اطلاعات ادامه داد: در اولین دوره مسابقه پارسیآزما چهار چالش تعریف کردیم که هر کدام از یک جنبه پستهای توئیتر را تحلیل میکند. مثلاً در یک چالش قرار هست وجود ادعا و نوع آن در یک توییت تشخیص داده شود یا در یک چالش دیگر نوع احساس موجود در متن مشخص شود که در کل همه اینها از یک جنبه پستهای فارسی توئیتر را تحلیل میکنند.
به گفته وی شرکت کنندگان مدلها و الگوریتمهای زبان فارسی در فضای وب را توسعه میدهند.
بکایی در ادامه بیان کرد: چالشهایی تعریف کردیم که افرادی که در این حوزه الگوریتم دارند و توسعهدهنده هستند میتوانند در این چالشها شرکت و با هم رقابت کنند و در انتها الگوریتمی که به بهترین نحو ممکن بتواند این مساله را حل کند معرفی شده و آزاد رسانی میشود تا در آینده کسانی که این الگوریتمها را نیاز دارند بتوانند از آنها استفاده کنند.
وی در خصوص برگزاری مسابقه پارسی آزما برای اولین دوره و اینکه مهر ماه روز نهایی مسابقه است و برنده نهایی اعلام و جوایز اهدا میشود، گفت: امسال اولین دوره مسابقه پارسیآزما است و تصمیم داریم سالانه و یا دو بار در سال بتوانیم این مسابقات را ادامه دهیم و در هر دوره مهمترین چالشها و مسائلی که مورد نیاز سازمانها و صنایع مختلف در حوزه پردازش خط و زبان فارسی است را بیان کنیم.
بکایی در پایان گفت: اگر افرادی در این حوزه فعال هستند و مسألهای دارند که نیازمند مدل و الگوریتمی برای حل آن هستند میتوانند برای تعریف چالش در دورههای بعدی با پارسیآزما در ارتباط باشند. همچنین کسانی که فکر میکنند توانایی حل مساله دارند، میتوانند به عنوان شرکتکننده در مسابقات پارسیآزما شرکت کنند.
- ۰۲/۰۳/۲۳