کمک هوش مصنوعی به حفظ زبانهای در خطر
مهدی نوروز: هوش مصنوعی (AI) بهعنوان ابزاری نوین در حفظ و احیای زبانهای در معرض خطر، مورد توجه بسیاری از محققان و مؤسسات بینالمللی قرار گرفته است. آنطور که یونسکو در گزارش سالانه خود اشاره کرده، بیش از نیمی از ۷۰۰۰ زبان زنده دنیا در معرض خطر انقراض قرار دارند و برخی از آنها ممکن است ظرف چند دهه آینده از بین بروند. از همین رو، استفاده از فناوریهای پیشرفته، از جمله یادگیری ماشینی و مدلهای زبانی بزرگ (LLM)، میتواند به حفظ این زبانها کمک کند.
یکی از مهمترین چالشهای زبانهای در معرض خطر، نبود مستندات کافی از آنهاست. مطابق با پژوهشی که توسط IBM Research منتشر شده، بسیاری از این زبانها حتی سیستم نوشتاری رسمی ندارند و این مسئله فرآیند دیجیتالیسازی را دشوار میکند. برای رفع این چالش، ابزارهای هوش مصنوعی برای رونویسی و پردازش گفتار و همچنین ایجاد مدلهای زبانی و ترجمۀ ماشینی به کمک محققان آمدهاند.
- مستندسازی زبانهای در معرض خطر با هوش مصنوعی
به گزارش خبرگزاری سینا، شرکتهایی مانند گوگل و مایکروسافت در سالهای اخیر تلاش کردهاند مدلهای پردازش گفتار را برای زبانهای کمترشناختهشده توسعه دهند. بهعنوان مثال، پروژه Google 1000 Languages که در سال ۲۰۲۲ معرفی شد، تلاش دارد تا از فناوریهای پیشرفته برای مستندسازی زبانهای کمگویشور استفاده کند. این ابزارها قادرند گفتار بومیان را به متن تبدیل کنند و به این ترتیب، دادههای مورد نیاز برای آموزش مدلهای زبانی را فراهم آورند.
با این حال و براساس تحقیقات منتشرشده توسط دانشگاه استنفورد، یکی از چالشهای اساسی در توسعه سیستمهای ترجمه ماشینی برای زبانهای در معرض خطر، کمبود دادههای آموزشی است. برای حل این مشکل، محققان از تکنیکهایی مانند یادگیری انتقالی (Transfer Learning) و مدلهای چندزبانه استفاده کردهاند. مدلهایی مانند GPT-4 توانایی درک و تولید متون به زبانهای کمتر شناختهشده را دارند، البته دقت آنها بسته به میزان دادههای آموزشی متفاوت است.
- پروژههای موفق در حفظ زبانهای در معرض خطر
در سالهای اخیر، چندین پروژه بینالمللی با هدف حفظ زبانهای در معرض خطر به کمک هوش مصنوعی راهاندازی شدهاند:
پروژه رزتا (Rosetta Project): این پروژه که توسط بنیاد لونارکس (Long Now Foundation) توسعه داده شده، تلاش دارد تا نسخه دیجیتال از هزاران زبان دنیا را در یک پایگاه داده عظیم ذخیره کند.
ابتکار گوگل برای ۱۰۰۰ زبان: گوگل با همکاری دانشگاهها و جوامع بومی، دادههای زبانی را جمعآوری کرده و روشهای جدیدی برای آموزش مدلهای هوش مصنوعی با دادههای محدود ارائه داده است.
سیستم پردازش زبان بومی آمازون: این پروژه که توسط Amazon Web Services (AWS) توسعه داده شده، روی حفظ زبانهای بومی آمریکای جنوبی تمرکز دارد.
- چالشها و ملاحظات
با وجود پیشرفتهای چشمگیر، استفاده از هوش مصنوعی در حفظ زبانهای در معرض خطر، چالشهای متعددی دارد. به عنوان مثال و آنطور که پژوهشگران دانشگاه MIT اشاره کردهاند، بسیاری از زبانهای در معرض خطر بهدلیل نبود منابع نوشتاری و دیجیتالی بهسختی قابل آموزش به مدلهای هوش مصنوعی هستند. به همین دلیل، توسعه این فناوریها نیازمند مشارکت جوامع بومی است.
به این موارد با خطر تحریف را هم مد نظر قرار داد. یونسکو در یکی از گزارشهای خود هشدار داده که استفاده نادرست از فناوریهای هوش مصنوعی میتواند باعث تحریف زبانها و از بین رفتن گویشهای محلی شود. به همین دلیل، توصیه شده که فرآیند دیجیتالیسازی این زبانها باید با همکاری و تأیید جوامع بومی انجام شود.
و در نهایت طبق بررسیهای مرکز تحقیقات زبانشناسی دانشگاه کمبریج، بسیاری از جوامع زبانی که در معرض خطر هستند، به اینترنت و ابزارهای دیجیتال دسترسی محدودی دارند. بنابراین، توسعه ابزارهای هوش مصنوعی برای این زبانها باید با درنظرگرفتن محدودیتهای فنی این مناطق انجام شود.
- چشمانداز آینده
هوش مصنوعی میتواند نقش مهمی در حفظ تنوع زبانی ایفا کند، اما بهگفتهی متخصصان OpenAI و DeepMind، برای دستیابی به نتایج مطلوب، باید سرمایهگذاری بیشتری در زمینه مستندسازی، آموزش مدلهای زبانی و ایجاد ابزارهای دیجیتالی مقرونبهصرفه صورت گیرد. همچنین، پروژههای متنباز (Open Source) میتوانند به جوامع بومی این امکان را بدهند که بدون وابستگی به شرکتهای بزرگ فناوری، زبانهای خود را حفظ و احیا کنند.