هوش مصنوعی و تهدید زبان ملل
محمدحسین قدمی - اگر تا کنون متوجه تفاوت فاحش پاسخ چتباتهای هوش مصنوعی به سوالات فارسی نسبت به سوالات انگلیسی شدهاید، باید اعتراف کنیم که مسئله بیش از این حرفهاست. در واقع، هوشهای مصنوعی قابلیتهای زبانی و اطلاعاتیشان را از دادههای کلان دیجیتال موجود در اینترنت به دست میآورند.
همچنین توسعه و تولید این هوشها و مجموعاً فعالیتهای تکنولوژیک جدید تنها در برخی از نقاط جهان -از جمله در ایالات متحده آمریکا- متمرکز است. نتیجه جانبی این وضع، انگلیسیمحور شدن هوشهای مصنوعی و تبعیض فرهنگی-اقتصادیای است که بر آرایش سیاسی-اقتصادی جهان تحمیل میکنند.
سارا روبرگ در این یادداشت علاوه بر توضیح و تشریح این وضعیت نابرابر، از همکاری و تلاشهای فعالان مختلف هوش مصنوعی در سرتاسر جهان برای جلوگیری از چنین بیعدالتیای صحبت میکند.
محققان دانشگاه استنفورد از یکی از رباتهای معروف هوش مصنوعی یک تست زبانی گرفتند.
آنها از ربات به زبان ویتنامی خواستند تا شعری سنتی در قالب سبکی معروف به «سونگ تت لوک بات» بسراید که این سبک مطابق الگویی است که خط اول آن از هفت کلمه، خط دوم از هفت کلمه، خط سوم از شش کلمه و خط چهارم از هشت کلمه تشکیل شده است. وقتی ربات پاسخ داد، شعر را سرود، اما از الگو تبعیت نکرد.
تیم پژوهشی دستور دیگری به ربات هوش مصنوعی داد و از او پرسید که عبارت مناسب ویتنامی برای صدا کردن برادر کوچکتر مادر چیست؟ ربات در پاسخ عبارات مناسب برای صدا کردن برادر و خواهرهای کوچکتر و بزرگتر پدر را ارائه داد.
این معایب مختص به کلود ۳.۵ -ربات ساخته شده به دست شرکت هوش مصنوعی آنتروپیک که پژوهشگران بر روی آن این آزمایش را انجام دادند- نمیباشد. با این وجود پژوهشگران برخی از جهاتی را که هوش مصنوعی میتواند در فهم زبانهای دیگری غیر از انگیسی استاندارد آمریکایی اشتباه کند، آشکار کردهاند.
در حالی که استفاده از هوش مصنوعی در غرب به شدت گسترش یافته است، از آنجا که بیشتر تکنولوژیها به زبان انگلیسی آموزش میبینند، باقی جهان از گفتگو با هوش مصنوعی کنار گذاشته شدهاند. کارشناسان حوزه هوش مصنوعی نگران این هستند که این تبعیض زبانی میتواند نابرابری ناشی از تکنولوژی را تشدید کند و بسیاری از نواحی و فرهنگها را به حاشیه براند.
سَنگ ترونگ -دانشجوی دکترای آزمایشگاه هوش مصنوعی دانشگاه استنفورد که در تیمی قرار داشت که یک مدل زبان ویتنامی را تولید و در مقایسه با دیگر مدلها آزمایش کردند ابراز داشت: «وقفهی در دسترسی به تکنولوژی مناسب حتی برای چند سال معدود، به صورت بالقوه میتواند منجر به عقبافتادگی اقتصادی برای چند دهه شود.»
آزمایشاتی که تیم او انجام داد نشان دادند که به شکلی فراگیر، ابزارهای هوش مصنوعی هنگام کار با زبان ویتنامی ممکن است در فهم واقعیتها و املای کلمات اشتباه کنند. این اشتباهات احتمالاً به این دلیل رخ میدهند که بر اساس استانداردهای صنعتی، زبان ویتنامی یک زبان «کممنبع» محسوب میشود. «کممنبع» بودن به این معناست که مجموعه دادهها و محتوای کافیای برای این زبانها به شکل آنلاین وجود ندارد تا مدل هوش مصنوعی بتواند از آنها این زبانها را یاد بگیرد.
زبانهای «کممنبع» توسط دهها -و گاهی اوقات صدها- ملیون نفر در سرتاسر جهان صحبت میشوند، اما آنها دادهی دیجیتالی کمتری تولید میکنند، زیرا توسعه تکنولوژی هوش مصنوعی و فعالیتهای آنلاین در ایالات متحده آمریکا و چین متمرکز شده است. هندی، بنگالی، سواحلی و همچنین گویشهای کمترشناختهشدهای که توسط جمعیتهای کوچکتری در سراسر جهان صحبت میشوند، دیگر زبانهای «کممنبع» هستند.
بررسی وبسایتهای برتر توسط شرکت نظرسنجی W3Techs که در حوزه فناوری کار میکند نشان داد که زبان انگلیسی، ۶۰ درصد داده زبانی موجود در اینترنت را تشکیل میدهد. در حالی که زبان انگلیسی به صورت گستردهای در سطح جهان صحبت میشود، بر اساس پژوهش سازمان «اتنولوگ» که در حوزه استخراج دادههای زبانی فعالیت میکند، کسانی که زبان مادریشان انگلیسی است تنها ۵ درصد از جمعیت جهانند. زبان ماندارین و زبان اسپانیایی نیز نمونههای دیگری از زبانهایی هستند که حضور آنلاین چشمگیری دارند و دارای مجموعه دادههای دیجیتالی قابل اتکایی هستند.
نهادهای دانشگاهی، سازمانهای مردمی و گروههای داوطلب تلاش میکنند تا برای متکلمان زبانهایی که به خوبی در فضای دیجیتال بازنمایی نشدهاند، منابعی ایجاد کنند.
«Lelapa Ai» که در شهر ژوهانسبورگ مستقر است، یکی از شرکتهایی است که در قارهی آفریقا فعالیتهای زیادی دارد. این استارتآپ مستقر در آفریقای جنوبی در حال توسعهی محصولات چندزبانهی هوش مصنوعی برای مردم و کسبوکارها در آفریقا میباشد.
پلونومی موئیلوا -رئیس و بنیانگذار شرکت Lelapa Ai- گفت: «من فکر میکنم این ایده خیلی خطرناک باشد که مردم برای دسترسی به پیشرفت، باید جذب یک فرهنگ دیگر شوند و فرهنگهای متفاوتی را بپذیرند.»
وی افزود که این شرکت تمرکز کمتری بر روی میزان جمعیتی که از محصولاتش استفاده میکنند دارد و بیشتر بر ارائه راهحلهای مخصوص به جامعهای که بر روی آن کار میکند، تمرکز دارد. این شرکت محصولاتش را به گونهای طراحی میکند که بهرهوری بیشتری داشته باشند، مقرون به صرفه باشند و عمدتاً در زمینه ارتباطات گفتاری به زبانهای محلی به کار روند که در این صورت، تکنولوژی را برای مردم آفریقا بیشتر قابل دسترس میکنند.
چیناسا تی. اوکولو، پژوهشگر مرکز نوآوری فناوری در موسسه بروکینگز درباره جوامعی که دارای زبانهای «کممنبع» هستند گفت: «مثلاً شرکتهای بزرگ مانند گوگل، اپل و اوپناِیآی لاجرم مدلهای خود را برای ابزارهایی که به بازارهای این جوامع سود میرسانند، طراحی نکردهاند.» وی افزود: «این بازارها به اندازه کافی برای آنها ارزش اقتصادی ندارند که چنین کاری را انجام دهند.»
یکی از کارشناسان روابط عمومی شرکت اوپناِیآی گفت که این شرکت به تدریج سیستمهای هوش مصنوعی را برای گروههای بیشتری از مردم عرضه میکند و جدیدترین مدل این شرکت از بیش از ۵۰ زبان پشتیبانی میکند.
گوگل نیز به تعدادی از پروژههایش که بر روی توسعه هوش مصنوعی برای زبانهایی که کمتر به آنها توجه شده متمرکزند، اشاره کرد. از جمله این پروژهها طرح «۱۰۰۰ زبان» – که در سال ۲۰۲۲ رونمایی شد- میباشد که هدف آن ساخت مدلهای زبانی برای ۱۰۰۰ زبان پرکاربرد در جهان است. اپل نیز اعلام کرد که محصولاتی را برای پشتیبانی از طیف وسیعی از زبانها توسعه داده است.
پیامدهای تبعیض زبانی در ابزارهای هوش مصنوعی میتوانند متعدد باشند. تکنولوژی قابلیت افزایش بهرهوری و تغییر محیطهای کاری را دارد. اما به گفته کارشناسان حوزه هوش مصنوعی بدون برخورداری از دادههای کافی از زبانهای محلی برخی از مناطق جهان ممکن است از مزایای اقتصادی هوش مصنوعی محروم شوند.
خلاء دانشی هوش مصنوعی در زمینه زبانهای «کممنبع» همچنین میتواند نگرانیهای امنیتی را افزایش دهد. سارا هوکر -رئیس مجموعه Cohere for Ai که بازوی تحقیقاتی استارت آپ Cohere میباشد- اعلام داشت که برخی از کاربران میتوانند با طرح سوالات خود به زبانهای دیگر تدابیر امنیتی هوش مصنوعی را دور بزنند. خانم هوکر افزود: «شما به طور مثال به راحتی میتوانید با تغییر زبان خود به یک زبان متفاوت، به دستورالعملهای بسیار خطرناکی درباره چگونگی ساخت یک بمب دست یابید.»
تیم خانم هوکر در مجموعه Cohere for Ai یک مدل و مجموعه دیتای گسترده به نام «ایا» (Aya) را برای ایجاد هوش مصنوعی چند زبانه، در ماه فوریه راهاندازی کردند. این پروژه ۱۰۱ زبان را در بر میگیرد و به فعالیتهای داوطبانهی ۳۰۰۰ پژوهشگر مستقل متکی است. اما خانم هوکر معتقد است که حتی یک پروژهی به چنین بزرگی راه حل تبعیض زبانی موجود در زمینه هوش مصنوعی نمیباشد.
خانم هوکر افزود که در صنعت هوش مصنوعی اغلب بر ایجاد جدیدترین مدل و چگونگی عملکرد آن تمرکز میشود، «اما از جهت موضوع تبعیض زبانی، روند توسعه هوش مصنوعی همچنین کل اکوسیستم جهان را تغییر شکل میدهد.» وی همچنین گفت که این تبعیض زبانی گسترش خواهد یافت، مگر این که در حالی که هوش مصنوعی به سرعت گسترش مییابد، پژوهشگران از سرتاسر جهان در حل این مسئله مشارکت داشته باشند.
در حالی که صورت مسئله برای بسیاری از کسانی که در صنعت هوش مصنوعی فعالیت میکنند واضح و روشن است، راهحلهای آن پیچیده هستند. مدلهای زبانی بزرگ یا همان L.L.M.sها که در حوزه تکنولوژی برای ارتباط از طریق زبان انسانی استفاده میشوند نیاز به بانکهای اطلاعاتی باکیفیت و بزرگ دارند که اغلب از اینترنت استخراج میشوند و به راحتی برای زبانهای «کممنبع» قابل دسترسی نیستند. آقای ترونگ ساخت یک مدل زبانی بزرگ را همانند آموزش یک کودک قلمداد میکند: ممکن است ۲۰ هزار کتاب حاوی دروسی برای آموزش کودکان به زبان انگلیسی وجود داشته باشد، اما تنها پنج کتاب به زبان ویتنامی برای چنین قصدی موجود است.
این تبعیض زبانی در برخی از مناطق به حدی زیادی است که دولتها برای پشتیبانی از فعالیتهایی که برای ایجاد مدلهای زبانی مخصوص به کشورشان انجام میشوند، وارد عمل شدهاند. در بهار امسال، دولت نیجریه وعده داد که از استارتآپ Awarri که در حوزه تکنولوژی فعال است برای تولید یک مدل هوش مصنوعی برای زبانهای محلی حمایت کند. دولتهای ایسلند و ولز نیز با شرکت OpenAi برای توسعهی چتجیپیتی در جهت فهم زبانهای محلی این دو کشور، همکاری خواهند کرد.
خانم موئیلوا که در مجموعه Lelapa Ai فعالیت میکند میگوید: «این تبعیض زبانی از جهت دسترسی مردم به هوش مصنوعی واقعاً مهم است. اما همچنین این مسئله از جهت کمک کردن به مردم برای دوباره زنده کردن حس افتخار به این که چه کسی هستند و در کجا زندگی میکنند، حقیقتاً اهمیت دارد.»
سانمی کویجو، رئیس پژوهشگاه هوش مصنوعی Trustworthy در دانشگاه استنفورد ادعا میکند که این امر که تمامی ابزارهای هوش مصنوعی زبانهای بیشتری را در بربگیرند، همچنین برای بازنمایی ظرافتهای فرهنگی و دیدگاههای متنوع اهمیت دارد.
دکتر کویجو همچنین به پژوهشی از دانشگاه استنفورد اشاره کرد که در آن پرسشهایی که از جانب مرکز افکارسنجی پیو دریافت شده بود، به چتباتهای هوش مصنوعی داده شد تا سوگیری آنها بررسی شود. وی افزود که پاسخهای چتباتها بیشتر به دیدگاههای مردم کالیفرنیا نزدیک بود- یعنی جایی که بخش زیادی از این فناوری در آنجا در حال توسعه است. دکتر کویجو همچنین گفت: «فرهنگ یک وجه مهم از دلایل رخ دادن این ماجرا است. اگر شما تنها به اینترنت یا همان نسخهی آمریکا محور جهان چشم دوختهاید، قافیه را باختهاید.» (منبع:سایبرپژوه)
مرجع: nytimes.com