به گزارش پایگاه خبری پیام خانواده؛ شرکت های هوش مصنوعی مدعی هستند ابزارهایشان بدون دریافت آموزش از محتوای شامل قانون کپی رایت نمی تواند وجود داشته باشد. اکنون مشخص شده آموزش این مدل ها بدون چنین محتوایی ممکن اما کار سختی است.
محققان هوش مصنوعی برای اثبات این امر یک مدل جدید را آموزش دادند که قدرت کمتری دارد اما اخلاق مدارتر است زیرا مخزن داده ای که مدل زبانی بزرگ از آن استفاده می کند فقط مربوط به دامنه های عمومی و محتوایی است که به طور آزاد در دسترس هستند.
این تحقیق با همکاری بین ۱۴ موسسه مختلف انجام شد. مولفان از دانشگاه هایی مانندام آی تی، کارنگی ملون و دانشگاه تورنتو انجام شده است. موسسات ناسودآوری مانند وکتو انستیتو و آلن انستیتو برای هوش مصنوعی نیز به پژوهش کمک کردند.
این گروه یک مخزن داده اخلاق مدار هشت ترابایتی ساختند. میان داده ها ۱۳۰ هزار کتاب موجود در کتابخانه کنگره آمریکا نیز وجود داشت. محققان بعدا یک مدل زبانی بزرگ با هفت میلیارد پارامتر را با این داده ها آموزش دادند. عملکرد مدل حاصل به خوبی مدل هوش مصنوعی Llama۲-۷B متا در سال ۲۰۲۳، بود. محققان بنچمارک هایی که برای مقایسه نتایج به کار بردند را منتشر نکردند.
البته قدرت عملکرد آن که به اندازه یک مدل مربوط به دو سال قبل بود، تنها نکته منفی مدل توسعه یافته نبود. فرایند در کنار هم قرار دادن اجزا نیز سخت بود. ماشین ها قادر به خواندن بخش اعظم داده ها نبودند، بنابراین انسانها مجبور بودند آنها را غربال کنند. استلا بیدرمن، یکی ازمولفان پژوهش می گوید: «اما تمام مطالب ما در پایان روز به صورت دستی حاشیهنویسی و توسط افراد بررسی میشد و این واقعاً سخت است.» درک جزئیات حقوقی نیز این فرایند را مشکل کرد.