خلاصه یک مقاله در NBER؛

آیا مدل‌های زبانی بزرگ تولید کتاب‌های ارزشمند را افزایش داده‌اند؟

۰۸ خرداد ۱۴۰۵ - ۰۸:۰۰

کدخبر : 136073

اکوایران: ورود مدل‌های زبانی بزرگ به صنعت نشر، هم‌زمان دو روند متضاد ایجاد کرده است: کاهش کیفیت متوسط آثار و افزایش شدید تعداد کتاب‌ها؛ اما شواهد نشان می‌دهد اثر نهایی بر رفاه مصرف‌کنندگان مثبت بوده است.

گسترش سریع مدل‌های زبانی بزرگ (LLM) از اواخر سال ۲۰۲۲، صنعت نشر کتاب را دگرگون کرده است؛ به‌طوری‌که نرخ انتشار کتاب‌های الکترونیکی جدید در آمازون بین سال ۲۰۲۲ تا اواخر ۲۰۲۵ تقریبا سه برابر شده است.

ایمکه رایمرز و جوئل والدفوگل در مقاله‌ای با عنوان «هوش مصنوعی و کمیت و کیفیت محصولات خلاقانه: آیا مدل‌های زبانی بزرگ تولید کتاب‌های ارزشمند را افزایش داده‌اند؟» بررسی می‌کنند که دسترسی به مدل‌های زبانی بزرگ چگونه هم بر تعداد و هم بر کیفیت انتشار کتاب‌های جدید اثر گذاشته است.

افزایش انتشار کتاب

پژوهشگران مجموعه ‌داده‌هایی مبتنی بر اکوسیستم کیندل آمازون گردآوری کرده‌اند؛ از جمله یک نمونه تصادفی طبقه‌بندی‌شده شامل بیش از ۳۳۳ هزار عنوان منتشرشده که نماینده حدود ۱۰ میلیون کتاب الکترونیکی منتشرشده بین سال‌های ۲۰۲۰ تا ۲۰۲۵ است، و همچنین یک سرشماری از ۴۷۹ هزار کتاب در هشت زیرشاخه مختلف در فاصله سال‌های ۲۰۰۸ تا ۲۰۲۵. پژوهشگران کیفیت کتاب‌ها را عمدتا از طریق تعداد تجمعی امتیازها و نظرات خوانندگان برای هر عنوان اندازه‌گیری می‌کنند؛ معیاری که آن را در برابر داده‌های تخمینی فروش، اعتبارسنجی کرده‌اند. این معیار همچنین برای تفاوت زمان سپری‌شده از انتشار کتاب‌ها در دوره‌های زمانی مختلف انتشار تعدیل شده است.

تعداد انتشارهای جدید ماهانه از حدود ۱۰۰ هزار عنوان در دوره ۲۰۲۰ تا ۲۰۲۲ به بیش از ۳۰۰ هزار عنوان تا اواخر ۲۰۲۵ افزایش یافته است. برخی دسته‌ها مانند «سفر» و «ورزش و فضای باز» رشدی بیش از پنج برابری را تجربه کرده‌اند. این جهش هم‌زمان با عرضه عمومی ChatGPT و افزایش جست‌وجوهای گوگل درباره ابزارهای مبتنی بر مدل‌های زبانی بزرگ رخ داده است. شواهد نظرسنجی‌ها نشان می‌دهد که اکنون تقریباً نیمی از نویسندگان از هوش مصنوعی برای کمک به کار خود استفاده می‌کنند.

کیفیت کتاب‌ها در دوره LLM بیشتر شد یا کمتر؟

کیفیت متوسط کتاب‌ها در عصر مدل‌های زبانی بزرگ کاهش یافته است. دسته‌هایی که رشد سریع‌تری در تعداد عناوین جدید داشته‌اند، افت بیشتری نیز در کیفیت متوسط تجربه کرده‌اند. با این حال، افزایش تعداد کتاب‌های منتشرشده باعث شده کیفیت کتاب‌ها در رتبه‌های مطلق مشخص برای مثال 200مین کتاب برتر منتشرشده در یک دسته و ماه مشخص افزایش یابد. این بهبود برای کتاب‌هایی که خارج از ۱۰۰ رتبه برتر هر دسته و ماه قرار دارند از نظر آماری معنادار است، اما برای ۱۰۰ عنوان برتر در تمام دسته‌ها و ماه‌ها معنادار نیست.

نویسندگانی که نخستین آثار خود را در عصر مدل‌های زبانی بزرگ منتشر کرده‌اند، به‌طور نامتناسبی آثار کم‌کیفیت تولید می‌کنند؛ در حالی که نویسندگانی که پیش از ظهور مدل‌های زبانی بزرگ فعال بوده‌اند، تولید خود را به‌ویژه در سال ۲۰۲۵ افزایش داده‌اند و همچنان بخش عمده آثار باکیفیت‌تر را تولید می‌کنند.

رفاه مصرف‌کنندگان کتاب بیشتر شد یا کمتر؟

پژوهشگران برای برآورد آثار رفاهی جهش ناشی از مدل‌های زبانی بزرگ در انتشار عناوین جدید روش ویژ‌ه‌ای را به کار برده‌اند. در این روش، مصرف‌کننده طیف گسترده‌ای از کتاب‌ها را در دو بازه زمانی پیش از عصر مدل‌های زبانی بزرگ و بعد از آن پیش‌روی خود می‌بینند. سلیقه مصرف‌کنندگان برای انتخاب کتاب‌ها تصادفی فرض شده، به این صورت که ارزش هر کتاب برای هر کس منحصر به فرد در نظر گرفته شده است. این امر فضایی فراهم می‌کند تا اثر کیفیت و تعداد کتاب‌های منتشر شده در دو عصر پیش از مدل‌های زبانی بزرگ و بعد از آن بر رفاه مصرف‌کنندگان ارزیابی شود.

اگر عصر مدل‌های زبانی بزرگ همان تعداد کتاب پیشین را تولید می‌کرد اما با کیفیت متوسط پایین‌تر، مازاد رفاه مصرف‌کنندگان ۱۳ درصد کاهش می‌یافت. اما افزایش تعداد انتشارها از ۳٫۶ میلیون عنوان در دوره ۲۰۲۰ تا ۲۰۲۲ به ۶٫۷ میلیون عنوان در دوره ۲۰۲۳ تا ۲۰۲۵، این نتیجه را معکوس کرده و حدود ۵ درصد افزایش در مازاد رفاه مصرف‌کنندگان ایجاد کرده است.

در سناریویی که بازتاب‌دهنده اوج نرخ انتشار در عصر مدل‌های زبانی بزرگ است یعنی سه برابر شدن تولید نسبت به دوره پیش از این مدل‌ها مازاد رفاه مصرف‌کنندگان حدود ۱۰ درصد افزایش خواهد یافت.