اکوایران: Deepseek در حالی که بازار بعد از شوک ژانویه ۲۰۲۵ تا حدی آرام گرفته بود، با انتشار یک مقاله فنی تازه دوباره نگاه‌ها را به خود برگرداند. این استارت‌آپ چینی در شب سال نو میلادی از روشی جدید برای آموزش مدل‌های هوش مصنوعی با هزینه کمتر رونمایی کرد؛ روشی که می‌تواند مسیر مقیاس‌پذیری مدل‌های پیشرو را تغییر دهد. حالا سوال این است که آیا این مقاله فقط یک دستاورد پژوهشی است یا نشانه‌ای از آماده شدن برای حرکت بزرگ بعدی.

به گزارش اکوایران- نزدیک به یک سال پیش، Deepseek که یک استارت‌آپ ناشناخته چینی بود مثل یک شوک ناگهانی وارد صحنه رقابت مدل‌های هوش مصنوعی شد و بازار سهام آمریکا را تکان داد؛ نه فقط به‌خاطر یک مدل جدید، بلکه به‌خاطر اینکه یک باور ریشه‌دار را هدف گرفت؛ این ایده که برای ساخت مدل‌های پیشرو قدرتمند، ناچارید مدام توان محاسباتی بیشتر فراهم کنید، از تراشه‌های گران‌قیمت بیشتر استفاده کنید و هزینه‌ها را تا بی‌نهایت بالا ببرید.

تهدیدی عمیق اما مقطعی

آن روزها کافی بود نام یک استارت‌آپ نسبتاً ناشناخته چینی در کنار واژه‌هایی مثل «کارایی بالا با توان محاسباتی کمتر» دیده شود تا بازارها به حالت اضطراب بروند. نتیجه هم خیلی فوری مشخص شد بطوریکه سهام Nvidia حدود ۱۷ درصد سقوط کرد و نزدیک به ۶۰۰ میلیارد دلار از ارزش بازارش دود شد و از دست رفت؛  Broadcom نزدیک ۱۷ درصد پایین آمد و ASML در همان یک روز ۷ درصد ریزش کرد. به تعبیر یکی از تحلیل‌گران ارشد Gartner، اصل ماجرا  قیمت‌گذاری مجدد دارایی‌ها و سهام بود چون Deepseek با مدل R1، باورهای جهانی درباره «منحنی هزینه مدل‌های پیشرو» و «توان رقابتی چین» را کلا تغییر دارد و مستقیما به روایت محبوب صنعت نیمه‌هادی‌ها و ابرپلتفرم‌ها ضربه زد.

اما داستان همین‌جا تمام نشد و شاید نکته دقیقاً همین باشد. ۱۱ ماه بعد، همان شرکت‌های آمریکایی که روزی زیر فشار موج خبری و ترس سرمایه‌گذاران از ارائه مدل جدید چینی لرزیده بودند، نه‌تنها دوباره سر پا ایستادند، بلکه رشد کردند. انویدیا در اکتبر به نخستین شرکت ۵ تریلیون‌دلاری تبدیل شد؛ سهام Broadcom در ۲۰۲۵ حدود ۴۹ درصد بالا رفت و ASML هم ۳۶ درصد رشد کرد.

چرا بازار بعد از شوک اولیه واکنش مشابهی نشان نداد؟

اگرچه Deepseek در ژانویه ۲۰۲۵ بازار را به هم ریخت، اما با ارائه ۷ ورژن جدید در ماه‌های بعدی مشخص شد که بازار لزوماً قرار نیست با هر حرکت Deepseek دوباره منفجر شود. اینجا یک پرسش جدی مطرح می‌شود که چرا پس از آن شوک اولیه، بازار دیگر همان واکنش را تکرار نکرد. بخشی از پاسخ به ماهیت انتشارهای Deepseek برمی‌گردد. پس از ژانویه، این شرکت چندین به‌روزرسانی برای مدل‌های V3 و R1 عرضه کرد، اما مدل کاملاً جدیدی معرفی نشد. همین موضوع باعث شد بازار این تحولات را بیشتر ادامه و تثبیت مسیر قبلی تلقی کند، نه آغاز یک موج تازه. به بیان ساده، این پیشرفت‌ها قابل‌اعتنا بودند، اما عنصر غافلگیری شوک ژانویه را نداشتند.

deepseek_whale_logo

از سوی دیگر، ترسی که آن روزها بازار را لرزاند این بود که اگر Deepseek بتواند با توان محاسباتی کمتر به نتایجی نزدیک به بهترین‌ها برسد، تقاضا برای زیرساخت هوش مصنوعی کاهش پیدا می‌کند و در نتیجه درآمد شرکت‌هایی مانند انویدیا تحت فشار قرار می‌گیرد. اما در عمل چنین سناریویی رخ نداد. به گفته تحلیل‌گران، در سال ۲۰۲۵ نه تنها نشانه‌ای از کاهش هزینه‌کرد دیده نشد، بلکه برای سال ۲۰۲۶ و سال‌های پس از آن حتی انتظار می‌رود سرمایه‌گذاری‌ها شتاب بگیرد. این یعنی صنعت با وجود روایت‌های مربوط به کارایی، همچنان به دنبال گسترش مقیاس و تقویت زیرساخت است.

در این میان، یک محدودیت مهم نیز وجود دارد که سایه‌اش را احساس می‌کنیم و آن توان محاسباتی است. کارشناسان می‌گویند چین در دو سال اخیر به‌دلیل محدودیت‌های آمریکا در فروش تراشه‌ها، از نظر دسترسی به محاسبات پیشرفته تحت فشار قرار گرفته است. این مسئله می‌تواند توضیح دهد چرا Deepseek هنوز مدل پرچمدار بعدی خود را معرفی نکرده است؛ چرا که هرچقدر هم پژوهش‌های الگوریتمی و خلاقیت در معماری داشته باشید، در نهایت برای آموزش مدل‌های پیشرفته به توان محاسباتی واقعی نیاز دارید. گزارش‌هایی هم از تأخیر در انتشار مدل R2 منتشر شده که از دشواری‌های آموزش روی تراشه‌های بومی هواوی تا کمبود تراشه‌های پیشرفته و حتی نارضایتی از عملکرد مدل‌ها حکایت دارد. خود Deepseek نیز تلویحا پذیرفته است که در مقایسه با برخی مدل‌های پیشرفته متن بسته آمریکایی مثل Gemini گوگل، از جمله از نظر منابع محاسباتی، با محدودیت‌هایی روبه‌رو است.

از آن طرف، غرب هم در این بین بیکار ننشست. انتشار مدل‌های جدید و پیشرفته از سوی شرکت‌های پیشرو از OpenAI تا Anthropic و گوگل، به بازار این پیام را داد که رقابت همچنان داغ است و رهبری آمریکا دست‌کم فعلاً حفظ شده است.  OpenAI از GPT-5 رونمایی کرد؛ Anthropic مدل Claude Opus 4.5 را منتشر کرد و گوگل نیز در ماه نوامبر Gemini 3 را عرضه کرد. وقتی هر چند ماه یک مدل جدید می‌آید و توانمندی‌ها به‌صورت تدریجی بهتر می‌شود، نگرانی‌ها از کاهش ارزش و استانداردسازی ناگهانی فناوری کمتر می‌شود؛ بازار احساس می‌کند هنوز فاصله و رقابت معنی‌دار وجود دارد.

بازگشت Deepseek و نگرانی‌های آینده

Deepseek ، پس از آنکه اوضاع کمی آرام‌تر شد، دوباره توانسته است توجهات زیادی را به خود جلب کند، اما این‌بار نه با معرفی یک مدل پرچمدار، بلکه با انتشار یک مقاله فنی جدید که فضای صنعت هوش مصنوعی را به تکاپو وادار کرده است. این شرکت در شب سال نو میلادی مقاله‌ای منتشر کرد که در آن روشی نوین برای آموزش مدل‌ها که منجر به کاهش هزینه می‌شود معرفی شده است.

در این مقاله که یانگ ون‌فِنگ، بنیان‌گذار Deepseek، یکی از نویسندگان آن است روشی به نام Manifold-Constrained Hyper-Connections یا mHC معرفی شده است. هدف این روش این است که مدل‌ها مقیاس‌پذیرتر شوند، بدون اینکه در فرآیند بزرگ‌تر شدن دچار ناپایداری یا کاهش عملکرد شوند.

با بزرگ‌تر شدن مدل‌های زبانی، معمولاً پژوهشگران تلاش می‌کنند بخش‌های مختلف مدل بتوانند اطلاعات بیشتری را با هم به اشتراک بگذارند تا عملکرد بهتری داشته باشند. اما طبق این مقاله، این کار می‌تواند باعث ناپایداری اطلاعات و مشکلاتی در آموزش مدل شود. Deepseek در پاسخ به این مشکل، با استفاده از mHC، امکان ارتباط داخلی غنی‌تری را فراهم کرده، اما به شکلی کنترل‌شده که هم پایداری آموزش حفظ شود و هم کارایی محاسباتی در هنگام مقیاس‌پذیری مدل‌ها از دست نرود.

deepseek2

لیان سو، تحلیل‌گر ارشد حوزه هوش مصنوعی، این رویکرد را «پیشرفتی چشمگیر» دانست. او معتقد است که Deepseek با ترکیب چندین تکنیک مختلف توانسته هزینه‌های اضافی آموزش مدل‌ها را به حداقل برساند. سو همچنین اشاره کرد که حتی اگر هزینه‌ها اندکی افزایش یابد، این روش می‌تواند عملکرد مدل‌ها را به‌طور قابل‌توجهی بهبود بخشد.

این تحلیل‌گر درباره مقاله جدید گفت: «اینکه شرکت حاضر است یافته‌های مهم خود را با صنعت به اشتراک بگذارد و در عین حال با مدل‌های جدید همچنان ارزش منحصربه‌فردی ارائه کند، نشان‌دهنده اعتمادبه‌نفس تازه‌ای در صنعت هوش مصنوعی چین است.» او افزود که رویکرد باز بودن و انتشار عمومی، به‌عنوان «یک مزیت راهبردی و عامل تمایز کلیدی» تلقی می‌شود.

سو همچنین این مقاله را به‌عنوان یک بیانیه از توانمندی‌های داخلی شرکت خواند. او معتقد است که Deepseek با بازطراحی کامل فرآیند آموزشی خود از ابتدا تا انتها، این پیام را منتقل می‌کند که این شرکت می‌تواند از روش‌های سریع برای بررسی مدل‌ها در کنار ایده‌های پژوهشی غیرمتعارف برای توسعه و بهبود مدل‌های خود استفاده کند. سو همچنین پیش‌بینی کرد که این رویکرد می‌تواند اثر دومینویی در صنعت ایجاد کند، به این معنا که رقبا نیز از این ایده برای توسعه مدل‌های خود بهره خواهند برد.

حالا پرسش دوباره به نقطه هیجان برمی‌گردد؛ آیا این مقاله پیش‌درآمد رونمایی بزرگ بعدی است؟ برخی می‌گویند با توجه به سابقه Deepseek، چنین معماری‌هایی معمولاً روی کاغذ نمی‌مانند و به مدل بعدی راه پیدا می‌کنند. برخی دیگر محتاط‌ترند و احتمال می‌دهند به‌جای یک R2 مستقل، این فناوری در ستون فقرات نسل بعدی مدل‌های Deepseek مثل V4 استفاده شود. در عین حال، یک عامل تعیین‌کننده دیگر نیز وجود دارد: توزیع و دسترسی. حتی اگر Deepseek از نظر فنی پیشرفت کند، هنوز در بازارهای غربی به اندازه بازیگران بزرگ مثل OpenAI و گوگل شبکه توزیع و نفوذ ندارد؛ و همین می‌تواند شدت موج‌های رسانه‌ای و صنعتی را محدود کند.

با این همه، یک چیز واضح است،  Deepseek دیگر یک خبر گذرا نیست. ژانویه ۲۰۲۵ نشان داد که یک بازیگر تازه‌نفس می‌تواند روایت‌های مسلط را بلرزاند؛ و مقاله جدید mHC هم یادآوری می‌کند که این شرکت هنوز قصد ندارد آرام بگیرد. شاید بازار این بار مثل آن روزهای پرهیجان واکنش نشان ندهد اما اگر Deepseek واقعاً بتواند گلوگاه‌های محاسباتی را دور بزند و معماری‌های تازه را وارد مدل‌های جدید کند، «لحظه بعدی» می‌تواند نزدیک‌تر از چیزی باشد که خیلی‌ها فکر می‌کنند.