«علیبابا» از خانواده هوش مصنوعی استدلالی خود رونمایی کرد
شرکت چینی «علیبابا» روز دوشنبه از خانواده مدلهای هوش مصنوعی «کوئن ۳» رونمایی کرد که ادعا میکند عملکرد آن با عملکرد بهترین مدلهای کنونی «گوگل» و «اوپنایآی» مطابقت دارد و حتی در برخی موارد از آنها بهتر است.
بیشتر مدلها تحت مجوز پلتفرم توسعه هوش مصنوعی «هاگینگ فیس»(Hugging Face) و «گیتهاب»(GitHub) برای دانلود در دسترس هستند یا به زودی در دسترس خواهند بود. اندازه آنها از ۰.۶ میلیارد پارامتر تا ۲۳۵ میلیارد پارامتر متغیر است. پارامترها تقریبا با مهارتهای حل مسئله یک مدل مطابقت دارند و مدلهای دارای پارامترهای بیشتر معمولا عملکرد بهتری نسبت به مدلهایی با پارامترهای کمتر دارند.
به نقل از تک کرانچ، ظهور مدلهای چینی مانند «کوئن»(Qwen) شرکت «علیبابا»(Alibaba)، فشار را روی شرکتهای آمریکایی مانند «اوپنایآی»(OpenAI) برای ارائه فناوریهای توانمندتر هوش مصنوعی افزایش داده است. این امر سیاستگذاران را نیز به سوی اعمال محدودیتهایی با هدف محدود کردن توانایی شرکتهای هوش مصنوعی چین در دستیابی به تراشههای لازم برای آموزش مدلها سوق داده است.
به گفته علیبابا، مدلهای کوئن ۳ مدلهای ترکیبی هستند؛ به این معنا که میتوانند با صرف زمان و استدلال از پس مسائل پیچیده برآیند یا به درخواستهای سادهتر به سرعت پاسخ دهند. استدلال، مدلها را قادر میسازد تا به طور مؤثر خودشان را بررسی کنند که کار مشابه مدلهایی مانند «o3» شرکت اوپنایآی اما با تاخیر بیشتر است.
گروه سازنده کوئن در یک پست وبلاگ نوشتند: ما حالتهای تفکر و عدم تفکر را به طور یکپارچه ادغام کردهایم و انعطافپذیری لازم را برای کنترل تفکر به کاربران ارائه میدهیم. این طراحی به کاربران امکان میدهد تا قدرت تفکر را با سهولت بیشتری به کار بگیرند. برخی از مدلها نیز روش یادگیری ماشینی «ترکیبی از متخصصان»(MoE) را در پیش میگیرند که میتواند برای پاسخ دادن به پرسشها از نظر محاسباتی کارآمدتر باشد. روش ترکیبی از متخصصان، وظایف را به زیرمجموعههایی تقسیم میکند و آنها را به مدلهای کوچکتر و تخصصیتر واگذار میکند.
به گفته علیبابا، مدلهای کوئن ۳ از ۱۱۹ زبان پشتیبانی میکنند و روی یک مجموعه داده متشکل از حدود ۳۶ تریلیون توکن آموزش دیدهاند. توکنها بیتهای خام داده هستند که توسط یک مدل پردازش میشوند. یک میلیون توکن معادل حدود ۷۵۰ هزار کلمه است. علیبابا میگوید که کوئن ۳ روی ترکیبی از کتابهای درسی، جفتهای پرسش-پاسخ، کدها، دادههای تولیدشده توسط هوش مصنوعی و موارد دیگر آموزش دیده است.
علیبابا میگوید این پیشرفت همراه با سایر پیشرفتها، قابلیتهای کوئن ۳ را در مقایسه با کوئن ۲ مدل پیشین آن به میزان قابل توجهی افزایش داده است. هیچ کدام از مدلهای کوئن ۳ از مدلهای برتر اخیر مانند o3 و o4-mini شرکت اوپنایآی بالاتر نیستند، اما عملکرد قوی دارند.
در «Codeforces» که پلتفرمی برای مسابقات برنامهنویسی است، بزرگترین مدل کوئن ۳ موسوم به «Qwen-3-235B-A22B» به راحتی مدلهای o۳-mini شرکت اوپنایآی و «جمینای ۲.۵ پرو»(Gemini 2.5 Pro) گوگل را شکست داد. همچنین، Qwen-3-235B-A22B در جدیدترین نسخه «AIME» که یک معیار ریاضی چالشبرانگیز است و «BFCL» که آزمایشی برای ارزیابی توانایی یک مدل در استدلال مسائل است، از o3-mini پیشی گرفت.
مدل Qwen-3-235B-A22B هنوز به صورت عمومی در دسترس نیست.
نظر شما