±¾Õ¾µãʹÓÃCookies£¬¼ÌÐøä¯ÀÀ±íʾÄúͬÒâÎÒÃÇʹÓÃCookies¡£
CookiesºÍÒþ˽Õþ²ß>
¹ýÈ¥Ò»Ä꣬´óÄ£ÐÍÍÆÀíÄÜÁ¦µÄ½ø»¯¼¸ºõÑØ×ÅÒ»Ìõµ¥Ïò·¾¶Ç°½ø£º¸ü¸´ÔÓµÄÍÆÀí¹ý³Ì¡¢¸ü³¤µÄ˼άÁ´¡¢¸ü¡°ÏñÈËÀࡱµÄ×ÔÎÒ·´Ë¼¡£
ÔÚÊýѧºÍ¿ÆÑ§ÍÆÀíµÈbenchmarkÉÏ£¬ÕâÌõ·¾¶¿´ÆðÀ´ÎÞ¿ÉÌôÌÞ¡£µ«µ±×ßÏòʵ¼ÊÆóÒµÂäµØÊ±£¬Ò»¸öÒþ²ØÎÊÌâÖð½¥±©Â¶£ºÄ£Ð;³£ÔڵóöÕýÈ·´ð°¸ºóÈÔ³ÖÐø¡°·´¸´Ë¼¿¼¡±£¬µ¼Ö´óÁ¿ËãÁ¦±»ÀË·ÑÔÚÎÞЧÑéÖ¤ÉÏ¡£
ͼ 1£ºÍÆÀíTokenÏûºÄ·Ö²¼Ê¾Òâ
ÉîÉ«ÇøÓò´ú±íÄ£ÐÍÔÚÒѵõ½ÕýÈ·´ð°¸ºóµÄ·´Ë¼½×¶Î£¬Õ¼±È³¬¹ý70%¡£
Ñо¿ÏÔʾ£¬ÔÚ²¿·ÖÏȽøÍÆÀíÄ£Ð͵ÄÊýѧÓë¿ÆÑ§ÈÎÎñÖУ¬³¬¹ý70%µÄTokenÏûºÄ£¬·¢ÉúÔÚÄ£ÐÍ¡°ÒѾ´ð¶Ô£¬µ«ÈÔÔÚ·´Ë¼¡±µÄ½×¶Î¡£»»¾ä»°Ëµ£¬Ä£ÐÍÕæÕýÓÃÓÚÐγÉÕýÈ·½áÂÛµÄPGµç¾º¹ÙÍø£¬Ö»Õ¼Á˲»µ½Èý·ÖÖ®Ò»£¬ÆäÓà´ó²¿·Ö×ÊÔ´±»ÓÃÀ´¡°·´¸´È·ÈÏÒ»¼þÒѾȷ¶¨µÄÊ¡±¡£ÕâÕýÊÇÆóÒµÔÚ´óÄ£ÐÍÂ䵨¹ý³ÌÖÐÆµ·±ÔâÓöÈ´ÓÖÄÑÒÔ¾«È·¶¨Î»µÄÒþÐԳɱ¾À´Ô´£ºÄ£ÐͲ»ÊDz»¹»´ÏÃ÷£¬¶øÊÇ¡°ÏëµÃÌ«¶à¡±¡£
Õë¶ÔÕâÒ»ÎÊÌ⣬YuanLab.aiÍŶÓÔÚ½üÆÚ¿ªÔ´µÄYuan3.0 FlashÄ£ÐÍÖУ¬´´ÐÂÐÔµØÌá³öÁËRIRM£¨·´Ë¼ÒÖÖÆ½±Àø»úÖÆ£©ÓëRAPO£¨·´Ë¼¸ÐÖª×ÔÊÊÓ¦²ßÂÔÓÅ»¯£©£¬Í¨¹ýѵÁ·»úÖÆÒýµ¼Ä£ÐÍÔÚ±£³ÖÍÆÀíÄÜÁ¦µÄͬʱ£¬Ñ§»áÔÚÇ¡µ±µÄʱ¼äÍ£ÏÂÀ´£¬´Ó¶øÊµÏÖÍÆÀíЧÂʵÄÍ»ÆÆÐÔÌáÉý¡£
ÂÛÎÄÁ´½Ó£ºhttps://arxiv.org/abs/2601.01718
Èç¹û½«´óÄ£Ð͵ÄÍÆÀí¹ý³ÌÀà±ÈΪÈËÀà½âÌ⣬ÎÊÌâ»á±äµÃÒì³£Ö±¹Û¡£Ò»¸ö³ÉÊìµÄר¼Ò£¬ÔÚÈ·ÈϽáÂÛ³ÉÁ¢ºó£¬ÍùÍù»áÍ£Ö¹¼ÌÐøÍÆÑÝ£»¶ø´óÁ¿ÏÖÓÐÄ£ÐÍÈ´»áÔÚÒѾµÃµ½ÕýÈ·´ð°¸ºó£¬¼ÌÐø·´¸´¼ì²é¡¢·´¸´·ñ¶¨¡¢·´¸´ÑéÖ¤¡£
ÕâÖÖÐÐΪ²¢·ÇżȻ£¬¶øÊÇÓ봫ͳǿ»¯Ñ§Ï°ÑµÁ··¶Ê½¸ß¶ÈÏà¹Ø¡£³¤ÆÚÒÔÀ´£¬Ç¿»¯Ñ§Ï°¸ü¶à¹Ø×¢¡°½á¹ûÊÇ·ñÕýÈ·¡±£¬¶ø¼«ÉÙ¶Ô¡°ÍÆÀíÊÇ·ñÒѾ×ã¹»¡±½øÐÐÔ¼Êø¡£ÔÚѵÁ·ÐźŵÄÒýµ¼Ï£¬Ä£ÐÍÖð½¥ÐγÉÒ»ÖÖÐÐΪƫºÃ£ºÖ»Òª¼ÌÐøË¼¿¼£¬¾Í¿ÉÄÜ»ñµÃ¸ü¸ß½±Àø¡£ÔÚѧÊõ»·¾³ÖУ¬ÕâÖÖÇãÏòÍùÍù±»½â¶ÁΪ¡°ÍÆÀí¸ü³ä·Ö¡±£»µ«ÔÚÆóÒµ³¡¾°ÖУ¬ËüÖ±½Óת»¯ÎªÈýÀàÎÊÌâ£ºÍÆÀíToken²»¿É¿Ø¡¢ÏµÍ³ÏìÓ¦ÑÓ³ÙÔö¼Ó£¬ÒÔ¼°ÔÚ¹ý¶È·´Ë¼Öз´¶øÒýÈë´íÎóÅжϡ£
Yuan3.0 FlashµÄ¼¼Êõ´´Ð£¬ÕýÊÇ´ÓÕâÒ»ÐÐΪ²ãÃæµÄʧºâÈëÊÖ£¬¶ø²»ÊǼòµ¥µØÍ¨¹ý¹æÔò²Ã¼ô»òÊä³öÏÞÖÆÀ´¡°Ñ¹¶Ì´ð°¸¡±¡£
RIRM£¨Reflection Inhibition Reward Mechanism£¬·´Ë¼ÒÖÖÆ½±Àø»úÖÆ£©µÄºËÐÄ˼Ïë²¢²»¸´ÔÓ£¬È´¼«¾ßÍ»ÆÆÐÔ£ºÄ£ÐͲ»½öҪΪ¡°´ð¶Ô¡±¸ºÔð£¬Ò²ÒªÎª¡°Ê²Ã´Ê±ºòֹͣ˼¿¼¡±¸ºÔð¡£
ÔÚ´«Í³ÑµÁ·ÖУ¬Ö»Òª×îÖÕ´ð°¸ÕýÈ·£¬Ä£ÐÍÔÚÖÐ;¾ÀúÁ˶àÉÙ´Î×ÔÎÒ·ñ¶¨¡¢Öظ´ÑéÖ¤£¬¼¸ºõ²»»á±»Çø·Ö¶Ô´ý¡£¶øRIRMÊ×´ÎÃ÷È·ÒýÈëÁËÒ»ÌõеÄÅжϱê×¼¡ª¡ªµ±Ä£ÐÍÒѾÐγɿɿ¿½áÂۺ󣬼ÌÐø·´Ë¼ÊÇ·ñ»¹¾ßÓÐÐÅÏ¢¼ÛÖµ¡£
ͼ 2£ºRIRM¹¤×÷Á÷³ÌʾÒâ
´ÓÊ×´ÎÕýÈ·´ð°¸Ê¶±ðµ½·´Ë¼½×¶Î½±ÀøÒÖÖÆµÄÍêÕûÁ´Â·¡£
ÔÚѵÁ·¹ý³ÌÖУ¬ÏµÍ³»áÏȶ¨Î»Ä£ÐÍÍÆÀíÀï ¡°Ê״εóöÕýÈ·´ð°¸¡± µÄ½Úµã£¬ÔÙÕë¶Ô¸Ã½ÚµãºóµÄÐÐΪ×ö·´Ë¼´ÎÊýµÄ¼ÛÖµÅж¨£ºÈç¹ûºóÐø²½Öè¼ÈûÓÐÐÂÔöÖ¤¾Ý»òÔ¼Êø£¬Ö»ÊÇÖØ¸´ÒÑÓÐÂß¼£¬»òÊÇÔÚȱ·¦ÐÅÏ¢µÄÇé¿öÏ·´¸´ÍÆ·ÒÑÑéÖ¤½áÂÛ£¬ÕâÀ೬³ö±ØÒª´ÎÊýµÄ·´Ë¼Ôò±»±ê¼ÇΪµÍ¼ÛÖµ£¨¸º¼ÛÖµ£©ÐÐΪ¡ª¡ªÍ¨¹ýÕâÖÖ·½Ê½£¬Òýµ¼Ä£ÐÍѧ»áÔÚºÏÀíµÄ·´Ë¼´ÎÊýÄÚÍê³É´ð°¸ÑéÖ¤¡£
ÕâЩ·´Ë¼ÐÐΪ²»ÔÙ±»Ä¬ÈÏÊÓΪ¡°¸ü½÷É÷¡±£¬¶øÊÇÔÚ½±Àø²ãÃæÊܵ½ÒÖÖÆ¡£Í¨¹ý³ÖÐøµÄÇ¿»¯Ñ§Ï°ÑµÁ·£¬Ä£ÐÍÖð½¥Ñ§»áÇø·ÖÁ½ÖÖ״̬£ºÊ²Ã´Ê±ºòÐèÒª¼ÌÐøÍÆÀí£¬Ê²Ã´Ê±ºòÒѾ¿ÉÒÔÍ£Ö¹¡£
ͼ 3£ºRIRMѵÁ·Ç°ºóTokenÏûºÄ¶Ô±È
·´Ë¼½×¶Î£¨ÉîÉ«²¿·Ö£©ÏÔÖøËõ¼õ£¬¶øÊ״νâÌâ½×¶Î»ù±¾±£³Ö²»±ä¡£
ÕâÖÖ»úÖÆµÄ¹Ø¼üÒâÒåÔÚÓÚ£¬Ëü²¢²»ÊǼòµ¥µØÏÞÖÆÊä³ö³¤¶È£¬¶øÊÇ´Ó¸ù±¾ÉϸıäÁËÄ£ÐͶԡ°ºÃÍÆÀí¡±µÄÀí½â±ê×¼¡ª¡ª¸ßÖÊÁ¿ÍÆÀí²»µÈÓÚ¸ü³¤µÄÍÆÀí£¬¶øµÈÓÚÇ¡µ½ºÃ´¦µÄÍÆÀí¡£
ʵÑé½á¹ûÒ²Ó¡Ö¤ÁËÕâÒ»µã¡£ÔÚÊýѧ¡¢¿ÆÑ§µÈ¸´ÔÓÍÆÀíÈÎÎñÖУ¬ÒýÈëRIRMºó£¬Ä£ÐÍÔÚ׼ȷÂʱ£³ÖÉõÖÁÌáÉýµÄͬʱ£¬ÍÆÀíTokenÏûºÄÏÔÖøÏ½µ£¬×î¸ß¿É¼õÉÙÔ¼75%¡£¸üÖØÒªµÄÊÇ£¬·´Ë¼½×¶ÎµÄÎÞЧPGµç¾º¹ÙÍø±»´ó·ùѹËõ£¬Ä£ÐͲ»ÔÙÏÝÈë¡°Ô½ÏëÔ½¶à¡¢Ô½ÏëÔ½ÂÒ¡±µÄÐÐΪģʽ¡£
È»¶ø£¬½ö¿¿¶ÔÍÆÀíÐÐΪµÄÒÖÖÆ£¬²¢²»×ãÒÔÖ§³ÅÒ»¸öÎȶ¨¡¢¸ßЧµÄÆóÒµ¼¶Ä£ÐÍѵÁ·¡£Yuan 3.0 FlashËùÒýÈëµÄRAPO£¨Reflection-aware Adaptive Policy Optimization£¬·´Ë¼¸ÐÖª×ÔÊÊÓ¦²ßÂÔÓÅ»¯£©²¢·ÇÒ»´Î¾Ö²¿¼¼ÇɵÄÓÅ»¯£¬¶øÊǶÔÇ¿»¯Ñ§Ï°ÑµÁ·¿ò¼ÜµÄÒ»´ÎϵͳÐԸĽø£º´ÓÊý¾Ý²ÉÑùЧÂÊ¡¢µ½Ñ§Ï°Ä¿±ê¡¢µ½ÍÆÀí¹ý³ÌÆÀ¹À£¨RIRM£©£¬Í¬Ê±¼æ¹ËѵÁ·Ð§ÂÊ¡¢ÑµÁ·Îȶ¨ÐÔ¼°ÍÆÀíЧÂÊ£¬Ê¹Ä£ÐÍÄܹ»ÔÚ¶àÈÎÎñ¡¢Òì¹¹³¡¾°ÖÐÐγɸü¾ßʵÓüÛÖµµÄ²ßÂÔ¡£
ͼ 4£º²»Í¬Ç¿»¯Ñ§Ï°²ßÂÔϵÄѵÁ·Îȶ¨ÐÔ¶Ô±È
ÒýÈëRAPOºó£¬ÑµÁ·¹ý³ÌÖеÄÌݶȲ¨¶¯ÏÔÖø¼õС¡£
RAPOͨ¹ý×ÔÊÊÓ¦²ÉÑù¡¢ÌݶÈÎȶ¨ÐÔ¿ØÖƵȻúÖÆ£¬ÏÔÖø¼õÉÙÁËÇ¿»¯Ñ§Ï°½×¶ÎµÄ¹ý¶ÈÊý¾Ý²ÉÑù£¬ÓÐЧÒÖÖÆÁËѵÁ·¹ý³ÌµÄÌݶȲ¨¶¯¡£ÔÚ´ó¹æÄ£MoEÄ£ÐÍÉÏ£¬ÕâÖָĽøÓÈΪ¹Ø¼ü¡ª¡ªÊµÑéÏÔʾ£¬RAPO¿ÉʹÕûÌåѵÁ·Ð§ÂÊÌáÉý³¬¹ý 50%£¬ÔÚ±£Ö¤Ä£ÐÍÄÜÁ¦ÌáÉýµÄͬʱ£¬´ó·ùËõ¶ÌѵÁ·ÖÜÆÚ¡£
¸üÖØÒªµÄÊÇ£¬RAPOÓëRIRMÔÚÉè¼ÆÉÏÊÇÐͬµÄ¡£RAPO¾ö¶¨Ä£ÐÍ¡°ÈçºÎѧϰ¡±£¬¶ø RIRM Ã÷È·Ä£ÐÍ¡°Ñ§µ½Ê²Ã´³Ì¶È¸ÃÍ£¡±¡£Ç°ÕßÌṩÎȶ¨¸ßЧµÄѧϰ¿ò¼Ü£¬ºóÕßÔòÎªÍÆÀíÐÐΪ»®¶¨±ß½ç£¬Á½Õßµþ¼Ó£¬²Åʹ¡°Ïë¶Ô¾ÍÍ£¡±ÕæÕý³ÉΪģÐ͵ÄĬÈÏÐÐΪ£¬¶ø·ÇÀýÍâÇé¿ö¡£
Ôڼܹ¹²ãÃæ£¬Yuan3.0 Flash²ÉÓÃÏ¡ÊèMoEÉè¼Æ£¬ÔÚÍÆÀíʱ½ö¼¤»îÉÙÁ¿×¨¼Ò£¬½µµÍµ¥´ÎÍÆÀíµÄPGµç¾º¹ÙÍø¿ªÏú£»¶øÔÚÐÐΪ²ãÃæ£¬RAPOÓëRIRM½øÒ»²½È·±£ÕâЩËãÁ¦±»ÓÃÓÚÕæÕýÓмÛÖµµÄÅжϣ¬¶ø·ÇÈßÓ෴˼¡£
ÕâÖÖ×éºÏЧӦ£¬ÔÚÆóÒµ¸ßƵ³¡¾°ÖбíÏÖÓÈΪÃ÷ÏÔ¡£ÔÚRAG³¡¾°Ï£¬Ä£ÐÍÄܹ»¸ü¿ì¾Û½¹ÓÚ¼ìË÷µ½µÄ¹Ø¼üÐÅÏ¢£¬¶ø²»ÊÇÎ§ÈÆÍ¬Ò»ÄÚÈÝ·´¸´Õ¹¿ª½âÊÍ£»ÔÚ¸´ÔÓ±í¸ñÀí½âÖУ¬ÍÆÀí·¾¶¸ü¼ÓÖ±½Ó£¬²»ÔÙ±»ÈßÓàÑéÖ¤ÍÏÂý£»ÔÚ³¤Îĵµ·ÖÎöÖУ¬Ä£ÐͱÜÃâÁ˲ã²ãµÝ¹éʽ×ܽᣬÏÔÖøÌáÉýÁËÏìӦЧÂÊ¡£
¶ÔÆóÒµ¶øÑÔ£¬ÕâÒâζ×ÅÒ»¸ö·Ç³£¹Ø¼üµÄ±ä»¯£ºÄ¬ÈÏÍÆÀíģʽ±¾Éí¾ÍÒѾ×ã¹»¿É¿¿¡£ÎÞÐè¶îÍ⿪Æô¸ß³É±¾µÄ¡°Éî¶È˼¿¼Ä£Ê½¡±£¬Ä£Ð;ÍÄÜÔÚ´ó¶àÊýÒµÎñÈÎÎñÖб£³ÖÎȶ¨¡¢¿É¿ØµÄ±íÏÖ£¬Ò²¾ÍÊǸü¿ì¡¢¸ü×¼¡¢¸üÊ¡¡£
Yuan3.0 FlashµÄ¼¼Êõʵ¼ù±íÃ÷£ºµ±´óÄ£ÐÍÒѾ¾ß±¸×ã¹»µÄÍÆÀíÄÜÁ¦ºó£¬ÕæÕýϡȱµÄ£¬²»ÔÙÊÇ¡°ÈÃËüÏëµÃ¸ü¶à¡±£¬¶øÊÇ¡°ÈÃËüÖªµÀʲôʱºò¸ÃÍ£¡±¡£
RIRMͨ¹ý½±Àø»úÖÆÔ¼ÊøÎÞЧ·´Ë¼£¬½â¾öÁË¡°ÏëµÃÌ«¶à¡±µÄÎÊÌ⣻RAPOͨ¹ý¸ßЧ¡¢Îȶ¨µÄÇ¿»¯Ñ§Ï°²ßÂÔ£¬½â¾öÁË¡°Ñ§µÃÌ«Âý¡¢Ñ§µÃ²»ÊµÓá±µÄÎÊÌâ¡£Á½Õß¹²Í¬¹¹³ÉÁËÒ»ÌõÃæÏòÆóÒµ¼¶Â䵨µÄÏÖʵ·¾¶¡ª¡ªÔÚ²»ÎþÉüÄÜÁ¦µÄǰÌáÏ£¬ÊµÏÖ¸üµÍ³É±¾¡¢¸ü¸ßЧÂʵÄÖÇÄÜϵͳ¡£
¡¸¿ªÔ´µØÖ· ¡¹
´úÂ뿪ԴÁ´½Ó
https://github.com/Yuan-lab-LLM/Yuan3.0
ÂÛÎÄÁ´½Ó
https://arxiv.org/abs/2601.01718
Ä£ÐÍÏÂÔØÁ´½Ó
1) Huggingface£º
https://huggingface.co/YuanLabAI/Yuan3.0-Flash
https://huggingface.co/YuanLabAI/Yuan3.0-Flash-4bit
2) ModelScope£º
https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash
https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash-int4
3£©wisemodel£º
https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash
https://www.wisemodel.cn/models/YuanLabAI/Yuan3.0-Flash-4bit
ÊÛǰ×Éѯ
ÊÛºó·þÎñ
·ÃÎÊ AIStoreAIStoreÊÇ»ùÓÚÔªÄÔÉú̬´òÔìµÄÉÌÒµÐ×÷ÏßÉÏÆ½Ì¨£¬×÷Ϊ֪ʶ×ÊԴƽ̨¡¢½»Á÷·þÎñƽ̨ºÍÉÌ»ú·õ»¯Æ½Ì¨£¬¸³ÄÜ¡°°ÙÄ£¡±Ó롰ǧÐС±µÄ¶Ô½Ó£¬Ä¿Ç°ÒÑÉϼÜ200+²úÆ·ºÍ·½°¸£¬ÔÚÖÇÄÜÆ±¾Ýʶ±ð¡¢AI¹¤ÒµÖʼ졢´úÂëÉú³É¡¢ÊÓ¾õÖÇÄܱê×¢¡¢AI½¡¿µÖúÊÖµÈÁìÓòʵÏֳɹ¦Ç£ÊÖºÍÂ䵨ӦÓã¬ÖúÁ¦Ç§ÐаÙÒµ¼ÓËÙAI²úÒµ´´Ð£¬¸ßЧÊÍ·ÅÉú²úÁ¦¡£

ɨÂë·ÃÎÊAIStore