近日,上海东说念主工智能本质室聚拢魔搭社区推出中国大谈话模子评测竞技场Compass Arena,首度集王人国内主流大模子全声势,阿里通义千问、百度文心一言、腾讯混元、字节跳跃豆包、书生·浦语等20款国产大模子出战,角逐中国大模子“最强王者”。
当下,“百模大战”拼杀正酣,谁才是最强王者?各种榜单也层见叠出,其中国际怒放征询组织LMSYS Org(Large Model Systems Organization)推出的大模子竞技场Chatbot Arena,已成为外洋最具公信力的大模子榜单之一,缺憾的是该榜单中语化历程相对不及。为此,Compass Arena的推出将灵验填补这一范畴的空缺。
比较考题固定的传统测评,中国大谈话模子评测竞技场Compass Arena接收盲测、怒放的测评方式,不错更全面地考验模子实力。Compass Arena建立了立时、匿名对战,大模子选手们成为“蒙面唱将”,模子信息隐去后,由系统立时匹配进行PK,用户不错天马行空解放出题,并四肢评委主不雅评判和投票。若是大模子不戒备“自报家门”,则对话被过滤,不计入收获。通过数以万计轮PK挑战和用户投票,系统将对大模子进行自动排名。
魔搭社区直播时,网友在线给大模子出题。
Compass Arena由上海东说念主工智能本质室OpenCompass司南评测体系与魔搭社区聚拢建造,前者厚爱组织评测,后者厚爱开源模子引入及社区打造。据上海东说念主工智能本质室OpenCompass团队先容,Compass Arena英勇体现社区用户果然凿响应,评测机制鉴戒Chatbot Arena,接收Elo评分系统,即国际象棋等对弈活动评估的泰斗尺度。在这种方式下,大模子竞技访佛“在游戏中打排位”,胜率成为评估模子水平的要津标的,同期跟着排位变高,系统也会自动匹配高段位选手进行对战。
与Chatbot Arena比较,Compass Arena更聚焦中语大模子,主流国产大模子全掩盖,同期评测用户大多使用中语,不错充分评估国产大模子的性能。
当今,Compass Arena已积贮超20款生意及社区模子,包括Qwen-Max、ERNIE-4.0-8K、Spark3.5 Max、Abab6.5、GLM4等国内头部厂商的旗舰款大模子,并引入了Llama3、Mixtral等外洋标杆模子进行参照。更多模子及厂商还在不停加入中。
上线不到一周,已有上万东说念主打听魔搭Compass Arena页面。魔搭社区示意,接待庞打开导者和网友参与大模子排位赛的投票,共同促进国产大模子的擢升和赶超。后续,Compass Arena首期名次榜将揭晓,并将依期公布更新。
Compass Arena首批大模子名单:
Abab6.5-Chat (MiniMax)
Baichuan 4 (百川智能)
C4AI Command R+ (Cohere)
DBRX-Instruct (DataBricks)
Deepseek-LLM-67B-Chat(深度求索)
Deepseek-MoE-16B-Chat(深度求索)
Doubao-Pro-4K (字节豆包)
ERNIE-4.0-8K (百度文心一言)
GLM4 (智谱AI)
Hunyuan-Pro (腾讯混元)
InternLM2系列(上海AILab书生·浦语)
Llama3系列(Meta)
Mixtral 8x22B Instruct (Mistral)
MoonShot-V1-32K (月之暗面)
Qwen1.5系列 (阿里通义千问)
Qwen-Max (阿里通义千问)
Spark3.5-Max (讯飞星火)
Yi-34B-Chat (零一万物)
Yi-Large (零一万物)体育游戏app平台