站长之家(ChinaZ.com) 12月12日 消息:智谱AI发布了专为中文大语言模型的智谱AI(LLM)对齐评价基准的诞生AlignBench,这是目前第一对于中文大模型的评价基准,可以对模型与人类意图的对齐水平进行多维细致的评价。
AlignBench 数据集来自真实的使用场景。通过初步结构、敏感性筛选、参考答案生成和难度筛选,确保其真实性和挑战性。数据集分为知识问答、写作生成、角色扮演等8类。
为实现自动化和可再现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)对每个模型的答案进行评分,代表其答案的质量。评分模型具有多维、规则校准的评分方法,提高了模型评分与人类评分的一致性,并提供了详细的评价分析和评价分数。
可供开发人员使用 AlignBench 进行评估,并使用评估能力强的评分模型(如 GPT-4或 CritiqueLLM)评分。通过登录 AlignBench 网站,可以使用提交结果 CritiqueLLM 评估结果可以在大约5分钟内作为评分模型进行评估。
体验地址:https://llmbench.ai/align
Copyright © 2013-2025 bacaiyun.com. All Rights Reserved. 八彩云 版权所有 八彩云(北京)网络科技有限公司 京ICP备2023023517号
本站文章全部采集于互联网,如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云