关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

智谱AI发布中文 LLM Alignbench对齐评估基准

发布时间:2023-12-25 10:59:43

站长之家(ChinaZ.com) 12月12日 消息:智谱AI发布了专为中文大语言模型的智谱AI(LLM)对齐评价基准的诞生AlignBench,这是目前第一对于中文大模型的评价基准,可以对模型与人类意图的对齐水平进行多维细致的评价。

AlignBench 数据集来自真实的使用场景。通过初步结构、敏感性筛选、参考答案生成和难度筛选,确保其真实性和挑战性。数据集分为知识问答、写作生成、角色扮演等8类。

微信截图_20231212161515.png

为实现自动化和可再现性,AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM)对每个模型的答案进行评分,代表其答案的质量。评分模型具有多维、规则校准的评分方法,提高了模型评分与人类评分的一致性,并提供了详细的评价分析和评价分数。

可供开发人员使用 AlignBench 进行评估,并使用评估能力强的评分模型(如 GPT-4或 CritiqueLLM)评分。通过登录 AlignBench 网站,可以使用提交结果 CritiqueLLM 评估结果可以在大约5分钟内作为评分模型进行评估。

体验地址:https://llmbench.ai/align


/template/Home/Zkeys/PC/Static