智谱AI发布中文 LLM Alignbench对齐评估基准

新闻公告

发布时间：2023-12-25 10:59:43

站长之家(ChinaZ.com) 12月12日消息:智谱AI发布了专为中文大语言模型的智谱AI（LLM）对齐评价基准的诞生AlignBench，这是目前第一对于中文大模型的评价基准，可以对模型与人类意图的对齐水平进行多维细致的评价。

AlignBench 数据集来自真实的使用场景。通过初步结构、敏感性筛选、参考答案生成和难度筛选，确保其真实性和挑战性。数据集分为知识问答、写作生成、角色扮演等8类。

微信截图_20231212161515.png

为实现自动化和可再现性，AlignBench 采用评分模型(如 GPT-4和 CritiqueLLM）对每个模型的答案进行评分，代表其答案的质量。评分模型具有多维、规则校准的评分方法，提高了模型评分与人类评分的一致性，并提供了详细的评价分析和评价分数。

可供开发人员使用 AlignBench 进行评估，并使用评估能力强的评分模型(如 GPT-4或 CritiqueLLM）评分。通过登录 AlignBench 网站，可以使用提交结果 CritiqueLLM 评估结果可以在大约5分钟内作为评分模型进行评估。

体验地址：https://llmbench.ai/align

本站文章全部采集于互联网，如涉及版权问题请联系我们删除.联系QQ:888798,本站域名代理为阿里云