资源简介:
FACTBENCH是由密歇根大学计算机科学与工程系创建的一个动态基准数据集,用于评估语言模型在真实世界交互中的事实性。该数据集包含1000个多样化的信息查询提示,涵盖150个主题,旨在捕捉语言模型在生成错误和不明确响应时面临的挑战。数据集的创建过程包括从LMSYS-Chat-1M数据集中提取提示,并通过VERIFY管道进行验证和分类。FACTBENCH的应用领域主要集中在语言模型的事实性评估,旨在解决模型在处理复杂和多样化查询时可能产生的幻觉问题。
原始地址:
https://huggingface.co/spaces/launch/factbench