DeepMind研究科学家:NLP基准测试的现在、过去和未来


什么是基准?
基准测试简史
指标很重要
考虑下游用例
细粒度评估 基准性能的长尾 大规模持续评估




考虑更适合下游任务和语言的度量。
考虑强调下游设置权衡的指标。
随着时间的推移更新和完善指标。
设计基准及其评估,使其反映真实世界的用例。
评估域内和域外泛化。
收集数据并评估其他语言的模型。
从语言技术的现实应用中获得灵感。



不再使用单一指标进行性能评估。
评估社会偏见和效率。
对模型执行细粒度评估。
考虑如何聚合多个指标。
在基准中包括许多和/或困难样本。
进行统计学显著性检验。
为不明确的示例收集多个注释。
报告注释者协议。
考虑收集和评估大型、多样化、版本化的 NLP 任务集合。

评论
