大模子总结摘要靠谱吗？比人类写的流利，用GPT-とうどうあさこ(刀堂浅子)网

之后文本摘要总结使命，用GPT可能耽忧交给大模子了。大模

文本摘要，总结摘靠作为做作语言天生（NLG）中的谱比一项使命，主要用来将一大段长文本缩短为杂乱的人类摘要，好比往事文章、流利源代码以及跨语言文本等多种内容都能用到。用GPT

随着大模子（LLM）的大模泛起，传统的总结摘靠在特定数据集上妨碍微调的措施已经不在适用。

咱们不禁会问，谱比LLM 在天生摘要方面下场事实若何？

为了回覆这一下场，人类来自北京大学的流利钻研者在论文《 Su妹妹arization is (Almost) Dead 》中妨碍了深入的品评辩说。他们运用人类天生的用GPT评估数据集评估了 LLM 在种种摘要使命（单条往事、多条往事、大模对于话、总结摘靠源代码以及跨语言摘要）上的展现。

在对于 LLM 天生的摘要、家养撰写的摘要以及微调模子天生的摘要遏制定量以及定性的比力后发现，由 LLM 天生的摘要清晰受到人类评估者的喜爱。

接着该钻研在对于以前 3 年宣告在 ACL、EMNLP、NAACL 以及 COLING 上的 100 篇与摘要措施相关的论文妨碍抽样以及魔难后，他们发现约莫 70% 的论文的主要贡献是提出了一种总结摘要措施并在尺度数据集上验证了其实用性。因此，本文展现「摘要（简直）已经去世（ Su妹妹arization is (Almost) Dead ）」。

尽管如斯，钻研者展现该规模依然存在挑战，好比需要更高品质的参考数据集、改善评估措施等还需要处置。

论文地址：https://arxiv.org/pdf/2309.09558.pdf

措施及服从

该钻研运用最新的数据来构建数据集，每一个数据集由 50 个样本组成。

好比在实施单条往事、多条往事以及对于话摘要使命时，本文接管的措施模拟了 CNN/DailyMail 、Multi-News 运用的数据集构建措施。对于跨语言摘要使命，其策略与 Zhu 等人提出的措施不同。对于代码摘要使命，本文接管 Bahrami 等人提出的措施。

数据集构建实现之后，接下来便是措施了。详细来说，针对于单条往事使命本文接管 BART 以及 T5 ；多条往事使命接管 Pegasus 以及 BART；T5 以及 BART 用于对于话使命；跨语言使命运用 MT5 以及 MBART ；源代码使命运用 Codet5 。

试验中，该钻研聘用人类评估员来比力差距摘要的部份品质。服从如图 1 所示，LLM 天生的摘要在所有使掷中不断优于家养天生的摘要以及微调模子天生的摘要。

这就提出了一个下场：为甚么 LLM 可能压倒人类撰写的摘要，而传统上人们以为这些摘若是百孔千疮的。此外，经由开始的审核表明，LLM 天生的摘要展现出高度的流利性以及毗邻性。

本文进一步招募诠释者来识他人类以及 LLM 天生摘要句子中的幻觉下场，服从如表 1 所示，与 GPT-4 天生的摘要比照，家养誊写的摘要展现出相同或者更高数目的幻觉。在多条往事以及代码摘要等特界说务中，家养编写的摘要展现出清晰较差的事实不同性。

家养撰写的摘要以及 GPT-4 天生摘要中泛起幻觉的比例，如表 2 所示：

本文还发现家养编写的参考摘要存在这样一个下场，即缺少流利性。如图 2 (a) 所示，家养编写的参考摘要无意存在信息不残缺的缺陷。而且在图 2 (b) 中，一些由家养编写的参考摘要会泛起幻觉。

本文还发现微调模子天生的摘要每一每一具备牢靠且严厉的长度，而 LLM 可能凭证输入信息调解输入长度。此外，当输中计罗多个主题时，微调模子天生的摘要对于主题的拆穿困绕率较低，如图 3 所示，而 LLM 在天生摘要时可能捉拿所有主题：

由图 4 可患上，人类对于大模子的偏好分数逾越 50%
，表明人们对于其摘要有强烈的偏好，并凸显了 LLM 在文本摘要方面的能耐
：