首页 关于我们

作者:人工智能产业链联盟 2024/09/12 20:36

斯坦福大学的研究团队刚刚发布了一项爆炸性研究!

他们发现大语言模型(LLM)生成的研究创意比人类专家更新颖!

等等,别以为这就完了!

为了保证评审的公平性,研究团队又找来了79位专家,对所有的创意进行匿名评审

这阵容,堪称是学术界的春晚啊!

为了避免写作风格影响评审结果,研究团队还用LLM对所有创意的写作风格进行了标准化处理

下面是一个随机选择的LLM生成的创意示例,看起来是不是很专业?

79位专家评审总共提交了298份评审,每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准,包括新颖性、激动程度、可行性和预期效果等多个维度的评分和理由。

最后,研究团队对结果进行了三种不同的统计测试,考虑了所有可能的混淆因素。结果显示,LLM生成的创意在新颖性方面显著优于人类专家的创意

这个结果,可以说是学术界的"李逵PK李鬼" 了!

除了人机对比,研究团队还发现了两个有趣的LLM特性:

  1. LLM在生成创意时缺乏多样性。即使被明确告知不要重复,它们还是很快就开始重复之前生成的创意。

看来AI 还是喜欢做个 "复读机" !

  1. LLM还无法可靠地评估创意。当研究团队用之前的自动LLM评审员与人类专家评审进行对比时,发现所有LLM评审员都与人类判断的一致性很低。

看来用AI 做评委还是不那么靠谱!

这一连串都要被AI 取代了?

什么?你说至少还有评委不靠谱

这很重要吗?

可能重要(对人类),可能也不重要(对AI 而言)。

你觉得呢? 

相关链接

[1] https://arxiv.org/abs/2409.04109

[2] https://x.com/ChengleiSi/status/1833166031134806330

声明

内容来源:网络等,免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系微信号:AI480908961)

编辑:Zero



本文来自新知号自媒体,不代表商业新知观点和立场。
若有侵权嫌疑,请联系商业新知平台管理员。
联系方式:system@shangyexinzhi.com