斯坦福大学的研究团队刚刚发布了一项爆炸性研究!
他们发现大语言模型(LLM)生成的研究创意比人类专家更新颖!
等等,别以为这就完了!
为了保证评审的公平性,研究团队又找来了79位专家,对所有的创意进行匿名评审。
这阵容,堪称是学术界的春晚啊!
为了避免写作风格影响评审结果,研究团队还用LLM对所有创意的写作风格进行了标准化处理。
下面是一个随机选择的LLM生成的创意示例,看起来是不是很专业?
79位专家评审总共提交了298份评审,每个创意都获得了2-4份独立评审。评审表格参考了ICLR和ACL的标准,包括新颖性、激动程度、可行性和预期效果等多个维度的评分和理由。
最后,研究团队对结果进行了三种不同的统计测试,考虑了所有可能的混淆因素。结果显示,LLM生成的创意在新颖性方面显著优于人类专家的创意。
这个结果,可以说是学术界的"李逵PK李鬼" 了!
除了人机对比,研究团队还发现了两个有趣的LLM特性:
LLM在生成创意时缺乏多样性。即使被明确告知不要重复,它们还是很快就开始重复之前生成的创意。
看来AI 还是喜欢做个 "复读机" !
LLM还无法可靠地评估创意。当研究团队用之前的自动LLM评审员与人类专家评审进行对比时,发现所有LLM评审员都与人类判断的一致性很低。
看来用AI 做评委还是不那么靠谱!
这一连串都要被AI 取代了?
什么?你说至少还有评委不靠谱?
这很重要吗?
可能重要(对人类),可能也不重要(对AI 而言)。
你觉得呢?
[1] https://arxiv.org/abs/2409.04109
[2] https://x.com/ChengleiSi/status/1833166031134806330
声明
内容来源:网络等,免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero
本文来自新知号自媒体,不代表商业新知观点和立场。 若有侵权嫌疑,请联系商业新知平台管理员。 联系方式:system@shangyexinzhi.com