有用户在测试中发现,只要提到现在是12月份,GPT-4的输出内容就明显变少。在某项测试中,用户告诉GPT-4现在是5月份和12月份后对比输出结果,得出了12月份的结果相对较差的结论。这引起了大家的讨论,认为GPT-4可能是因为放寒假了才不愿意工作。
但是根据论文作者的观点,GPT-4降智的主要原因是由于大型模型缺乏持续学习和进化能力,这是一个看起来几乎无解的缺陷。论文还指出,GPT-4表现良好的原因在于它只是记住了答案,而没有有效地获得新知识和理解。
而造成这种表现差别如此巨大的原因,则在于‘任务污染。作者发现,GPT-3系列各个版本在新任务上的性能增强都是由任务污染导致的,而对于没有任务污染证据的分类任务,大型语言模型很少在零样本和少样本设置下显著优于简单多数基准。
研究人员进行了针对12个模型的测试,发现了在模型数据训练截止日期之后发布的数据集,模型的零样本和多样本性能均明显下降。进一步确定的研究分析显示,任务污染的增加与性能的提高存在着很强的相关性。
因此,这些发现引起了人们的悲观情绪,认为很难构建能够持续适应的机器学习模型。ChatGPT已经过时了,大型模型公司必须不断重新训练新模型,才能够保证模型的性能和效果。
在种种研究结果和观察的推动下,人们开始意识到GPT-4‘变笨是由于不断追问新问题对其进行考验,使得其真实水平慢慢暴露出来。这一切都在反映出巨大的系统性问题存在于机器学习模型中。