您现在的位置：返回首页

斯坦福100页论文评估大模型透明度：全都不及格

发布时间: 2023-10-21 08:16 文章来源: 互联网作者:

　　而GPT-4分数仅仅为48，排名第三；来自亚马逊的Titan Text成绩垫底，仅取得12分。

　　不仅如此，在斯坦福HAI官方的博客中，负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说道：

　　总而言之，团队认为大模型发展到现阶段，它们的透明度是一个非常重要的关键点，直接与是否可信挂钩。

　　下游（Downstream）：基础模型是如何分布和使用的，例如对用户的影响、更新内容、控制策略等。

　　从结果上来看，“上游”类指标的得分差异较为明显；例如BLOOMZ的“上游”类指标在整体得分中的占比较高。

　　如果将“上游”“模型”和“下游”视为三个“顶级域”，那么团队在它们基础之上，还分了更精细、更深入的13个“子域”：

　　团队将广泛可下载的模型标记为开源模型，“参赛选手”中有三位属于此列，分别是Llama 2、BLOOMZ和Stable Diffusion 2。

　　从排名结果中显而易见地可以看出，开源模型的得分普遍遥遥领先，唯有GPT-4的得分比Stable Diffusion 2高出了1分。

　　这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的，比如用于构建模型的数据、劳动力和计算。

　　在当下的互联网中充斥着诸多这样的问题，例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。

　　MIT博士Shayne Longpre认为，随着大模型越发火热并且在各行各业中迅速落地，科学家们有必要了解它们是如何设计的，尤其是“上游”的那些指标。

　　对于产业界来说，亦是如此，决策者们在面对“用哪个大模型、怎么用”等问题时，都需要建立在模型透明度的基础之上。

本文标签：

[我要投稿] [用户注册] [用户登录] [退出]