[我要投稿] [用户注册] [用户登录] [退出]

您现在的位置:返回首页

斯坦福100页论文评估大模型透明度:全都不及格

发布时间: 2023-10-21 08:16 文章来源: 互联网 作者:

  而GPT-4分数仅仅为48,排名第三;来自亚马逊的Titan Text成绩垫底,仅取得12分。

  不仅如此,在斯坦福HAI官方的博客中,负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说道:

  总而言之,团队认为大模型发展到现阶段,它们的透明度是一个非常重要的关键点,直接与是否可信挂钩。

  下游(Downstream):基础模型是如何分布和使用的,例如对用户的影响、更新内容、控制策略等。

  从结果上来看,“上游”类指标的得分差异较为明显;例如BLOOMZ的“上游”类指标在整体得分中的占比较高。

  如果将“上游”“模型”和“下游”视为三个“顶级域”,那么团队在它们基础之上,还分了更精细、更深入的13个“子域”:

  团队将广泛可下载的模型标记为开源模型,“参赛选手”中有三位属于此列,分别是Llama 2、BLOOMZ和Stable Diffusion 2。

  从排名结果中显而易见地可以看出,开源模型的得分普遍遥遥领先,唯有GPT-4的得分比Stable Diffusion 2高出了1分。

  这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的,比如用于构建模型的数据、劳动力和计算。

  在当下的互联网中充斥着诸多这样的问题,例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。

  MIT博士Shayne Longpre认为,随着大模型越发火热并且在各行各业中迅速落地,科学家们有必要了解它们是如何设计的,尤其是“上游”的那些指标。

  对于产业界来说,亦是如此,决策者们在面对“用哪个大模型、怎么用”等问题时,都需要建立在模型透明度的基础之上。

本文标签:

更多相关资讯

推荐内容

MORE