您现在的位置:返回首页
斯坦福100页论文评估大模型透明度:全都不及格
而GPT-4分数仅仅为48,排名第三;来自亚马逊的Titan Text成绩垫底,仅取得12分。
不仅如此,在斯坦福HAI官方的博客中,负责人Rishi Bommasani直言不讳地把OpenAI单拎出来说道:
总而言之,团队认为大模型发展到现阶段,它们的透明度是一个非常重要的关键点,直接与是否可信挂钩。
下游(Downstream):基础模型是如何分布和使用的,例如对用户的影响、更新内容、控制策略等。
从结果上来看,“上游”类指标的得分差异较为明显;例如BLOOMZ的“上游”类指标在整体得分中的占比较高。
如果将“上游”“模型”和“下游”视为三个“顶级域”,那么团队在它们基础之上,还分了更精细、更深入的13个“子域”:
团队将广泛可下载的模型标记为开源模型,“参赛选手”中有三位属于此列,分别是Llama 2、BLOOMZ和Stable Diffusion 2。
从排名结果中显而易见地可以看出,开源模型的得分普遍遥遥领先,唯有GPT-4的得分比Stable Diffusion 2高出了1分。
这种差异很大程度上是由于闭源模型的开发人员在“上游”问题上缺乏透明度造成的,比如用于构建模型的数据、劳动力和计算。
在当下的互联网中充斥着诸多这样的问题,例如欺骗性的广告和定价、欺骗用户在不知情的情况下进行网购等等。
MIT博士Shayne Longpre认为,随着大模型越发火热并且在各行各业中迅速落地,科学家们有必要了解它们是如何设计的,尤其是“上游”的那些指标。
对于产业界来说,亦是如此,决策者们在面对“用哪个大模型、怎么用”等问题时,都需要建立在模型透明度的基础之上。
更多相关资讯
推荐内容
MORE- (07-01) CJ-迈尔斯将于7月2日和步行者会晤
- (09-16) 专精特新是什么专精特新的含义
- (06-16) 寸而度之至丈必差:牛牛人6月中旬
- (07-09) 动真格了全南昌严查家有电动车的速
- (05-16) 全“兴”抗疫全力守“滬”丨驻守在
- (05-22) 隆力奇坚持绿色生产推动企业可持续
- (08-17) 还是服务社会民生最基层黑色表盘搭
- (09-11) 野生菌产量减少要入手的抓紧
- (03-26) 保罗接受“背孩子俯卧撑挑战”:我
- (03-29) 有没有零氪金的手游平台0氪手游平
- (02-22) 罗湖区莲塘街道认真开展“深i您-自
- (01-17) 作品档案之番号23岁的IT员工支持人
- (03-03) 解读新国美:定义开启******化赛道
- (08-14) 分级响应高效处突应急
- (08-09) 首席辩论会]高送转为何频现“见光
- (02-02) 湖人主场负步行者遭五连败 科比因
- (07-13) 贺天举什么时候打NBA夏季联赛
- (06-23) 苏宁易购六一宝宝节开心直播夜:超
- (06-03) 华为“卖车”开跑汽车新零售这本经
- (04-13) 中国5G连接数已逾2亿
- (10-07) 积(jī)劳(láo)成(chéng)疾(jí)
- (08-25) 长安UNI-V有望采用全新LOGO最快明
- (07-08) 耿爽履职中国常驻联合国副代表 耿
- (02-24) 有关魔兽上不去是怎么回事?
- (10-01) 云端相聚也团圆
- (02-02) 有关转基因王妃这件事可以这样理解
- (04-09) 阿德托昆博家族为雅典及赞格拉芙地
- (06-22) 同一个会场5700余名综合帮扶队员不
- (09-22) 922早参:盘面长阴后出现长腿下跌
- (03-26) 迈尔斯-特纳发推:向所有医务工作
- (06-21) 机关二支部召开第二季度党员大会
- (05-28) 22个岗位带编制
- (08-28) 最难马里奥看看网友是怎么说的!
- (06-06) 谁是你的MVP 《反恐行动》星梦NBA
- (03-09) 全国人大代表周云杰:让老年人跟上
- (09-04) 牢牢把握九个“必须”
- (07-22) yyds怎么上车?
- (04-21) 丹尼-格林:即使空场比赛我也想要
- (12-28) 零距离体验究竟怎样?
- (03-09) 广东壹健康荣获“质量先锋”弘扬工