您现在的位置:返回首页
旷视出席北京智源大会共话视觉大模型未来
由北京智源人工智能研究院主办的2021北京智源大会于6月1日-6月3日召开,大会邀请了各领域领军学者围绕当前AI学术领域迫切需要解决的问题,以及产业落地过程中存在的挑战,分享重要成果与真知灼见。旷视研究院基础模型组负责人张祥雨出席大会圆桌论坛,同与会嘉宾一道畅谈“视觉大模型研究现状与挑战”议题,分享了企业在探索视觉大模型方面的实践经验。
图:旷视研究院基础模型组负责人张祥雨(中)受邀出席北京智源大会大会圆桌论坛
近年来,人工智能的发展从“大炼模型”逐步迈向“炼大模型”,在视觉领域,学术界和工业界也在探索更具通用性的基础视觉模型,及依托这类模型实现便捷任务扩展的方法。然而,视觉毕竟不是自然语言,作为基本视觉单元的像素距离高层语义更远,找不到像“单词”这样离散化、符号化的基本语义单元,因此简单地借鉴预训练语言模型的实现方法恐怕难以奏效。为此,在本次会议视觉大模型专题论坛上,视觉智能及相关领域的多名专家在“视觉大模型研究现状与挑战”的圆桌论坛上就相关议题展开了深入讨论,共同寻找视觉大模型研究的破局之道,加快推动视觉大模型的研究与应用。
在谈及视觉大模型为什么重要,预期视觉大模型可以学习到什么的问题时,旷视研究院基础模型组负责人张祥雨表示,目前视觉大模型的研究中,一个非常重要的问题是如何学习高质量的表征。根据信息瓶颈假设,一个“好”的表征应该对输入数据进行充分的压缩,同时包含足够的信息以适应下游任务的需求;然而如何实现以上两点依然没有确定的答案。目前诸如对比学习(contrastive learning)等基于变换一致性的特征学习框架在一些实践中是比较有效的,但同样在另外一些场景中也有很多失败的案例。是否存在更好的方案,仍然是一个亟待研究的问题。
视觉大模型一般包括视频模型和图像模型。关于视频模型和图像模型两者之间的关系,张祥雨提出了一个新颖的观点,即视觉大模型可能只需要视频模型就可以了,不需要静态图像模型。其实在客观世界中,即使是静态图片,从人认知和识别的角度来说它也是一个视频,因为人类会从不同距离、不同视角观察这张图片。因此从原理上说,完全可以训练一个统一的通用视频模型,既可以用它处理图片数据,也可以处理视频数据。张祥雨及其团队在尝试过程中也发现,这样做出来的模型即使是在静态图像上测试,性能通常也会更好。另外,由于视频是一个非常完整的流的序列,生搬硬套图像的模型并不可取,需要设计一个专门为视频设计的特殊模型,而不是先有图像大模型再迁移到视觉大模型。
两年前张祥雨及其团队曾经做过一个轻量级模型的架构搜索算法:基于单路径超网络的神经网络架构搜索(Single Path One-Shot Neural Architecture Search,SPOS)。在这个过程中,张祥雨得到了许多启发。首先他表示,不能因为追赶潮流就投入研究,一定要多想为什么;早期大家做模型架构搜索的时候就曾出现过很多人抢发论文的现象,做出来的不少方法现在看来局限性都很大,白白投入了很多时间和精力,我们需要从中吸取经验和教训。其次谈及模型搜索在视频大模型中的应用,他认为模型训练早期的一些状态很大程度上可以预示后期的收敛特性,所以沿着这个思路或许可以高效解决超大模型的搜索问题;团队的最新成果如AngleNAS、RLNAS等在这方面进行了一些初步的探索。最后张祥雨还指出,不论是神经网络架构搜索还是视觉大模型的训练,对显存的要求都非常高;而旷视开源的深度学习框架“旷视天元”(MegEngine)在最近推出的V1.4版本中,通过引入 DTR 技术,实现了动态图显存优化功能。开发者在使用MegEngine时,只需要加两行代码,就可以使用这项新功能显著降低显存占用。经旷视天元MegEngine团队测试,开启DTR功能后,在2080Ti上,ResNet-50、ShuffleNet等网络的最大 batch size 可以达到原来的3倍以上。
北京智源大会是“AI内行顶级盛会”,现已连续成功举办三届。本届大会旨在促进国际交流与合作,打造世界人工智能学术高地,加强产学研协同,塑造连接世界人工智能产业与学术资源的中心枢纽。科技部战略规划司司长许倞、2018年图灵奖得主Yoshua Bengio(约书亚·本吉奥)、2017年图灵奖得主David Patterson(大卫·帕特森)、2017年欧洲大脑奖得主Peter Dayan(彼得·达扬)、微软亚洲研究院副院长刘铁岩、清华智能产业研究院首席科学家马维英等受邀出席会议。
更多相关资讯
推荐内容
MORE- (01-13) 作品档案之番号RKI-351 可愛いすぎ
- (12-30) 正确使用标点符号之问号、顿号、引
- (06-15) 屈原故里端午习俗“活”起来
- (08-19) 12级台风海高斯登陆珠海 台风最新
- (08-02) 山东:禁止组团赴中高风险地区旅游
- (07-02) 股市正做“M头”还是筑“W底”?
- (02-16) 篮球盛宴腾讯视频TV端直击NBA全明
- (04-07) 说说顽固性痰咳的气道高反应
- (08-23) 快来看看这些地方的脱贫经是怎么念
- (01-31) 作品档案之番号MGS视频 韩国美女
- (06-10) 六省十市群众艺术展演在临沂成功举
- (07-14) 拉姆斯菲尔德其人其事
- (01-18) 备好药物应对感冒流感与疫情散发
- (03-04) 奥克利不满NBA联盟调解 仍未和尼克
- (11-27) 香港上市公司嘉利国际荣获2020杰出
- (05-18) 几千元的代餐食品几万元的减重手术
- (01-21) 宁波算山码头吞吐量破6亿吨刷新纪
- (02-16) NBA15年后再现扣篮之神 拉文定律
- (08-26) 又来利好了_贵州茅台
- (08-22) 一文带你了解重汽豪沃TX车型怎么样
- (04-30) 骑士祸不单行:勒夫伤情不乐观 史
- (10-16) 有哪些靠谱的二手交易平台?95分闲
- (11-04) 关于小皇叔侧耳听风背后的逻辑是什
- (07-04) 超350头大象近期突然集体神秘死亡
- (11-17) 丹阳假日网校这是不是真相?
- (09-26) 几十位明星主演打败好莱坞大片这部
- (06-27) 艺视21届志愿填报指导丨考进梦想象
- (07-28) 爷爷端菜式抱娃 具体怎么回事?
- (08-08) 最新上海市电动车上牌******一览
- (11-17) 愈快乐愈堕落qvod可以这样解读吗?
- (07-13) 女孩餐厅吃饭疑遭男伴暗中下药 人
- (01-28) 快船将不续签达柳斯-莫里斯
- (07-10) “毋以小益而不修毋以小损而不防”
- (04-15) 马刺官方Instagram发布队史对阵步
- (07-14) 北京不为职工开公积金账户罚5万 具
- (08-20) 中菌特色肥智能化升级开先河
- (11-22) 扶貧快車上的“潤滑劑”
- (01-14) 洛城德比战 快船队雷迪克确认复出
- (05-04) NBA周四303推荐:勇士 VS 快船
- (09-22) 骑行趋热买辆称心车不易