战力飙升!传统技术引爆国产视觉基础模型新纪元

mysmile 5个月前 (12-15) 行业资讯 124 0
战力飙升!传统技术引爆国产视觉基础模型新纪元

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

嘿,你听说了吗?视觉基础模型领域,国产AI正掀起一场性能革命——

Glint-MVT,格灵深瞳的最新力作,惊艳登场。

先看成绩单——线性探测(LinearProbing):

战力飙升!传统技术引爆国产视觉基础模型新纪元

线性探测,一种评估预训练模型基本功的巧妙测试。方法如下:

替换模型最后部分为线性层,冻结其他参数;仅训练新层,通过其表现评估特征质量。

在26个分类测试集中,与CLIP和OpenCLIP对比,国产模型平均准确率领先OpenCLIP 2.3%,领先CLIP 1.1%。

再观应用实战。

视觉基础模型为底座,下游任务如“图像理解+分割一切”,效果更直观。

例如这张图片,询问

你能提供一个分割掩膜给这个图像中触摸篮球的人吗?

战力飙升!传统技术引爆国产视觉基础模型新纪元

任务难点:目标被他人遮挡,分割挑战倍增。

但国产AI轻松应对,精准抠出指定人物:

战力飙升!传统技术引爆国产视觉基础模型新纪元

更复杂案例:

战力飙升!传统技术引爆国产视觉基础模型新纪元

面对多样食物场景,无论指定哪种,AI均精准识别分割。

Glint-MVT中的MVT,全称Margin-based pretrained Vision Transformer,为自研视觉预训练Transformer模型。

核心创新:引入人脸识别的间隔Softmax损失函数,结合百万级虚拟类别训练,降低噪声,提升泛化。

实测显示,在各类下游任务中,性能超越CLIP等ViT模型。

基于Glint-MVT,团队针对引用表达分割(RES)和图像理解,训练出多模态模型:Glint-RefSegMVT-VLM

Glint-RefSeg无需额外训练即可分割一切,实力如前例,在RES任务中达到当前SOTA

MVT-VLM的图像理解能力,示例如下:

请分别告诉我图中运动员的性别以及衣服颜色和号码。

即使号码角度刁钻,也能准确识别:

战力飙升!传统技术引爆国产视觉基础模型新纪元

Glint-MVT还有更多应用,继续探索。

视频、具身智能都用上了

分割能力延伸至视频Glint-RefSeg表现卓越。

例如给定一段Bruno Mars的唱跳视频,效果是这样的:

战力飙升!传统技术引爆国产视觉基础模型新纪元

视频地址:https://mp.weixin.qq.com/s/CXEGGF9tJUycreIpPgV98Q

无论画面切换、角度变化,“穿粉色西装的男子”始终被精准锁定。

动作幅度大、变化快,分割细节依旧到位,手部等细微处处理出色。

传统场景外,具身智能等前沿领域也已应用。

例如这样:

战力飙升!传统技术引爆国产视觉基础模型新纪元

在看完机械臂的操作之后,如果问

把橙子放到白色碗里,(结果是)合适的吗?请回答是或否。

AI就会根据当前的场景回答:是。

由此可见,Glint-MVT视觉基础模型基本功扎实。

接下来,其背后技术。

怎么做到的?

关键技术:引入间隔Softmax

具体而言,Glint-MVT采用间隔Softmax损失函数训练,通过“类别间隔”和“特征紧凑性”双重约束,解决传统Softmax语义区分不足问题。

团队进一步优化:

虚拟类别构造

利用图像文本特征聚类,将大规模数据集划分为百万虚拟类别,替代人工标注,提升数据规模。

噪声抑制与计算优化

训练时随机选取部分负类中心,降低类别冲突干扰,减少计算和显存占用。

相比CLIP实例对比学习,间隔Softmax显式建模类别边界,更聚焦语义结构,在图像检索、分类等任务上更优。

以上是Glint-MVT提升关键,Glint-RefSeg和MVT-VLM基于此底座构建。

例如,Glint-RefSeg采用MVT v1.1为核心视觉编码,融合大语言模型与SAM解码器优势。

使模型理解自然语言描述,精确识别分割目标,输出高质量掩膜。

结果已达业界SOTA:

战力飙升!传统技术引爆国产视觉基础模型新纪元

格灵深瞳技术布局不止于此。

已瞄准多模态大模型和视频理解,即将推出MVT v1.5和MVT v2.0(Video)。

视觉领域的精耕者

技术突破背后,团队发展至关重要。

格灵深瞳为国内计算机视觉早期探索者,自2013年专注视觉技术研发与落地。

从安防、金融解决方案,到视觉大模型与多模态技术,核心始终:让AI真正解决产业痛点。

战力飙升!传统技术引爆国产视觉基础模型新纪元

Glint-MVT正是典范,不追逐学术指标,而提升下游任务能力,赋能实际应用。

大模型时代,格灵深瞳坚持“从业务需求中来到产品落地中去”的研发逻辑。

同时,主动拥抱开源,但拒绝跟风

开放策略明确,如CEO吴一洲强调“回到初心,能贡献什么就贡献什么”,通过开放分享,激发社区创新,形成良性循环。她鼓励团队“勇敢点”“浪一点”,直面技术本质。

算法研究院院长冯子勇,2016年加入,领导灵感实验室,聚焦视觉及相关模态研究。

主导多项技术攻关,在“人脸识别与聚类”和“视频解析”等领域成就显著。

例如银行场景倒地检测,实际应用获认可;国际赛事中斩获OpenFAD2023和SkatingVerse竞赛冠军。

年轻思维与实践经验,为团队注入活力。

格灵深瞳代表了大模型时代的发展缩影——

既需要头部玩家,也离不开格灵深瞳这样的精耕者。

其从场景提炼技术、以开源回报生态的路径,正是AI落地“最后一公里”的关键解法。

AI技术进入垂直深耕阶段,企业需像“打仗”各司其职,找准角色比盲目扩张更重要;格灵深瞳如“特种兵”,通过视觉基础模型支持下游任务。

务实与开放并存,正是其领跑密码。

立即体验Glint-MVT,探索视觉AI无限可能!点击链接,开启你的智能之旅:https://glint-mvt.com

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

相关问答

视觉技术方向主要分为?

视觉技术方向有以下几个:1、图像分类2、目标检测3、图像分割4、目标跟踪5图像滤波与降噪6、图像增强7、三维重建8、图像检索。视觉技术方向有以...

后深度学习时代,计算机视觉技术如何走向未来?

随着深度学习的快速发展,计算机视觉已成为人工智能领域最重要的技术。计算机视觉作为人工智能的重要分支,几乎等同于人工智能的大门,因为人类大脑皮层70%的活...

人工视觉技术是什么?

人工视觉是指利用视网膜修复技术,人工视觉是指利用视网膜修复技术,

视觉技术属于什么行业?

属于设计行业。主要是负责人工智能视觉的设计,要求对产品设计需求良好的理解能力,还要基于概念设计配合团队高效地开展系统化的详细视觉设计。视觉工程师至...

3D视觉技术又是什么?

就比如国内的奥比中光3D传感摄像头,其中就采用了3D视觉传感技术,而3D视觉传感技术就涉及了光学测量分类以及其原理。光学测量分为主动测距法和被动测距法。主...

什么是视觉传达?

视觉传达是指利用视觉符号来传递各种信息的设计。设计师是信息的发送者,传达对象是信息的接受者。简称为视觉设计。视觉传达设计是通过视觉媒介表现并传达给...

3d视觉技术的前景?

前景很好。“3D视觉技术”在现实生活中已经有诸多应用,以智能手机应用为例,iPhoneX手机正是搭载了3D摄像头,采用基于3D结构光的FaceID技术,可以实现解锁手...

机器视觉技术典型应用有哪些?

机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。主要应用于工业、交通、物流、军事等领域。在工业方面,中...

双目视觉技术是什么意思?

双目视觉技术指的是通过两个摄像头或者眼睛获取的图像信息进行处理,从而实现对三维空间的感知和识别。这种技术模拟了人眼的工作原理,通过两个视网膜采集的图...

智能视觉技术应用可划分为?

智能视觉技术应用可进一步划分为智能视频监控、智能视频检索、智能交通监控以及人脸识别技术等几个应用方向。在医疗领域,通过机器视觉技术,医生可以从病人的...

扫描二维码

手机扫一扫添加微信