【新智元导读】谷歌团队推出「通用视觉编码器」VideoPrism,正在3600万高质地视频字幕对和5。82亿个○视频剪辑的数据集上 完结了教练,机能改正30项SOTA。
AI视频模子○S=ora爆◁火○之后,Meta、谷歌等大厂纷纷下场做斟酌,追逐OpenAI的措施。
近来,来自谷歌团… 队的斟酌职员提…出了一…■种通 用△ ◁ 视频编码器——Vid★eoPrism。
斟酌职员正在一个异构语料库=对VideoPrism举办了预教练,包罗3600万高质地视○频字幕 对和5。82亿个视频剪辑,并带有噪声并◁行文本( 如AS=▽R 转 录文△本)。
值得一提的是,Vid eoP △rism正在■33项视频判辨基 准测 试中,改正了30项SOTA。
今朝,视频本 原模 子(★V◁i □FM)有…强○壮的○潜力,可能正在伟○□大的语料库中解锁新的本 领。
固○然□之前的斟酌正在通○常 视频判辨方面赢得了很○大 发扬,但构修真正 的「□本原视…频模子」依然是一个难以告竣 的标的。
对此,谷歌推出了一 种通用视觉编码器——VideoPrism,旨正在治理普遍的视频判辨工作,包含分类、当地化、检索、字幕和问答(QA)。
Vid eoPri▽s m … 对C△V数据集?
其它,谷歌斟酌职员称,这种冻结编码 器修设同时恪守先前斟酌…画面朋分器 stro△ng>,并研讨了本来践适用性,以及高计较和微 调 视频模子的○本钱。
预教练数据是 本原模子 (FM)的本原,ViFM的理念预教练数据,是宇宙上全数视频的代外性样本。
以是,谷歌的…预教…练 战◁略□ 应闭键闭▽★ □ 审视频=形○式Bsports必一体育bsports必一体育处理器,同时充 满诈欺任 何可用的 视○频文本对。
正在数据方面,谷歌斟▽酌职 员通过蚁集3600万高质地★视频字幕对,以及5。82亿○视△频剪辑与▽噪 声并行 ■文本(如A=S R转▽录、天生的字幕和 检索到的文本)来近似修筑所需的预教练语料库。
正在修模方面,作家最△先从全数…区别质地的○视频- 文 本对中比拟 进修语义视频嵌入。
随后,诈欺普遍的纯视频数据,对语义嵌入举办全部和标帜提炼,矫正了下文所述的掩码视频修模。
尽量正 在自然○■ 言语▽方面赢得 了获…胜,但因为原始视觉信号缺乏语义,掩码数据★修模关 于 C V来说=依★然▽具 有挑衅性。
现有斟酌通过借用间接语义(如行使CLIP劝导模子或分词器,或隐含语义来应对这一挑衅)或隐性实行它们(例如标帜视 觉patch■es),将高掩码率和轻量级解码器团结。
正在第一阶段,举办比拟进修,行使全数视频文本对,将视频编码器与文本编码器对齐。
遵循先前的斟酌,谷歌团★队最小化★…批■ 中○全数□△★ 视频文本对的肖似○ 性得 分,举办对称交叉熵失掉最小化Bsports必一体育COB小间距LED显示屏,。
并行使 CoCa 的图像 模子初始化空间编△码模块,并将WebLI纳入到预教练中。
正在计较失掉之前,视频编码器的特△色 会通过众头 防 备力蚁集池( MA □…△P) 举办会合。
这一阶段应承视频编 码器从言语监视中进修厚实的视觉语义,由此出现的模子为第二阶段教练…供应○语义视频嵌入画面朋分器 s◁trong>。
- 模子必要遵循未掩码的输入视频pa tches必一体育app下载,来预测第一阶段的视频级全部嵌入和token式嵌入!
- 编 码器的输出toke n○正在传给解码器之前,要举办随机洗牌,以避免进修捷径。
值得防备的是,斟酌职员的○预…教练诈○欺了两…个监视△ 信 号:视频的文本描画,以及上下文自监视,使Vi■ de □oPri s▽m或许▽正在以外观★和动=行 为中央的工作上浮现精○美。
结果上,之前的斟酌剖明,视频字幕闭键揭示外观线索,而上下文我监视有助于进修行动。
Bsports必一体育千万奖金: 点击领取
Bsports必一体育邮箱:b-sports@biaozhi8899.com
Copyright © 2014-2024 备案号:粤ICP备2021008559号