【bangalore air quality】智谱 AI 开源视频理解模型 CogVLM2

焦点 2024-09-20 20:52:14 8

感谢IT之家网友 USER 的智谱线索投递!

IT之家 7 月 12 日消息,开源智谱 AI 宣布,视频bangalore air quality训练了一种新的理解视频理解模型 CogVLM2-Video,并将其开源。模型

据介绍,智谱当前大多数的开源视频理解模型使用帧平均和视频标记压缩方法,导致时间信息的视频丢失,无法准确回答与时间相关的理解问题。一些专注于时间问答数据集的模型bangalore air quality模型过于局限于特定格式和适用领域,使得模型失去了更广泛的智谱问答能力。

▲ 官方效果演示▲ 官方效果演示

智谱 AI 提出了一种基于视觉模型的开源自动时间定位数据构建方法,生成了 3 万条与时间相关的视频视频问答数据。基于这个新数据集和现有的理解开放领域问答数据,引入了多帧视频图像和时间戳作为编码器输入,模型训练出 CogVLM2-Video 模型。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

IT之家附相关链接:

  • 代码:https://github.com/THUDM/CogVLM2

  • 项目网站:https://cogvlm2-video.github.io

  • 在线试用:http://36.103.203.44:7868/

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

本文地址:http://yonorummy.lfbofengjiaoye.com/news/72b599924.html
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

全站热门

40 killed in Israeli attack on Gaza

Starmer vows to fix the foundations of UK

Video game Black Myth: Wukong takes global players on journey beyond West

Turkish journalists experience Xinjiang culture at Xinjiang International Grand Bazaar

Fragrance of lotus flowers attract viewers across China

美国大幅度下修就业数据 美媒称此举动摇民众对美经济信心

1元买金手镯,千万别以为捡了个“大漏” 记者调查网购商品虚标价格虚构折扣现象

Northeast China attractions turn cool resources into summer tourism gold

友情链接