CV每日论文---2024.6.3

news/2024/7/16 12:09:22

1、Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

中文标题:Video-MME:视频分析领域首个多模态法学硕士综合评估基准

简介:Video-MME 是一个全面评估多模态大语言模型(MLLMs)在视频分析中性能的基准。它具有以下四个关键特点:

1. 多样的视频类型:覆盖6个主要视觉领域和30个子领域,确保广泛的场景泛化性。

2. 持续时间的时间维度:包括从11秒到1小时的短、中、长期视频,测试强大的上下文动态。

3. 广泛的数据模态:除了视频帧,还整合了字幕和音频等多模态输入,以揭示MLLMs的全面能力。

4. 高质量的注释:由专家注释员严格手动标注,确保精确可靠的模型评估。

Video-MME 汇总了900个视频,总共256小时,并生成了2700个问题-答案对。通过这个基准,研究者广泛评估了GPT-4、Gemini 1.5 Pro等先进的MLLMs,以及InternVL-Chat-V1.5和LLaVA-NeXT-Video等开源模型。实验发现,Gemini 1.5 Pro是表现最佳的商业模型,但仍存在处理长序列和多模态数据的必要性。Video-MME 项目页面: https://video-mme.github.io。

2、Latent Intrinsics Emerge from Training to Relight

中文标题:潜在的内在本质从训练中显现出来,以重新打光

简介:这篇论文介绍了一种全新的数据驱动的图像照明方法。与传统的基于逆向图形的方法不同,本文提出的方法将场景的内在特征和照明分别建模为潜在变量。这种方法避免了逆向图形方法中难以控制误差的问题,同时也不局限于表示预先选择的内在特征。

通过这种潜在变量建模的方法,我们生成了最先进的实景照明效果,在标准评价指标上表现优秀。我们还展示了这种方法可以从图像中恢复出反照率信息,而无需任何反照率样例,其恢复效果也与目前最好的方法相当。

总的来说,这种全新的数据驱动图像照明方法,克服了传统逆向图形方法的局限性,展现出更强大的建模能力,为图像照明问题带来了新的解决思路。

3、Generalization Beyond Data Imbalance: A Controlled Study on CLIP for Transferable Insights

中文标题:超越数据不平衡的泛化:针对可转移见解的 CLIP 的对照研究

简介:这篇论文探讨了在大规模视觉-语言数据集上进行CLIP预训练的数据不平衡问题。研究发现,与传统监督学习相比,CLIP预训练在学习可推广的表示方面表现出了显著的数据平衡鲁棒性。

为了深入理解这一现象背后的原因,作者进行了一系列受控实验,发现CLIP的伪任务形成了动态分类问题,其中训练集中只有一部分类别。这种设置隔离了主导类别的偏见,隐含地平衡了学习信号。此外,CLIP的鲁棒性和可区分性还受益于更具描述性的语言监督、更大规模的数据以及更广泛的开放世界概念,这些是传统监督学习无法访问的。

这些发现不仅揭示了CLIP在数据不平衡情况下推广性的机制,还为其他监督学习和自监督学习模型在不平衡数据上的训练提供了可转移的见解,使其能够达到CLIP级别的性能。相关代码已公开在 https://github.com/CVMI-Lab/clip-beyond-tail。


https://www.xjx100.cn/news/3417926.html

相关文章

PostgreSQL 修改表结构卡住不动

目录 1 问题2 实现 1 问题 今天遇到的一个问题记录一下,因为系统上的一个改动需要同步脚本至测试库上,具体的脚本内容也很简单,就是修改了某张表的一个字段。但是无论怎么操作都是一直卡住,表的数据量很小就十几条数据所以初步怀疑是表被锁了…

第二讲笔记:隐私计算助力数据要素流通

1、数据要素流转与数据 2、数据外循环中的信任 焦虑 信任焦虑背后的代表性案例 内鬼门 : 2023 年 , 美国科技公司 Ubiquiti在2021年1月曝出数据泄露事 件, “攻击者”在随后的“谈判”中试 图向该企业勒索近200万美元(50比特 币&…

Taro(React)使用富文本编辑器Editor

在写项目的过程中很容易涉及到让使用者,输入一些介绍或者文本等相关功能, 前端在拿到这些文本时是需要直接渲染的,如果不使用富文本编辑器,这个时候得到的文章是没有格式的,这对于使用者来说体验非常的不好&#xff0c…

一分钟了解香港的场外期权报价

香港的场外期权报价 在香港这个国际金融中心,场外期权交易是金融市场不可或缺的一部分。场外期权,作为一种非标准化的金融衍生品,为投资者提供了在特定时间以约定价格买入或卖出某种资产的机会。对于希望参与这一市场的投资者来说&#xff0…

HMM地图匹配算法库Barefoot环境搭建

1.引入gps路径匹配开源项目barefoot 克隆仓库 git clone https://github.com/bmwcarit/barefoot.git打开项目执行mvn命令将项目打包到maven仓库 mvn install -DskipTests在自己的maven项目中引入barefoot依赖 <dependency><groupId>com.bmw-carit</groupId&g…

React 之 mobx-state-tree(Redux替代品) 状态管理

MST(mobx-state-tree)、redux做多组件间全局state管理&#xff08;类比vuex&#xff0c;父 孙组件状态传递解耦&#xff09;。 tree type state 树中的每个节点都由两件事来描述: type (事物的形状) 和 data (它当前所处的状态). 最简单的树如下所示&#xff1a; 1.声明类…

数据结构——哈希表、哈希桶

哈希概念 顺序结构以及平衡树中&#xff0c;元素关键码与其存储位置之间没有对应的关系&#xff0c;因此在查找一个元素时&#xff0c;必须要经过关键码的多次比较&#xff0c;顺序查找时间复杂度为O(N),平衡树中为树的高度,即O(logN),搜索的效率取决于搜索过程种元素的比较次…

与C共舞:让编译更顺滑(2)

1.6 Packed结构体 默认情况下,Zig中的所有结构体字段自然对齐到@alignOf(FieldType)(ABI大小),但没有定义布局。有时,您可能希望具有不符合您的C ABI的定义布局的结构体字段。packed结构体允许您对结构体字段进行极其精确的控制,允许您逐位放置字段。 在packed结构体内…