尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型OpenAI o3的帮助下, DVD以这一简洁有效的 agentic 框架在非常具有挑战性的LVBench上以74.2%的准确率大幅超越了之前的工作。这一工作将以MCP Server的形式开源。 不同于之前的视频智能体框架依赖于手动设计的固定工作流程,DVD 强调其作为智能体的自主性,即通过自主规划,决策和行动来解决问题。 为了充分利用这一自主性,我们将原始的长视频转换为多粒度视频数据库,并提供了一套以搜索为中心的工具使得智能体在不同阶段搜集不同粒度的信息。具体来说该系统主要由三个核心组件构成:多粒度视频数据库、以搜索为中心的工具集以及作为智能体协调器的 LLM。 在 “多粒度视频数据库构建” 阶段,系统将超长视频转换为一个结构化数据库,通过统一将视频分割成短片段(例如 5 秒),并提取全局、片段和帧级别的多粒度信息,包括主题中心化摘要、片段字幕及其嵌入向量,以及原始解码帧...。 (2)片段搜索(Clip Search)工具,实现通过片段描述 Embedding 对视频内容进行高效语义检索,并返回排名靠前的相关视频片段及其字幕和时间范围。 LLM 作为核心认知驱动器,在迭代的 “观察 - 推理 - 行动” 循环中,根据累积的知识和推理证据采取行动,从而赋予智能体自主、证据引导和灵活的行动机制,有效地将原始查询分解为逐步细化的子查询来解答问题。 该系统在多个长视频基准测试上进行了全面评估,展现了其卓越的效率和强大的性能。在极具挑战性的 LVBench 数据集上,DVD 智能体取得了 74.2% 的最新准确率,大幅超越了所有现有工作,包括先前的最先进模型 MR. Video(13.4% 的提升)和 VCA(32.9% 的提升)。在辅助转录的帮助下,准确率进一步提高到 76.0%。在 LongVideoBench、Video MME Long 子集和 EgoSchema 等其他长视频基准测试中,DVD 也持续超越了先前的最先进性能。 图 3:不同基础模型在智能体中的行为分析。图中可以明显看出不同基础模型表现出显著的行为模式差异,不具有推理能力 GPT-4o 表现出非常单一的行为模型。 消融研究证实了工具设计的有效性,并强调了推理模型在整个智能体系统中的关键作用:更换推理模型(如使用 OpenAI o4-mini 或 GPT-4o)会导致性能下降,这表明 LLM 推理能力的缺失会导致智能体行为崩溃。对智能体推理行为的分析也揭示了不同模型在工具调用模式、推理深度和准确性之间的关联,例如 GPT-4o 表现出过度自信和行为崩溃,倾向于过早结束推理。这些行为模式的分析进一步为未来的智能体设计以及基础语言模型的发展提供了实践参考。
成色18k.8.35mb菠萝关于杨瀚森的使用问题,比卢普斯也在今天的采访中提到了。“他需要变得更好,学习战术也学习语言。球队内线竞争激烈,但杨瀚森的能力已经达到NBA水准,我对他随时登场比赛有信心。这一年他会以学习为主,一旦获得机会,肯定能让大家眼前一亮。”他继续说道:“当一切都井然有序——球员、教练、管理层、比赛风格、财务资源——没有理由不取得成功。俱乐部也从过去的失败中吸取了教训。尽管每次被淘汰后氛围有时很糟糕,但它从未气馁。这次胜利是对曾经的质疑和批评的一种反击。目标达成了,而且是以如此强势的方式。尽管花费了一些时间,我承认。”成色18k.8.35mb菠萝www.51cao.gov.cn在该消息传出不久后,亚马尔在社交媒体发布了一张他和尼科-威廉斯在西班牙国家队庆祝的照片。两人私下里关系也很不错。那为什么要不断地对育儿进行投资?家庭投资到底是为了什么?思考这个问题就会发现,生育和育儿背后的政治经济基础被遮掩了。育儿的困境被掩盖成个人的困境,在这个困境中,人们只能不断地工作,从而获取更多的薪资,由此在市场上购买商品。这种循环将困境进行转移,转移到了低阶层的女性身上。今天,大量农村女性离开自己的家庭,去承担商品化育儿的劳动,而她只能靠家中的老人去落实自己的育儿工作。试想,若是老人年岁太大或者生病,又有谁可以解决低阶层女性的育儿需求呢?
20251207 💢 成色18k.8.35mb菠萝东契奇并不是佩林卡和湖人管理层唯一的议程。勒布朗-詹姆斯下赛季有一份价值5260万美元的球员选项,据报道他很可能会选择执行。xjxjxj18.gov.cn成员B: 是的,所以我想gRPO和PPO之间的高层次区别在于,PPO有一个价值函数。所以这对于那些没有大量GPU内存的人来说有一些优势,因为现在你不需要存储额外的价值函数权重。但与此同时,你正在进行更多的浮点运算,因为你必须为gRPO进行多次展开。所以存在一种浮点运算和内存之间的权衡。是的,是的。所以就像你可以训练模型,它不会内存溢出(oom),但训练会花费很长时间。而且,是的,最终,我觉得尤其是在这种数学代码的设置中,价值函数无论如何都不是非常准确的。就像你在做的,这又回到了PRM(概率路线图)的事情,你在模型中进行前向传递,它提供了一些价值。它并不是真的那么准确。所以它对你没有太大的帮助。相反,如果你只是进行多次展开,并取平均值并将其用作问题的价值,那么这比你将获得的价值更好。它更稀疏,但它确实有帮助。
📸 贾清江记者 吕信奎 摄
20251207 🔞 成色18k.8.35mb菠萝哨兵模式 全车 360 度环视监控全天候“站岗” 当人员靠近停留或检测到车辆震动时,将触发哨兵模式,识别到低风险事件时,中控屏弹窗显示告警动画警示可疑人员,防患于未然 识别到高风险事件时,会触发双闪鸣笛,同时手机推送报警提醒,记录下意外碰撞事件,实时记录,时刻守护;可以通过手机 App 查看高危报警视频沙地模式保电能力优化 开启强制保电后,系统会结合设置的目标 SOC,优化车辆的动力响应和保电能力,提高车辆的驾驶性www.zjzjzjzjzjy.gov.cn长三角国创中心也布局了多个概念验证平台。这家机构与上海市高质量孵化器——莘泽智星港共同聚焦生物医药产业,遴选具有前瞻性、引领性的早期创新项目。今年1月,非接触式超声血液流量计、罕见病智能辅助诊疗系统获得“NICE-莘泽智星港概念验证资金”支持,成为首批获资助项目,长三角国创中心与莘泽智星港分别出资440万元。中心还与闵行区合作,在“大零号湾”科技创新策源功能区共同培育早期创新项目。
📸 闫伟记者 齐文利 摄
🔞 北京时间6月20日,距离选秀大会只有不到一周的时间了,杨瀚森会在哪个位置被选中,无疑是值得关注的焦点之一。如今,关于他在NBA选秀的赔率已经出炉,目前来看,杨瀚森不被看好能进入前十,但有望成为首轮秀。www.8x8x.gov.cn






