首页 > 生活分享 > 免费教学 > 谷歌推Scenic:可识别视频内容 并生成详细描述

谷歌推Scenic:可识别视频内容 并生成详细描述

发布时间:2024-04-08 23:47:07来源: 15210273549

Scenic 是一个以注意力模型为重点的计算机视觉研究代码库。

⭐️ 提供 SOTA 模型和基线模型,以及共享库和项目。

⭐️ Scenic 采用 JAX 和 Flax 进行开发,为快速原型设计大规模视觉模型提供支持。

站长之家(ChinaZ.com) 4月7日 消息:Scenic 是谷歌推出的模型,一个专注于计算机视觉领域的代码库,主要用于研究基于注意力的模型。

该库提供了一系列共享的轻量级库,解决训练大规模视觉模型时常见的任务,并包含了几个使用这些库的问题特定训练和评估循环的项目。Scenic 使用 JAX 和 Flax 进行开发,支持开发人员在图像、视频、音频和多模态组合方面开发分类、分割和检测模型。Scenic能识别任意长度的视频内容,并生成详细描述。针对长视频,可以在处理完整个视频前,流式预测视频内容。

Scenic 提供了一些功能,包括用于启动实验、摘要编写、日志记录、性能分析等的样板代码;优化的训练和评估循环、损失函数、度量、双部分匹配器等;以及用于流行视觉数据集的输入管道和强大的非注意力基线模型。

在 Scenic 中,有一些 SOTA 模型和基线模型,这些模型可能是使用 Scenic 开发的,也可能是在 Scenic 中重新实现的。一些项目包括 ViViT、OmniNet、Attention Bottlenecks for Multimodal Fusion 等。此外,Scenic 还提供了一些重现的基线模型,如(ViT)An Image is Worth16x16Words、(DETR)End-to-End Object Detection with Transformers 等。

Scenic 的目标是促进大规模视觉模型的快速原型设计。为了保持代码简单易懂且易于扩展,Scenic 更倾向于通过复制粘贴而非增加复杂性或增加抽象来解决问题。只有当功能被证明在许多模型和任务中广泛有用时,才可能将其上游到 Scenic 的共享库中。

免费教学更多>>

车企大卷智能语音,很多司机仍然在“捣鼓”屏幕?别被眼睛给骗了 跃迁抢占“智高点” 一汽奥迪上海车展大秀“新实力” 2025上海车展前瞻:捷途山海L9旗舰6座SUV惊艳亮相 2025上海车展前瞻:福特F-150猛禽实车抢先看,细节升级更霸气 2025款江淮钇为3:宣称电池永不自燃,是黑马还是陪跑者 2025年乳源瑶族自治县医疗卫生类高层次及紧缺专业人才校园招聘补充公告 2025年4月深圳光明区政务服务和数据管理局招聘一般类岗位专干公告(5人) 2025年始兴县青年就业见习基地招募见习人员公告(8人) 2025年中山市港口镇水务事务中心招聘勤杂工公告(6人) 2025年秦皇岛卢龙县公安局招聘警务辅助人员公告 2025年4月深圳小学光明学校曙光校区、狮山校区赴济南定点面向2025年应届毕业生招聘教师公告 2025年中山翠亨新区翠雅学校初中教师招聘公告(17人) 2025年怀集县卫生健康局赴高校招聘卫生专业技术人员公告(74人) 2025年南雄市中小学、 幼儿园教师招聘及选聘公告(106人) 风云A9实车抵达上海车展现场!采用1.5T插混动力 2025款丰田埃尔法PHEV来袭,豪华MPV的环保新选择? 硬派越野邂逅极致智能 抢先实拍东风猛士M817 别克子品牌“至境” “逍遥”超级融合架构发布 长城打死不做增程!为啥要跟新势力反着来? 苹果:为什么我突然在中国对iPhone 16等降价!华为等国产手机背刺 2500元良心机!骁龙8Gen3+5500mAh+120W,vivo新卷王诞生 REDMI Turbo 4海外版曝光:电池降为6000mAh! 从4699元跌至3289元,蔡司100倍变焦+天玑9300+芯片,vivo售价更亲民了 雷鸟CEO李宏伟:站在Meta肩膀上超越Meta,雷鸟V3 1799元起 Meta、苹果旗舰头显纷纷停产!价格与体验失衡是最大硬伤? 2024年中国手机市场大局已定 几家欢喜几家愁? 英伟达RTX 50系新显卡发布!AI计算又翻开了崭新一页? 那些科学家下了大功夫的美食,拼多多希望让更多人吃到 京东科技申请服务器自动化测试方法和装置专利,实现大规模服务器自动化测试 阿里巴巴:斥资3226.13万美元回购306.53万股