当前位置：静雅生活网 > 数码百科 >

语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

来源：静雅生活网作者：萧萧发布时间：2021-09-29 14:41阅读次

导读：语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好长期以来，CNN 都是解决目标检测任务的经典方法。就算是引入了 Tran

　　网友提问：

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　优质回答：

　　长期以来，CNN 都是解决目标检测任务的经典方法。

　　就算是引入了 Transformer 的 DETR，也是结合 CNN 来预测最终的检测结果的。

　　但现在，Geoffrey Hinton 带领谷歌大脑团队提出的新框架Pix2Seq，可以完全用语言建模的方法来完成目标检测。

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　团队由图像像素得到一种对目标对象的 " 描述 "，并将其作为语言建模任务的输入。然后让模型去学习并掌握这种 " 语言 "，从而得到有用的目标表示。

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　最后取得的结果基本与Faster R-CNN、DETR相当，对于小型物体的检测优于 DETR，在大型物体检测上的表现也比 Faster R-CNN 更好，。

　　接下来就来具体看看这一模型的架构。

　　从物体描述中构建序列

　　Pix2Seq 的处理流程主要分为四个部分：

　　图像增强

　　序列的构建和增强

　　编码器 - 解码器架构

　　目标 / 损失函数

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　首先，Pix2Seq 使用图像增强来丰富一组固定的训练实例。

　　然后是从物体描述中构建序列。

　　一张图像中常常包含多个对象目标，每个目标可以视作边界框和类别标签的集合。

　　将这些对象目标的边界框和类别标签表达为离散序列，并采用随机排序策略将多个物体排序，最后就能形成一张特定图像的单一序列。

　　也就是开头所提到的对 " 描述 " 目标对象的特殊语言。

　　其中，类标签可以自然表达为离散标记。

　　边界框则是将左上角和右下角的两个角点的 X，Y 坐标，以及类别索引 c 进行连续数字离散化，最终得到五个离散 Token 序列：

　　研究团队对所有目标采用共享词表，这时表大小＝bins 数 + 类别数。

　　这种量化机制使得一个 600 × 600 的图像仅需 600bins 即可达到零量化误差，远小于 32K 词表的语言模型。

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　接下来，将生成的序列视为一种语言，然后引入语言建模中的通用框架和目标函数。

　　这里使用编码器 - 解码器架构，其中编码器用于感知像素并将其编码为隐藏表征的一般图像，生成则使用 Transformer 解码器。

　　和语言建模类似，Pix2Seq 将用于预测并给定图像与之前的 Token，以及最大化似然损失。

　　在推理阶段，再从模型中进行 Token 采样。

　　为了防止模型在没有预测到所有物体时就已经结束，同时平衡精确性（AP）与召回率（AR），团队引入了一种序列增强技术：

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　这种方法能够对输入序列进行增广，同时还对目标序列进行修改使其能辨别噪声 Token，有效提升了模型的鲁棒性。

　　在小目标检测上优于 DETR

　　团队选用 MS-COCO 2017 检测数据集进行评估，这一数据集中含有包含 11.8 万训练图像和 5 千验证图像。

　　与 DETR、Faster R-CNN 等知名目标检测框架对比可以看到：

　　Pix2Seq 在小 / 中目标检测方面与 Faster R-CNN 性能相当，但在大目标检测方面更优。

　　而对比 DETR，Pix2Seq 在大 / 中目标检测方面相当或稍差，但在小目标检测方面更优。

　　一作华人

　　这篇论文来自图灵奖得主 Geoffrey Hinton 带领的谷歌大脑团队。

　　一作 Ting Chen 为华人，本科毕业于北京邮电大学，2019 年获加州大学洛杉矶分校（UCLA）的计算机科学博士学位。

　　他已在谷歌大脑团队工作两年，目前的主要研究方向是自监督表征学习、有效的离散结构深层神经网络和生成建模。

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　论文：

　　https://arxiv.org/abs/2109.10852

　　— 完 —

　　榜单征集！6 大奖项锁定 AI TOP 企业

　　「2021 中国人工智能年度评选」报名中！本次评选将从公司、人物、产品三大维度寻找优秀的 AI 企业，欢迎大家扫码报名参与。评选将于 12 月揭晓，期待与百万从业者们，共同见证这些优秀企业的荣誉！

　　语言模型“不务正业”做起目标检测，性能还比 DETR、Faster R-CNN 更好

　　点这里关注我，记得标星哦～

　　一键三连「分享」、「点赞」和「在看」

　　科技前沿进展日日相见 ~

版权声明：本文部分来自互联网，由小编精心所写，本文地址：http://www.zhubian88.cn/smbk/15422.html，如需转载，请注明出处！

上一篇：武汉助孕_武汉助孕费用_一次成功

下一篇：水是怎么来的(海洋的水是从哪里来的)

请发表您的评论

全部评论（0）
最新最早

还没有评论，快来抢沙发吧！

联系我们

在线咨询：

微信号：weixin888

工作日：9:30-18:30，节假日休息