中午午休扇电扇的用途,待起 床时双脚不得力,这是什么病兆还是因受凉所制

Mishinov脑积水既可以是独立疾病也可鉯是多种病理的伴随症状,因此代表了当今临床实践中的紧迫问题。深度学习是一项不断发展的技术是更广泛的机器学习领域的一部汾。目前在放射学领域积极研究深度学习这项研究的目的是利用MRI图像评估深度学习在脑积水诊断中的适用性。我们回顾性地收集注释囷预处理了200例有无脑积水的放射学迹象的患者的脑部MRI数据。我们将最先进的深度卷积神经网络与转移学习方法结合使用来训练脑积水分类器模型使用深度卷积神经网络,我们获得了高质量的机器学习模型脑积水体征识别的准确性,敏感性和特异性分别为97、98和96在这项研究中,我们证明了使用大脑MRI图像的深层神经网络识别脑积水综合征的能力应用转移学习技术,尽管在相当有限的数据上进行了训练但仍实现了高质量的分类。

Jia我们通过探索边缘之间每个点及其上下文邻居之间的语义关系来实现3D语义场景标记除了用于预测点标签的编码器解码器分支之外,我们还构建了一个边缘分支以分层集成点特征并生成边缘特征为了在边缘分支中合并点特征,我们建立了一个分层嘚图框架其中图是从粗糙层初始化的,并沿着点解码过程逐渐丰富对于最终图中的每个边,我们预测一个标签以指示两个连接点的语義一致性以增强点预测。在不同的层边缘特征也被馈送到相应的点模块中,以集成上下文信息以增强本地区域中的消息传递。这两個分支相互交互并在细分中合作。在几个3D语义标签数据集上的体面实验结果证明了我们工作的有效性

Taylor当进行盆腔截骨术以进行术中导航时,计算机辅助手术系统通常使用术前CT扫描这些系统具有改善盆腔截骨术的安全性和准确性的潜力,但是将患者暴露于放射线是一個重大缺陷。为了减少辐射暴露我们提出了一种新的平滑外推方法,该方法利用局部骨盆CT和完整骨盆的统计形状模型SSM来估算患者的完整骨盆创建了正常,完整女性骨盆解剖结构的SSM,并从42位受试者中进行了评估进行了留一法测试以表征SSM的固有泛化能力。进行了额外的留一法测试以测量平滑外推法和现有的剪切和粘贴外推法的性能。通过保持患者髋臼的轴向切片完整并在总骨盆范围的0到15之间改变保留嘚上retained的数量来模拟未知的解剖结构与RMS剪切和粘贴方法相比,平滑技术在RMS和最大表面误差方面平均提高了1.31 mm和3.61 mm在保留5个the的情况下,平滑估算的表面的RMS表面误差为2.21 mm当不保留任何rest时,改善了1.25 mm这种解剖估计方法使患者和外科医生受益于CAS系统的使用,并同时减少了患者的辐射暴露

Taylor髋臼周围截骨术是治疗发展性髋关节发育不良的具有挑战性的外科手术,通过重新定位患者的髋臼提供更大的股骨头覆盖范围由于茬手术流程中经常使用荧光透视成像,因此切骨术和重新定位的髋臼碎片的计算机辅助X射线导航应该是可行的我们使用基于强度的2D 3D配准估计相对于透视图像的骨盆姿势,恢复多个视图的相对姿势并对可用于导航的地标进行三角剖分。现有的相似性指标无法始终如一地说奣术前完整骨盆与骨折骨盆术中实际情况之间的内在失配为了减轻这种不匹配的影响,我们不断估计每个像素与解决配准的相关性并將这些值用作基于补丁的相似性度量中的权重。与现有的基于补丁的方法相比将计算限制为随机选择的补丁子集可导致更快的运行时间。对随机碎片形状重定位和荧光透视图进行了仿真研究,与未修补和图像强度方差加权的平均误差分别为3 mm和2.8 mm相比所提出的方法在所有堺标上均实现了1.7 mm的平均三角剖分误差。分别修补相似性指标

MLP卷积应用更深的神经网络。但是在大量点上应用密集的MLP卷积,例如自动驾駛应用导致内存和计算效率低下为了实现高性能但降低复杂性,我们提出了一种称为ShufflePointNet的深层神经网络以利用细粒度的局部特征并使用組卷积和通道随机操作来减少并行冗余。与直接将MLP直接应用于点云的高维特征的常规操作不同我们的模型通过预先将特征分成几组而变嘚更宽,并且具有较小深度的每个组仅负责各自的MLP操作这可以降低复杂度并允许编码更有用的信息。同时我们通过改组特征通道中的組来连接组之间的通信,以捕获细粒度的特征我们认为,用于更广泛的神经网络的多分支方法也有利于点云的特征提取我们针对ModelNet40数据集上的形状分类任务和大规模数据集ShapeNet部分,S3DIS和KITTI上的语义分割任务进行了广泛的实验我们将进一步进行消融研究,并将我们的模型与其他先进算法的复杂性和准确性进行比较

Schnabel在过去的几十年中,基于模型的图像重建分析和解释方法取得了重大进展。这些方法很多都基于數学物理或生物学模型。这些方法的挑战是对基础过程的建模例如具有适当水平的细节和真实感的图像采集物理学或疾病的病理生理。随着大量成像数据和机器学习(尤其是深度学习技术)的可用性数据驱动方法已越来越广泛地用于重建,分析和解释的不同任务这些方法直接从加标签或未加标签的图像数据中学习统计模型,并已显示出从医学成像中提取临床有用信息的强大功能尽管这些数据驱动嘚方法通常优于传统的基于模型的方法,但它们的临床部署通常在鲁棒性泛化能力和可解释性方面提出挑战。在本文中我们讨论了哪些发展推动了从基于模型的方法向数据驱动的策略的转变,以及哪些潜在的问题与向纯数据驱动的方法(尤其是深度学习)的迁移相关峩们还将讨论数据驱动方法的一些开放挑战,例如泛化为新的看不见的数据例如转移学习,对抗攻击的鲁棒性和可解释性最后,我们鉯讨论这些方法如何导致以端到端的方式优化的更紧密耦合的成像管道的开发作为结束

Roberson图像中的照明效果(特别是阴影和阴影)已显示絀会降低深层神经网络在城市驾驶场景中大量基于视觉的检测,识别和分割任务上的性能造成此性能差距的一个关键因素是,实际的帶有标签的数据集中缺乏时间多样性。在将以前看不见的视觉效果转移到数据集中特别是在昼夜转换中,图像到图像转换领域取得了令囚瞩目的进步但是,要限制在训练过程中哪些视觉效果(更不用说照明效果)从一个数据集转移到另一个数据集并不容易为了解决这個问题,我们提出了一种称为“阴影转移”的深度学习框架该框架可以通过将逼真的阴影,阴影和其他照明效果转移到单个图像上来重噺照亮复杂的室外场景所提出的框架的新颖之处在于,它既可以自我监督又可以在自动车辆数据集中容易获得的传感器和标签信息上運行。我们在合成数据集和真实数据集上均显示了该方法的有效性并提供了实验,证明了该方法所产生的图像的视觉质量要高于现有技術到图像转换方法的水平

Li手术器械的语义分割在机器人辅助手术中起着至关重要的作用。然而由于镜面反射和类别不平衡问题,白内障手术器械的准确分割仍然是一个挑战在本文中,提出了一种新颖的网络来分割白内障手术器械它引入了注意力机制来改善特征表示。设计了一个新的注意力模块来学习区分功能它捕获全局上下文并编码语义相关性以强调关键的语义特征,从而增强了特征表示该注意模块的参数很少,有助于节省内存因此,它可以灵活地插入其他网络此外,引入了混合损失来训练我们的网络来解决类不平衡问题该问题融合了交叉熵和Dice损失的对数。构建了一个名为Cata7的新数据集来评估我们的网络据我们所知,这是第一个用于语义分割的白内障手術器械数据集基于此数据集,RAUNet的平均性能为97.71

Keuper最近基于深度学习的方法在对象分割任务上显示出了惊人的成功但是,仍然存在进一步改進的空间受生成对抗网络的启发,我们提出了一种通用的端到端对抗方法该方法可以与广泛的现有语义分割网络结合以提高其分割性能。我们方法的关键要素是将高分辨率的像素明智损失替换为常用的二进制对抗损失此外,我们采用随机加权平均方式训练我们的发电機这进一步增强了预测的输出标签图,从而带来了最新的技术成果我们显示,与基准模型相比像素明智的对抗训练和权重平均的这種组合导致了细分性能的显着且一致的提升。

DoF相机姿态估计尽管它们不能达到与基于视觉SLAM的方法相同的精度,并且受限于特定的环境泹它们的鲁棒性出色,甚至可以应用于单个图像在本文中,我们研究PoseNet 1并研究基于数据集特征的修改以提高姿态估计的准确性特别是,峩们强调视野对图像分辨率的重要性我们提出了一种数据增强方案来减少过度拟合,我们研究了长期短期记忆LSTM细胞的作用最后,我们結合了这些修改并改善了基于单眼CNN的相机姿态回归的PoseNet性能。

Sminchisescu能够控制外观姿势和形状参数的能力的人类产生高质量和几何上合理的合荿图像,对于从照片编辑时尚虚拟试戴到特殊效果和图像压缩等各种任务,已变得越来越重要在本文中,我们提出了HUSC这是一种人类匼成和场景合成框架,用于在新颖的姿势和场景中逼真地合成具有不同外观的人类我们公式的核心是对人和场景的3D推理,以便通过正确建模透视效果和遮挡考虑场景语义并适当处理相对比例来生成逼真的拼贴。从概念上讲我们的框架由三个部分组成:1是基于参数表示嘚具有可控姿势和外观的可控人体图像合成模型; 2是利用3d场景的几何形状和语义的人员插入过程; 3是外观合成过程以创建一个场景颜色与苼成的人类图像之间的无缝融合,并避免视觉伪影定性和定量结果都支持我们框架的性能,尤其是DeepFashion数据集的最新综合得分

Denzler景观是有意義的生态单元,在很大程度上取决于环境条件自从地球科学开始以来,景观与环境之间的这种依赖性就得到了关注并被注入描述气候,地质植被和地貌之间相互依赖性的概念模型中。在这里我们问是否可以根据相关环境条件从空间上对景观进行统计预测。为此我們采用了深度学习生成模型,以建立环境条件与Sentinel 2卫星的景观之间的关系我们训练了条件生成对抗网络,以根据一组气候地形和人为预測因素生成多光谱图像。生成的景观图像与真实图像具有许多特征基于景观斑块度量标准的结果(表明景观组成和结构)表明,所提出嘚生成模型创建的景观比基准模型更接近目标而总反射率和植被覆盖度得到了更好的预测。我们证明出于许多目的,所生成的景观在矗接应用于全球变化研究时表现得真实我们设想将机器学习作为一种工具来预测气候变化对景观空间特征的影响,同时评估其局限性和突破点

Cipolla在这项工作中,我们提出了一种新颖的方法来进行联合语义本地化和场景理解我们对工作的兴趣来自对定位算法的需求,这些算法不仅可以预测6个自由度的摄像机姿态还可以同时识别周围的物体并估算3D几何形状。这种功能对于与环境自动驾驶增强现实和机器囚技术交互的计算机视觉引导系统至关重要。特别是我们提出了一个两步过程。在第一步中我们训练卷积神经网络以共同预测每个像素的全局唯一实例标签和静态对象的每个实例的相应局部坐标,例如建筑 在第二步中,我们通过组合对象中心坐标和局部坐标来获取场景坐标并使用它们执行6 DoF相机姿态估计。我们对真实世界的CamVid 360和人工SceneCity自动驾驶数据集进行评估我们获得了比现有技术6 DoF姿态估计算法更小的岼均距离和角度误差,该技术基于直接姿态回归和所有数据集上场景坐标的姿态估计而构成我们的贡献包括将场景坐标回归作为两个单獨的对象实例识别和局部坐标回归任务来进行新颖的表述,并证明了我们提出的解决方案可以预测静态对象的精确3D几何形状并估计ii地图上楿机的6 DoF姿态其放大倍数更大。比以前通过场景坐标回归方法以及在iii轻量级近似3D地图(由3D图元构建的)(例如,构建对齐的长方体)上嘗试的数量级大几个数量级

Mei卷积神经网络CNN被认为是解决视觉识别问题的能力强大的一类模型。但是开发通用而强大的网络体系结构并非易事,这需要人类专家的大量努力在本文中,我们介绍了一种在可微体系结构搜索DAS模具上自动探索体系结构的新思路该体系具有通過梯度下降的有效搜索。具体来说我们提出了针对图像和视频识别的计划可区分架构搜索SDAS,可将训练期间的操作选择与计划很好地集成茬一起从技术上讲,体系结构或单元表示为有向图我们的SDAS以渐进和计划的方式逐渐将操作固定在图形的边缘,而不是一旦在现有DAS中完荿训练后就一步一步确定所有边缘的操作这可能会使体系结构变得脆弱。此外我们通过设计一些独特的操作来编码时空动态,并展示叻影响SDAS架构搜索的影响从而扩大了SDAS的搜索空间,尤其是用于视频识别的搜索空间在CIFAR10,Kinetics10UCF101和HMDB51数据集上进行了架构学习的广泛实验,与DAS方法相比其结果更为出色。更为明显的是我们的SDAS的搜索速度比DAS快2倍左右。当将CIFAR10和Kinetics10上的学习单元分别转移到大规模ImageNet和Kinetics400数据集时构建的网絡也优于几种最先进的手工结构。

Koroteev地质学家日常工作中最耗时的任务之一是对岩石进行描述尤其是在进行非常精确的描述时。在这里峩们提出了一种有助于最大程度提高地质学家效率并减少描述岩石时间的方法。我们描述了基于颜色分布分析和特征提取的方法的应用鉯及基于卷积神经网络的新方法。我们使用了几种著名的神经网络架构AlexNetVGG,GoogLeNetResNet并对其性能进行了比较。在使用GoogLeNet架构的验证集上算法的精喥高达95。所提出的算法中最好的算法可以在一分钟内以自动模式描述50

WiCV之所以组织起来主要是出于以下原因,以提高女性研究人员的知名喥加强他们之间的合作并为该领域的女性初级研究人员提供指导。在本文中我们将介绍过去几年的趋势报告,以及有关当前研讨会的演讲者出席者和赞助情况的统计摘要。

Wang在本文中我们提出了一种基于骨架的动作识别的耦合时空注意CSTA模型,旨在同时找出时空域中最具区分性的关节和帧常规方法通常认为骨骼序列中的所有关节或框架都同样重要,对于歧义和多余的信息而言这些关节或框架不那么偅要。为了解决这个问题我们首先通过两个子网分别为不同的关节和框架学习两组权重,这使模型能够关注相对信息丰富的部分然后,我们基于关节和框架的权重计算空间乘积以求出叉积。此外我们的CSTA机制可轻松插入现有的分层CNN模型CSTA CNN中以实现其功能。在最近收集的UESTC數据集和当前最大的NTU数据集上的大量实验结果表明我们提出的基于骨骼的动作识别方法的有效性。

Xie视觉本地化是移动机器人和自动驾驶Φ的关键问题一种解决方案是从数据库中检索具有已知姿势的图像,以对查询图像进行本地化但是,在条件急剧变化的环境中例如咣照变化,季节遮挡,动态物体基于检索的本地化受到严重阻碍,并成为一个具有挑战性的问题本文提出了一种基于多域图像翻译網络体系结构ComboGAN的领域不变特征学习方法。通过在另一个域的原始图像和翻译图像的编码特征之间引入特征一致性损失FCL我们能够训练编码器以自我监督的方式生成域不变特征。为了从数据库检索目标图像首先使用属于查询域的编码器对查询图像进行编码,以获得域不变特征向量然后,我们通过选择具有最相似的领域不变特征向量的数据库图像来进行检索我们在CMU Seasons数据集上验证了所提出的方法,该方法在高中精度场景的基于检索的本地化中表现优于基于学习的描述符

Taylor评估了执行未知解剖结构外推的几种方法。主要应用是增强可使用部分醫学图像或不完整解剖学医学图像的外科手术程序基于勒堡的面部颌骨牙齿移植就是这样一种程序。根据36个头骨和21个下颌骨的CT数据分別创建了解剖表面的统计形状模型。使用统计形状模型对不完整的表面进行投影以获得完整的表面估计。表面估计在已知真实表面的区域中显示出非零误差希望保留真实表面并无缝地合并估计的未知表面。现有的外推技术会导致从真实表面到估计表面的非平滑过渡从洏导致附加误差和美学上不太令人满意的结果。评估的三种外推技术是复制和粘贴表面估计值(非平滑基线)患者表面和表面估计值之間的羽化以及通过薄板样条生成的估计值,该样条是根据已知患者的表面估计值和相应顶点之间的位移训练的表面羽化和薄板样条曲线方法均可产生平滑过渡。但是羽化会破坏已知的顶点值。进行了遗漏的分析从遗留的患者中取出了5至50个已知的解剖结构,并通过提出嘚方法进行了估算薄板样条线方法产生的误差比其他两种方法小,与基线方法相比颅骨和下颌骨的平均顶点误差分别提高了1.46毫米和1.38毫米。

Hopcroft对抗训练已被证明是训练健壮模型以对抗对抗示例的最有效方法之一但是,对抗训练通常缺乏对看不见的数据的对抗性强健的概括最近的工作表明,经过对抗训练的模型可能更偏向于全局结构特征相反,在这项工作中我们想研究对抗训练的泛化与鲁棒的局部特征之间的关系,因为局部特征很好地概括了看不见的形状变化为了学习鲁棒的局部特征,我们开发了一种随机块随机RBS变换来分解正常对忼示例中的全局结构特征我们继续提出一种新的方法,称为对抗训练的鲁棒局部特征RLFAT该方法首先通过对RBS转换后的对抗示例进行对抗训練来学习鲁棒的局部特征,然后将稳健的局部特征转换为常规对抗示例的训练最后,我们在两个当前最先进的对抗训练框架中实施RLFAT在STL 10,CIFAR 10CIFAR 100数据集上进行的大量实验表明,RLFAT改进了对抗性强大的概括以及对抗性训练的标准概括此外,我们证明了我们的方法可以捕获对象的哽多局部特征从而更好地与人类感知保持一致。

Noble耳蜗植入物CIs是严重或严重听力损失患者的标准治疗方法最近的研究表明,听力结果与聑蜗内解剖结构和电极位置相关我们的小组已开发出图像引导CI编程IGCIP技术,该技术使用图像分析方法对植入前或植入后CT图像中的内耳结构進行分割并在植入后CT图像中定位CI电极。通过建议应停用哪些触点以减少已知会影响结果的电极相互作用这可以帮助听力学家进行CI编程。临床研究表明IGCIP可以改善CI接受者的听力结果。然而IGCIP相对于电极定位和耳蜗内部解剖分割这两个主要步骤的准确性的敏感性是未知的。茬本文中我们使用35个颞骨标本的常规CT和微型CT图像创建了一个地面真实数据集,以严格刻画这两个步骤的准确性并评估这些步骤中的不准确性如何影响总体结果。我们的研究结果表明当有植入前和植入后的临床CT可用时,IGCIP所产生的结果可与86.7名接受测试的受试者使用相应的基本事实得出的结果相媲美当只有植入后CT可用时,该数字为83.3这些结果表明,我们当前的方法对分割和定位错误具有鲁棒性而且可以對其进行改进。

Lin解释和高阶推理能力对于现实世界中具有不同级别的推理复杂性的视觉问题回答至关重要例如,与女孩一起玩耍的狗附菦的狗是什么对于用户理解和诊断系统的可信赖性很重要。当前在自然图像上的VQA基准仅具有准确性度量标准最终迫使模型利用数据集偏差,并且无法提供任何可解释的理由这在一定程度上阻碍了高级问答的发展。在这项工作中我们提出了一种新的HVQR基准,用于评估具囿三个可区分优点的可解释性和高级视觉问题推理能力1问题通常包含一两个关系三胞胎这要求模型具有多步推理能力以预测合理答案2我們对使用图像场景图和常识性知识库构建的多步推理过程进行了显式评估,3大规模知识库中的每个关系三元组在所有问题中仅出现一次這对经常尝试尝试解决现有网络的现有网络构成了挑战过度拟合已出现在训练集中的知识库,并强制执行模型以处理看不见的问题和知识倳实用法我们还提出了一种新的知识路由模块化网络KM网络,该网络将基于大型知识库的多步推理过程纳入了可视化问题推理广泛的数據集分析和与HVQR基准上现有模型的比较表明,我们的基准提供了可解释的评估全面的推理要求和VQA系统的实际挑战,以及我们的KM网络在准确性和解释能力方面的优越性

离线手写识别在过去的几十年中一直在不断发展。但是现有方法通常以自由格式文本数据集为基准,这些數据集倾向于高质量的图像和手写样式以及均质的内容在本文中,我们表明采用长期短期记忆LSTM层的先进算法由于其高度异构且词汇量不夠以及固有的特性因此不易推广到现实世界中的结构化文档(例如表单)此内容含糊不清。为了解决这个问题我们建议在基于LSTM的体系結构中利用内容类型。此外我们介绍了一种生成合成数据的过程,以训练该体系结构而无需昂贵的手动注释我们证明了我们的方法在具有挑战性的,真实的欧洲事故声明数据集上转录文本时的有效性

Heldmann我们为基于深度学习的图像配准提出了一种新颖的多级方法。最近发咘的基于深度学习的注册方法已针对多种任务显示出令人鼓舞的结果但是,这些算法仍限于相对较小的变形我们的方法通过引入一个哆级框架来解决此缺点,该框架类似于常规方法可以在不同尺度上计算变形场。由此首先获得粗略的水平对准,其随后在较细的水平仩得到改善我们证明了在吸气以呼气肺注册这一复杂任务上的方法。我们表明深度学习多级方法的使用可显着改善注册结果。

Lu现有的圖像特征提取方法主要基于图像的内容和结构信息很少考虑上下文语义信息。关于诸如场景和对象的某些类型的图像在网络上可用的圖像的注释和描述可以提供用于特征提取的可靠的上下文语义信息。在本文中我们基于在网络上可用的类似图像的注释和描述,介绍了圖像的新颖语义特征具体来说,我们提出了一种新方法该方法由两个连续的步骤组成,以提取我们的语义特征对于训练集中的每个圖像,我们首先从互联网上搜索前k个最相似的图像然后提取它们的注释描述,例如标签或关键字注释信息用于为每个图像类别设计一個滤波器组,并生成滤波器词码本最后,每个图像都由所有类别中过滤词出现的直方图表示我们在三个常用的场景图像数据集(即MIT 67,Scene15囷Event8)上评估了场景图像分类中建议功能的性能我们的方法通常会产生比现有特征提取方法更低的特征维。实验结果表明与基于视觉和基于标签的特征相比,与基于深度学习的特征相比所提出的特征具有更好的分类准确性。

RPN可以成对捕获身体和头部。引入了提案交叉筞略以生成两个部分的高质量提案作为培训的补充。然后可以有效地汇总已耦合提案的特征,以利用固有关系最后,开发了联合NMS模塊以进行可靠的后处理提议的框架称为Double Anchor R CNN,能够在拥挤的场景中同时检测每个人的身体和头部在具有挑战性的人体检测数据集上报告了朂新的技术成果。我们的模型在CrowdHuman上的对数平均未命中率MR为51.79pp在COCOPersons拥挤的子数据集上为55.01pp,在CrowdPose拥挤的子数据集上为40.02pp分别比之前的基线检测器高3.57pp,3.82pp和4.24pp我们希望我们简单有效的方法将成为坚实的基准,并有助于简化将来在拥挤的人类检测中的研究

He在本文中,我们为条件GAN提出了一種新颖的变分生成器框架以捕获语义细节以提高生成质量和多样性。条件GAN中的传统生成器只是将条件向量与噪声作为输入表示进行连接直接将其用于上采样操作。但是隐藏条件信息并未得到充分利用,尤其是当输入是类标签时因此,我们将变分推理引入生成器中鉯仅从条件输入中推断潜在变量的后验,这有助于实现用于图像生成的变量增强表示定性和定量的实验结果表明,所提出的方法优于现囿技术的方法并获得了逼真的可控图像

Pu诸如关键点估计之类的像素级密集预测任务由编码器解码器结构控制,其中作为重要组成部分的解码器是复杂且计算量大的相比之下,我们提出了一种称为FlatteNet的完全解码的自由像素级密集预测网络其中直接将由骨干网输出的高维张量展平以适合所需的输出分辨率。拟议的FlatteNet具有端到端的差异性通过删除解码器单元,FlatteNet需要更少的参数和更低的计算复杂度我们通过在MPII仩的人体姿势估计,PASCAL上下文上的语义分割以及PASCAL VOC上的对象检测方面的竞争性结果通过竞争性结果证明了所提出网络的有效性。我们希望所提出的FlatteNet可以作为当前基于主流解码器的像素级密集预测网络的简单而强大的替代方案

Gao使语言与视觉关系扎根对于各种语言和视觉应用至關重要。在这项工作中我们解决了两个基本的语言和视觉任务,即图像文本匹配和图像字幕并证明了神经场景图生成器可以学习有效嘚视觉关系特征,从而促进了语言与视觉关系的基础从而改善了两个最终应用。通过将关系特征与最新模型相结合我们的实验显示出對标准Flickr30K和MSCOCO基准的显着改进。我们的实验结果和分析表明关系特征提高了下游模型在最终视觉和语言应用中捕获视觉关系的能力。我们还證明了学习具有视觉相关关系的场景图生成器对关系特征的有效性的重要性

Kim细胞视频中的细胞事件检测对于长时间监控细胞行为至关重偠。与传统方法相比深度学习方法在捕获细胞事件方面已显示出巨大的成功,因为它们能够捕获细胞过程的更多判别特征特别地,利鼡在视频序列中可观察到的细胞事件变化的卷积长期短期记忆LSTM模型是用于细胞视频中有丝分裂检测的最新技术但是,它们的局限性在于確定输入序列长度(通常凭经验进行)并且需要准备大笔费用的带注释的训练数据集。我们提出了一种新颖的半监督方法用于有丝分裂检测的最佳长度检测,具有两个关键作用:一个非监督步骤用于学习正常阶段细胞的空间和时间位置,并估算细胞事件的时间长度分咘并且从该分布推断出用于训练每个特定视频的LSTM模型的最佳输入序列长度和最少数量的带注释帧。我们在相衬显微镜视频中评估了在密集包装的干细胞中检测有丝分裂的方法我们的实验数据证明,增加LSTM的输入序列长度会导致性能下降我们的结果还表明,通过近似测试視频的最佳输入序列长度仅训练了18个带注释帧的模型的F1分数为0.880 0.907,这比其他公开方法(含110个带注释的训练集)的F1分数高10帧

Lovell肾脏直接免疫熒光DIF标本中的肾小球或滤袋的状况是诊断肾脏疾病的关键指标。数字病理系统将玻璃组织学玻片数字化为整个玻片图像WSI然后自动检测并放大具有较高放大倍率的肾小球,这对病理学家将非常有帮助本文以肾小球检测为研究案例,对一些重要问题进行分析和观察以帮助開发用于处理WSI的计算机辅助诊断CAD系统。较大的图像分辨率较大的文件大小和数据稀缺总是很难解决的。为此我们首先根据图像下采样率对检测精度的影响来进行研究。其次我们检查图像压缩的影响。第三我们检查训练集的大小和检测精度之间的关系。为了解上述问題我们对最先进的检测器Faster R CNN,R FCNMask R CNN和SSD进行了实验。观察到了关键的发现1检测精度检测速度和文件大小之间的最佳平衡是使用40倍目标压缩捕獲的8倍下采样获得的2压缩显着减小了文件大小,并不一定会对总体准确性产生不利影响3减小训练数据的数量在一定程度上导致精度下降泹对召回率的影响可忽略不计4,Faster R CNN在肾小球检测任务中获得最佳准确性我们显示,可以将40倍WSI图像的图像文件大小减少6000倍而肾小球检测准確性的损失可忽略不计。

Sigal多模态学习尤其是在图像和语言模态中,在从语言基础到密集事件字幕的许多高级基本视觉理解问题上取得了驚人的进步但是,许多研究仅限于要么根本不考虑与视频相对应的音频要么为声音或声源定位服务而对视听相关性进行建模的方法。茬本文中我们提供了证据,当涉及高级视觉语言任务时音频信号可以携带大量信息。具体来说我们关注视频中弱监督密集事件字幕嘚问题,并表明音频本身可以与最先进的视觉模型的性能相媲美并且与视频相结合可以改善最新的性能。在ActivityNet Captions数据集上的大量实验表明峩们提出的多模式方法优于现有的单模式方法,并且可以验证特定的特征表示和体系结构设计选择

Reid我们提出了利用二值化权重和激活性來训练卷积神经网络CNN的方法,从而导致了量化模型该模型特别适合功率能力和计算资源有限的移动设备。先前有关CNN量化的工作通常试图使用一组离散值来近似浮点信息我们称之为值近似,通常假设与全精度网络具有相同的体系结构在这里,我们采用一种新颖的量化结構近似视图很可能为低位网络设计的不同体系结构可能会更好地实现良好的性能。特别是我们提出了一种称为组网的网络分解策略,該策略将网络划分为多个组因此,通过聚集一组同构的二进制分支可以有效地重建每个全精度组此外,我们学习了群体之间的有效联系以提高代表能力此外,建议的Group Net对其他任务也具有很强的概括性例如,我们通过将丰富的上下文嵌入到二进制结构中来扩展Group Net以进行准確的语义分割此外,我们第一次将二进制神经网络应用于对象检测分类,语义分割和对象检测任务的实验证明了所提出的方法在文献Φ的各种量化网络上的优越性能在准确性和计算效率方面,我们的方法优于以前最好的二进制神经网络

Liu我们考虑了噪点图像的修复问題。在处理图像修复时抑制噪声非常困难。提出了一种基于图像补丁的非局部变分方法来同时修复和去噪我们的方法是在假设小图像塊应服从可以由高维高斯混合模型描述的分布的假设下开发的。通过最大后验MAP估计我们根据混合模型的对数似然函数制定了新的正则化項。为了有效地优化此正则项我们采用了Expectation Maximum EM算法的想法。其中期望步骤可以给出自适应加权函数,该加权函数可以被视为像素之间的非夲地连接利用这一事实,我们建立了一个在噪声下进行非局部图像修复的框架此外,我们在数学上证明了所提出的修复模型存在最小囮器通过使用分散算法,该模型能够同时实现图像修复和去噪数值结果表明,该方法可以在修复区域较大时产生令人印象深刻的重建效果

TV正则化器和体积保留功能集成到正则化的最优运输模型中,并且可以将体积和分类约束视为最优运输问题中保留约束的两种措施通过研究对偶问题,我们为模型开发了一种简单有效的对偶算法此外,与许多基于变分的图像分割算法不同该算法可直接展开到新的“体积保留和电视正则化softmax VPTV softmax”层,以在流行的深度卷积神经网络DCNN中进行语义分割实验结果表明,我们提出的模型具有很强的竞争性可以提高许多语义分割网的性能,例如流行的U网

DeepPrint将指纹对齐域知识(包括对齐和细节检测)整合到深度网络体系结构中,以最大程度地发挥其表示能力紧凑的DeepPrint表示相对于流行的可变长度细节表示具有多个优点,后者需要计算上昂贵的图形匹配技术ii难以使用强大的加密方案(例如,同构加密并且iii在细节提取不可靠的劣质指纹中具有较低的判别能力。我们根据NIST和FVC评估中两个最出色的COTS SDK 98.85的速度要快得多秒。就峩们所知DeepPrint表示形式是学术文献中报告的最紧凑和最具区别性的固定长度指纹表示形式。

SGM方法已被证明是用于有效深度估计的最广泛使用嘚算法之一可以在精度和计算复杂性之间取得良好的平衡。但是SGM仅对一阶平滑度假设建模,因此倾向于正面平行曲面在这项工作中,我们提出了一种分层算法该算法允许有效的深度和法线贴图估计以及每个估计的置信度。我们的算法依赖于平面扫描多图像匹配然後是扩展的SGM优化,该优化允许并入局部表面方向从而在由倾斜的航空影像所固有的倾斜表面组成的区域中实现了更加一致和准确的估算。我们使用绝对和相对精度度量对两个不同的数据集评估算法的众多配置在我们的评估中,我们证明了我们方法的结果与通过Motion SfM管道(例洳COLMAP)的精制结构所实现的结果可比后者是为脱机处理而设计的。但是相比之下,我们的方法仅考虑输入序列的受限图像束因此允许鉯1Hz 2Hz进行在线和增量计算。

Seung我们显示通过深度度量学习学习到的密集体素嵌入可用于从3D电子显微镜图像产生神经元的高精度分割可以根据卷积网络生成的密集嵌入来构造任意一组短边和长边的度量图。将具有远距离亲和力的度量图划分为排斥性约束可以产生具有高精确度的初始分割并且对非常薄的对象进行了实质性的改进。卷积嵌入网络无需修改即可重复使用以凝聚由复杂的自接触物体引起的系统性分裂。我们提出的方法在通过串行截面电子显微镜获取的大脑图像中对3D神经元重建这一具有挑战性的问题上实现了最先进的准确性我们的替代性,以对象为中心的表示形式可能对自动神经电路重构中的其他计算任务更为有用

Prasad糖尿病性视网膜病是一个严重的健康问题,影响铨世界1亿人而且预计这一数字还会上升,特别是在亚洲糖尿病性视网膜病是一种慢性眼病,可导致不可逆的视力丧失考虑到视网膜圖像的视觉复杂性,糖尿病性视网膜病变的早期诊断对人类专家可能具有挑战性但是,早期发现糖尿病性视网膜病可以大大避免永久性視力丧失计算机辅助检测系统准确有效地检测糖尿病性视网膜病变的能力已在研究人员中普及。在这篇评论文章中文献搜索是在PubMed,Google ScholarIEEE Explorer仩进行的,重点是使用机器学习或深度学习算法的计算机辅助检测糖尿病性视网膜病变此外,本研究还探讨了用于糖尿病视网膜病变计算机辅助诊断的典型方法本文旨在指导研究人员当前方法的局限性,并确定该领域的特定领域以促进未来的研究

N.Ngan类激活图CAM基于分类网絡突出显示类的区域,该类网络广泛用于弱监督任务中但是,面临的问题是类激活区域通常较小且局部。尽管为第二步所做的一些努仂已使CAM生成步骤部分地增强了生成但我们认为,这种问题也是由第一步训练步骤引起的因为在整个类上训练的单个分类模型包含限制對象区域的有限区分信息萃取。为此本文通过使用多个分类模型解决了CAM的生成问题。为了形成承载不同判别信息的多个分类网络我们嘗试捕获类之间的语义关系以形成不同语义级别的分类模型。具体而言基于类关系的层次聚类用于形成层次聚类结果,其中聚类级别被視为语义级别以形成分类模型此外,提出了一种新的正交模块和基于两分支的CAM生成方法来生成正交且互补的类区域我们使用PASCAL VOC 2012数据集来驗证所提出的方法。实验结果表明我们的方法改善了CAM的生成。

Li使用计算机断层扫描CT成像对肺腺癌的病理学浸润性进行早期诊断将改变腺癌的治疗过程从而改善预后。大多数现有系统仅使用常规的放射线学功能或深度学习功能来预测侵袭性在这项研究中,我们探索了两種功能的融合并声称放射线学功能可以与深度学习功能互补。提出了一种有效的深度特征融合网络以利用两种特征之间的互补性,从洏提高了入侵性预测结果我们收集了一个私人数据集,其中包含来自合作医院的676例患者的肺部CT扫描这些患者分为四种侵入性类型。对這个数据集的评估证明了我们建议的有效性

Vanhatalo婴儿的自发运动反映了大脑网络的完整性,因此也预测了更高认知功能的未来发展早期识別运动发育受损的婴儿有望为早期治疗提供指导,以改善终生的神经认知结果然而,以客观和定量的方式评估运动表现一直是一项挑战新颖的可穿戴技术已显示出有望在运动评估中提供高效,可扩展和自动化的方法在这里,我们描述了一种婴儿可穿戴多传感器智能連身衣的开发,该连身衣允许在独立运动中收集移动数据然后,使用多个人类注释对基于卷积神经网络CNN的深度学习算法进行了训练这些注释在运动分类中纳入了本质上的固有歧义。我们还量化了人类观察者的实质模糊性从而将其转移到改进自动分类器中。对不同传感器配置和分类器设计的比较表明四肢记录和端到端CNN分类器体系结构可实现最佳运动分类。我们的结果表明可以以人类等效的精度对独竝运动的活动进行定量跟踪,即它符合婴儿姿势和运动分类中人与人之间的协议水平

Yang现有的使用生成对抗方法进行零镜头学习ZSL的方法旨茬通过单一生成网络从类语义中生成逼真的视觉特征,而该网络受到严重限制结果,先前的方法不能保证所生成的视觉特征能够如实反映相应的语义为了解决这个问题,我们提出了一种新的方法称为零散学习CANZSL的循环一致对抗网络。它鼓励视觉特征生成器从语义上合成現实的视觉特征然后通过语义特征生成器将合成后的视觉特征逆转换回相应的语义空间。此外本文考虑了更具挑战性和实用性的ZSL问题,其中原始语义来自带有不相关单词的自然语言而不是先前工作中广泛使用的纯语义。具体来说训练多模式一致双向生成对抗网络,鉯利用自然语言中的噪声来处理看不见的实例从一个文本描述到多个视觉特征的正向一对多映射与从视觉空间到语义空间的反向多对一映射相结合。因此可以学习并利用合成语义表示和基本事实之间的多模式循环一致性损失,并强制实施生成的语义特征以近似于语义空間中的实际分布进行了广泛的实验以证明我们的方法在基于自然语言的零击学习任务上始终优于最新方法。

SLAM系统都是基于几何形状的必须针对不同的应用场景进行精心设计。而且大多数单眼系统遭受水垢漂移问题。最近的一些深度学习工作以端到端的方式学习VO但是這些深度系统的性能仍无法与基于几何的方法相提并论。在这项工作中我们将重温VO的基础知识,并探索将深度学习与对极几何和Perspective n Point PnP方法相集成的正确方法具体来说,我们训练了两个卷积神经网络CNN来估计单视深度和两视光流作为中间输出通过深入的预测,我们设计了一种簡单但健壮的逐帧VO算法DF VO其性能优于纯基于深度学习和基于几何的方法。更重要的是我们的系统不会受到比例尺一致的单一视图深度CNN辅助的比例尺漂移问题的困扰。在KITTI数据集上进行的广泛实验显示了我们系统的鲁棒性详细的消融研究显示了我们系统中不同因素的影响。

Pedersoli數据增强DA是防止大型卷积神经网络过度拟合的基础尤其是在训练数据集有限的情况下。在图像中DA通常基于启发式变换,例如几何或颜銫变换我们的工作不是使用预定义的变换,而是通过学习使用结合了空间变换器网络的编码器-解码器体系结构来变换图像直接从训练數据中学习数据增强。变换后的图像仍然属于同一类但是对于分类器来说是新的,更复杂的样本我们的实验表明,我们的方法比以前嘚生成数据增强方法更好并且在训练图像分类器时可与预定义的转换方法相媲美。

Kalkan两级深物体检测器在第一阶段生成一组感兴趣区域RoI嘫后在第二阶段在提议的RoI中识别与地面真实GT框充分重叠的物体。众所周知第二阶段的RoI偏向于与联合IoU与关联的GT盒的交点较低。为了解决这個问题我们首先提出一种采样方法来生成与给定参考框重叠超过给定IoU阈值的边界框BB。然后我们使用这种BB生成方法来开发一个正的RoI pRoI生成器,该生成器会在第二阶段按照任何所需的空间或IoU分布生成RoI我们证明了我们的pRoI生成器能够为正面示例模拟其他采样方法,例如硬示例挖掘和原始采样使用我们的生成器作为分析工具,我们表明i IoU不平衡对性能有不利影响ii硬正例挖掘仅针对某些输入IoU分布会提高性能,并且iii湔景类之间的不平衡对性能有不利影响并且可以在批次级别上减轻它最后,我们使用pRoI发生器训练Faster R CNN与传统训练相比,对于低IoU可获得更好嘚性能或同等的性能而对于较高IoU则可获得显着的改进,例如对于IoU 0.8mathrm mAP 0.8提高了10.9。该代码将公开提供

Feng生成式对抗网络GAN在生成各种视觉内容方媔已展示出巨大的成功。然而由现有GAN生成的图像通常具有例如从一个图像域获知的微笑表情的属性。结果生成具有多个属性的图像需偠具有多个属性的许多真实样本,这些样本的资源收集非常昂贵在本文中,我们提出了一种新颖的GAN即IntersectGAN,以通过相交的体系结构从不同嘚图像域中学习多个属性例如,给定两个具有特定属性的图像域X1和X2则X1和X2的交集是一个新域,其中图像同时具有来自X1和X2域的属性提出嘚IntersectGAN由两个鉴别器D1和D2组成,以区分不同域的生成样本和真实样本以及三个生成器,其中交叉生成器针对两个鉴别器进行训练并且在三个苼成器上定义了总体对抗损失函数。结果我们提出的IntersectGAN可以在多个域上训练,每个域都呈现一种特定的属性并最终消除了同时具有多个屬性的真实样本图像的需求。通过使用CelebFaces Attributes数据集我们提出的IntersectGAN能够生成具有多个属性的高质量人脸图像,例如一头黑发和表情微笑的人脸。进行了定性和定量评估以将我们提出的IntersectGAN与其他基线方法进行比较。此外已经探索了IntersectGAN的几种不同应用,并取得了可喜的结果

Richard考虑到末端成员EMs的可变性,多末端成员光谱混合分析MESMA是执行光谱分解SU的主要方法之一它使用先验获得的光谱特征库表示图像中的每个末端成员。但是现有的光谱库通常很小,并且无法在实际场景中正确捕获每个终端成员的可变性这大大损害了MESMA的性能。在本文中我们提出了┅种图书馆扩充策略,以改善现有光谱图书馆的多样性从而提高其在真实图像中表示材料的能力。首先所提出的方法利用深层生成模型DGM的功能,根据现有库中可用的光谱特征来学习端成员的统计分布之后,可以从学习到的EM分布中提取新样本并将其用于扩展光谱库,從而提高解混过程的整体质量使用合成数据和真实数据进行的实验结果证明,即使在库不匹配条件下该方法也具有出色的性能。

Liu自然嘚图像消光是计算机视觉和图形中的重要问题当仅输入图像可用而没有任何外部信息时,这是一个不适的问题尽管最近的深度学习方法显示出令人鼓舞的结果,但它们仅估计了alpha遮罩本文提出了一种同时感知前景和alpha遮罩的上下文感知自然图像遮罩方法。我们的方法采用兩个编码器网络来提取用于遮罩的基本信息特别是,我们使用消光编码器来学习局部特征并使用上下文编码器来获取更多的全局上下攵信息。我们将这两个编码器的输出连接起来并将它们输入解码器网络,以同时估计前景和alpha遮罩为了训练整个深度神经网络,我们同時使用了标准的拉普拉斯损失和特征损失前者有助于实现较高的数值性能,而后者则导致更合理的结果我们还报告了几种数据增强策畧,这些策略极大地提高了网络的泛化性能我们的定性和定量实验表明,我们的方法可以为单个自然图像实现高质量的抠图

Naderi本文提出叻一种新的提取图像低层特征的方法,即混合直方图MH用于基于内容的图像检索。由于颜色和边缘方向特征是帮助人类视觉系统感知和区汾不同图像的重要视觉信息因此该方法提取并整合颜色和边缘方向信息,以测量不同图像之间的相似性传统的颜色直方图仅关注图像Φ颜色的全局分布,因此无法提取其他视觉特征 MH试图通过提取边缘方向以及颜色特征来克服此问题。 MH的独特特征是它有效地考虑了颜色囷边缘方向信息实验结果表明,它优于许多最初为图像检索目的而开发的现有方法

Authors Mohammad Rezaei, Nader Naderi完全卷积网络FCN最近已用于图像和语音识别中的特征提取和分类,其输入是原始信号或其他复杂特征波斯语签名验证是使用常规的卷积神经网络CNN进行的。在本文中我们建议使用FCN从原始签洺图像中学习鲁棒的特征提取。 FCN可以被视为CNN的变体其中其完全连接的层被全局池化层替代。以提议的方式FCN输入是原始签名图像,并且卷积滤波器的大小是固定的 UTSig数据库的识别准确性表明,具有全局平均池的FCN优于CNN

Gao三维医学图像分割是医学图像分析中最重要的问题之一,在下游诊断和治疗中起着关键作用近年来,深度神经网络在医学图像分割问题上取得了突破性的成功但是,由于仪器参数实验规程和主题外观的高度差异,不同机器和医院生成的医学图像的不一致常常会阻碍深度学习模型的泛化在这项工作中,我们提出了StyleSegor这是┅种有效且易于使用的策略,可以缓解这种不一致的问题具体而言,将神经样式转移算法应用于未标记的数据以最小化标记和未标记嘚数据之间的图像属性(包括亮度,对比度纹理等)的差异。我们还将对网络输出进行概率调整并通过集成学习整合多个预测。在来洎MICCAI HVSMR 2016挑战赛的公开可用的全心分割基准数据集上我们证明了提高的骰子准确性超过了当前的最新方法,并且值得注意的是总得分提高了29.91。因此StyleSegor被证实是3D全心分割的准确工具,尤其是在高度不一致的数据上并且可以在

Chen在资源受限的嵌入式系统上开发对象检测和跟踪具有挑战性。尽管对象检测是人工智能领域中计算量最大的任务之一但仅允许在嵌入式设备上使用有限的计算和内存资源。同时通常需要這种资源受限的实现方式来满足额外的苛刻要求,例如实时响应高吞吐性能和可靠的推理精度。为了克服这些挑战我们提出了SkyNet,这是┅种硬件有效的方法可以为嵌入式系统提供最先进的检测精度和速度。 SkyNet并没有遵循通用的自上而下的流程来进行紧凑的DNN设计而是提供叻一种自下而上的DNN设计方法,该方法从一开始就全面了解硬件约束从而提供了高效的硬件DNN。通过在第56届IEEE ACM设计自动化大会DAC 10K是最近在野外进荇通用对象跟踪的大规模高多样性基准对于采用ResNet 50作为主干的最新对象跟踪器SiamRPN和SiamMask,在1080Ti GPU和37.20X上运行时使用我们的SkyNet作为主干DNN的实现速度分别提高了1.60倍和1.73倍,且具有更好或相似的精度在参数大小方面较小,可显着改善内存和存储空间

Xiao单幅图像除雨的大多数进步都遇到了一个关鍵挑战,那就是在保留图像细节的同时消除具有不同比例和形状的雨条纹现有的单图像除雨方法将去除雨水条纹视为直接逐像素回归的過程。然而他们缺乏挖掘过雨之间的平衡。去除无雨区域和下雨天的纹理细节例如留下雨痕。在本文中我们首先提出了一种由粗到精组成的由粗到精的网络,称为渐变网络GraNet用于研究不同粒度的单个图像去雨。具体而言为了揭示粗粒雨纹特征,例如长而厚的雨条会形成雨滴我们通过一个由区域感知块组成的局部全局子网络,利用局部全局空间相关性提出了一个粗略阶段。将残留结果作为多雨图潒样本(即输入数据)与粗糙级(即学习的防雨罩)的输出之间的粗雨除结果作为输入通过去除细雨纹例如细线继续细雨。小雨条纹和沝雾通过具有密集块和合并块的统一上下文合并子网络获得无雨量且重建良好的输出图像对合成和真实数据进行的固体和全面实验表明,我们的GraNet通过去除各种密度比例和形状的雨水条,同时保持良好的无雨区图像细节可以大大优于现有方法。

ID模型通常依赖于大量带标簽的训练数据这对于现实世界的应用是不切实际的。为了减轻这种局限性研究人员现在将目标对准了交叉数据集re ID,该数据集着重于在給定标记源域数据集时将对非标记目标域的判别能力概括化为了实现这个目标,我们提出的姿势分解和适应网络PDA Net旨在学习正确解开姿势囷领域信息的深度图像表示借助学习到的跨域姿势不变特征空间,我们提出的PDA Net能够跨域执行姿势解缠而无需对身份进行监督,并且可鉯将所得特征应用于跨数据集re ID我们在两个基准数据集上的定性和定量结果都证实了我们方法的有效性及其相对于最新的交叉数据集Re ID方法嘚优越性。

Cohen制造业的数字化为消费者创造了机会来定制满足其个性化需求的产品从而推动了对制造业服务的需求。但是这种基于拉式嘚制造系统生产的产品数量极少且种类繁多,实施起来非常昂贵由数据驱动的计算设计,制造即服务市场和启用数字的微型工厂驱动的設计自动化中的新兴技术有望使创??新民主化在本文中,我们确定了科学技术和基础设施方面的挑战,如果解决了这些挑战则将討论这些新兴技术对产品创新和未来工厂组织的影响。

Abot图像猜测游戏并显示了这种自言自语的方法可以改善下游对话框条件图像猜测任務的性能。但是经过几轮交互后,这种改进会饱和并开始降低性能并且不会带来更好的Visual Dialog模型。我们发现这部分归因于Qbot和Abot在自言自语過程中的反复交互,这对图像没有帮助为了改善这一点,我们设计了一个简单的辅助目标该目标可以激励Qbot提出各种问题,从而减少重複从而使Abot在RL期间探索更大的状态空间。接触更多的视觉概念来谈论并回答各种问题。我们通过一系列自动指标和人工研究来评估我们嘚方法并证明它可以带来更好的对话。对话框更加多样化即??。少重复一致。具有较少的冲突交流即流利。更加人性化和细化同时仍具有与先前工作和消融相关的可比图像。

Suhr等人2019年经过精心设计,可通过数据收集过程来应对语言偏见该过程导致每个自然语訁句子都显示真假标签。该过程没有提供类似的视觉偏见控制措施本技术报告分析了NLVR2中视觉偏见的可能性。我们表明可能存在一些视觉偏见最后,我们确定了测试数据的一个子集该子集允许以对此类潜在偏差具有鲁棒性的方式测试模型性能。我们显示Li等人(2019 Tan和Bansal 2019)的現有模型的性能相对于此潜在偏差而言相对稳健。我们建议将对此数据子集的评估添加到NLVR2评估协议中并更新正式版本以将其包括在内。包含用于复制此分析的代码的实现的笔记本可在以下位置获得:

Hussain嘈杂的环境给听力损失带来了巨大的麻烦因为助听器通常会使信号更容噫听见,但并不总能使用户理解在嘈杂的环境中,人类通常会利用语音的视听AV特性来选择性地抑制背景噪声并集中在目标讲话者身上茬本文中,我们提出了一种因果关系语言,噪声和说话者无关的AV深度神经网络DNN架构用于语音增强SE。该模型利用了嘈杂的声音提示和强夶的噪声视觉提示将注意力集中在所需的说话者上并提高了语音清晰度。为了评估提议的SE框架首先在包括餐厅和餐厅在内的实际嘈杂環境中记录称为AVIRE的AV双耳语音语料库。我们在客观的测量方法和主观的听力测试方面证明了我们的方法在最先进的SE方法以及最近基于DNN的SE模型方面的卓越性能此外,我们的工作挑战了一种普遍的观念即缺乏多语言的大词汇量AV语料库和各种各样的噪音是建立强大的语言,说话鍺和噪音独立的SE系统的主要瓶颈我们显示了一个模型,该模型在网格语料库与33个说话者和一个小的英语词汇以及ChiME 3噪声的合成混合物上进荇训练该噪声仅由公共汽车,行人自助餐厅和街道噪声组成,不仅适用于大型词汇集而且适用于完全不相关的语言例如普通话,各種说话者和杂音

Shi对于移动机器人而言,安全高效的人群导航是一项至关重要而又充满挑战的任务先前的工作表明了深度强化学习框架對培训有效政策的强大作用。但是随着人群的增加,他们的表现会下降我们建议可以通过使网络能够识别并关注人群中对导航最关键嘚人员来解决此问题。我们提出一种利用图形表示来学习策略的新型网络我们首先训练基于人类凝视数据的图卷积网络,该网络可准确預测人类对人群中不同主体的关注然后,我们将学习到的注意力整合到基于图的强化学习架构中所提出的注意力机制能够将有意义的權重分配给机器人的邻居,并具有可解释性的其他好处在具有各种人群大小的现实世界中密集的行人数据集上进行的实验表明,我们的模型在任务完成方面的性能达到了18.4在时间效率方面则达到了16.4。

Saukh当今的深层神经网络需要大量的计算资源来进行训练存储和推理,这限淛了它们在资源受限的设备上的有效使用一方面,许多近期的研究活动探索了压缩和优化深度模型的不同选择另一方面,在许多实际應用中我们面临类不平衡的问题,例如压缩网络产生的大量误报是可以忍受的但误报的数量必须保持较低。该问题源于训练数据集内鈈平衡样本的固有性质或者源于某些类别对于模型的应用领域更重要的事实,例如在医学成像中在本文中,我们提出了一种基于类的網络压缩方法该方法基于一种新引入的网络修剪技术,该技术用于在原始深层网络中搜索彩票我们引入了一种新颖的组合损失函数,鉯找到与原始网络相比具有相同甚至更低数量的假阴性的高效压缩子网我们使用三个基准数据集进行的实验评估表明,压缩后的子网络朂多可以减少50个错误否定的错误数并实现更高的AUC ROC量度,但与原始网络相比最多可以减少99个参数。

Othmani人机交互中的情商已经吸引了多学科研究领域的研究人员越来越多的关注这些领域包括心理学,计算机视觉神经科学,人工智能以及相关学科人类倾向于与计算机面对媔自然互动。人为表达是更好地将人与计算机联系起来的重要关键因此,设计能够理解人类表达和情感的界面可以改善人机交互HCI以实現更好的沟通。在本文中我们通过用于面部表情识别FER的深度多面部补丁聚合网络研究了HCI。从面部部位提取深层特征并汇总以进行表情分類一些问题可能会影响所提出框架的性能,例如FER数据集的大小较小以及要学习的参数数量很大为此,提出了两种用于面部表情生成的數据增强技术以扩展标记的训练。在扩展的Cohn Konade数据集CK上评估了提出的框架并获得了可喜的结果。

Guo对于患有心血管疾病的患者将支架植叺冠状动脉是一种常见的治疗选择。通过人工目视检查血管内光学相干断层扫描IVOCT图像中的新内膜覆盖范围可以评估支架植入的安全性和囿效性。然而这种手动评估需要检测支架内的数千个支撑点。这是一项具有挑战性乏味且耗时的任务,因为支撑点通常显示为具有不均匀纹理的不规则形状的小物体并且经常被阴影,伪影和血管壁遮挡基于纹理,边缘检测或用于自动检测IVOCT图像中支撑点的简单分类器嘚常规方法具有较低的查全率和准确性无法充分表示要检测的支撑点的视觉特征。在这项研究中我们提出了一个本地全局优化网络,鉯将本地补丁内容与全局内容集成在一起以从IVOCT图像中检测支撑点。我们的方法密集地检测局部图像补丁中的潜在支撑点然后根据全局外观约束对其进行精炼以减少误报。我们在7,000个IVOCT图像的临床数据集上的实验结果表明我们的方法优于最新方法,召回点检测的召回率为0.92精确度为0.91。

Spanakis徽标合成等领域(其中的数据具有高度的多模态性)仍然对生成对抗网络GAN构成挑战最新研究表明,渐进式训练ProGAN和映射网络扩展StyleGAN既可以提高针对较高维度问题的训练稳定性又可以在嵌入式潜在空间内实现更好的特征分离。但是这些体系结构对网络输出整形的控制有限,这在徽标合成的情况下是不希望有的特征本文探索了对StyleGAN体系结构的条件扩展,其目的是首先改进先前研究的低分辨率结果其次通过使用合成类条件提高输出的可控制性。此外以人类的可解释性为重点,探索了提取此类分类条件的方法其中的挑战在于,从夲质上来说视觉徽标特征很难定义。引入的基于条件样式的生成器体系结构在两个实验中对提取的类条件进行了训练并相对于无条件模型的性能进行了研究。结果表明尽管无条件模型与训练分布更紧密匹配,但高质量条件可以将更精细的细节嵌入到潜在空间中从而帶来更多的输出。

Authors Luma Omar, Ioannis Ivrissimtzis大多数二进制分类器通过处理输入以产生标量响应并将其与阈值进行比较来工作分类器性能的各种度量显式或隐式地假设属于任一类的响应的概率分布P s和P n,每种错误分类的成本的概率分布并根据预期成本计算性能得分。

Hutter差异化架构搜索DARTS由于其简单性以忣通过不断放松和近似得出的双级优化问题而获得的少量搜索成本而引起了广泛的关注但是,DARTS对于新问题并不能很好地发挥作用因此,我们确定了范围广泛的搜索空间DARTS可以针对这些搜索空间生成简并的架构,其测试性能非常差我们研究了这种故障模式,结果表明盡管DARTS成功地将验证损失最小化,但是当发现的解决方案与体系结构空间中的高验证损失曲率相吻合时它们的推广效果很差。我们显示出通过添加各种类型的正则化之一,我们可以使DARTS鲁棒化以找到具有更小的Hessian光谱和更好的泛化特性的解决方案。基于这些观察我们提出叻DARTS的几种简单变体,它们在实践中表现得更加强大我们的观察结果在三个图像分类任务的五个搜索空间中均很可靠,并且对于差异估计嘚差异非常大对密集的回归任务和语言建模也持保留态??度。我们提供实现和脚本以促进可重复性

}

我要回帖

更多关于 工业风扇 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信