每日学术速递5.29

article/2023/9/24 22:22:59

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models(CVPR 2023)

标题:自定义编辑:使用自定义扩散模型进行文本引导图像编辑

作者:Jooyoung Choi, Yunjey Choi, Yunji Kim, Junho Kim, Sungroh Yoon

文章链接:https://arxiv.org/abs/2305.15779

项目代码:https://rl-at-scale.github.io/

摘要:

        文本到图像扩散模型可以根据用户提供的文本提示生成多样化的高保真图像。最近的研究扩展了这些模型以支持文本引导的图像编辑。虽然文本引导是用户直观的编辑界面,但它往往无法确保用户准确传达概念。为了解决这个问题,我们提出了自定义编辑,其中我们 (i) 使用一些参考图像自定义扩散模型,然后 (ii) 执行文本引导编辑。我们的主要发现是,仅使用增强提示自定义与语言相关的参数可以显着提高参考相似性,同时保持源相似性。此外,我们为每个定制和编辑过程提供我们的配方。我们比较了流行的定制方法,并使用各种数据集验证了我们在两种编辑方法上的发现。

2.Unsupervised Semantic Correspondence Using Stable Diffusion

标题:使用稳定扩散的无监督语义对应

作者:Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi

文章链接:https://arxiv.org/abs/2305.15581

摘要:

        文本到图像扩散模型现在能够生成通常与真实图像无法区分的图像。为了生成这样的图像,这些模型必须理解它们被要求生成的对象的语义。在这项工作中,我们表明,无需任何训练,就可以在扩散模型中利用这种语义知识来找到语义对应——多个图像中具有相同语义的位置。具体来说,给定一张图像,我们优化这些模型的提示嵌入,以最大程度地关注感兴趣的区域。这些优化的嵌入捕获有关位置的语义信息,然后可以将其传输到另一个图像。通过这样做,我们在 PF-Willow 数据集上获得了与最先进的强监督技术相当的结果,并且显着优于(相对于 SPair-71k 数据集的 20.9%)PF-Willow、CUB-200 上任何现有的弱监督或无监督方法和 SPair-71k 数据集。

 

3.Efficient Neural Music Generation

标题:高效的神经音乐生成

作者:Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

文章链接:https://arxiv.org/abs/2305.15719

项目代码:https://efficient-melody.github.io/

摘要:

        最先进的 MusicLM 显着推动了音乐生成的最新进展,它包括三个 LM 的层次结构,分别用于语义、粗声学和精细声学建模。然而,使用 MusicLM 进行采样需要通过这些 LM 一个一个地进行处理以获得细粒度的声学标记,这使得计算成本高昂且无法实时生成。具有与 MusicLM 同等质量的高效音乐生成仍然是一项重大挑战。在本文中,我们提出了 MeLoDy(M 代表音乐;L 代表 LM;D 代表扩散),这是一种 LM 引导的扩散模型,它可以生成最先进质量的音乐音频,同时减少 95.7% 或 99.6% 的前向传递MusicLM,分别用于采样 10 秒或 30 秒的音乐。MeLoDy 继承了 MusicLM 的最高级别 LM 进行语义建模,并应用新颖的双路径扩散 (DPD) 模型和音频 VAE-GAN 将条件语义标记有效地解码为波形。DPD 被提议通过在每个去噪步骤中通过交叉注意将语义信息有效地合并到潜在片段中来同时对粗略和精细声学进行建模。我们的实验结果表明 MeLoDy 的优越性,不仅在于其在采样速度和无限连续生成方面的实际优势,还在于其最先进的音乐性、音频质量和文本相关性。

更多Ai资讯:公主号AiCharm
在这里插入图片描述


http://www.ngui.cc/article/show-1202746.html

相关文章

《论文阅读》连续前缀提示Prompt:table-to-text和摘要生成 ACL2021

《论文阅读》连续前缀提示Prompt:table-to-text和摘要生成 ACL2021 前言相关知识Table-to-Text Generation自编码语言模型自回归语言模型简介任务定义部分参数更新代码实验结果前言 你是否也对于理解论文存在困惑? 你是否也像我之前搜索论文解读,得到只是中文翻译的解读后…

每日学术速递5.30

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses(CVPR 2023 Highlight) 标题:加速坐标编码:学习使用 RGB 和姿势…

分布式锁实现原理

为什么需要分布式锁? 本地锁synchronized只能锁住当前服务进程,一个本地锁只能锁一个服务,如果是分布式服务情况下使用本地锁,那么多少服务就会有多少进程同时执行,就是去了锁的效果,为了到达分布式情况下…

递归算法的并行化

第一次是使程序完全串行执行,第二次虽然使用了两个线程,但仍然是串行地下载所有图像:在最后一次实现中将每个图像的下载操作视为一个独立任务,从而实现了更高的并行性。如果在循环体中包含了一些密集计算,或者需要执行…

【CesiumJS入门】(2)ImageryLayer之图层加载与管理

前言 在上一篇博客中,我们加载了一个空空的蓝色地球,现在我们将会为地球加载上地图。 步骤: 创建ImageryProvider (数据源)创建ImageryLayer (图层)将图层添加进视图中(viewer&…

六、JSP06 使用 EL 和 JSTL 简化 JSP

六、使用 EL 和 JSTL 简化 JSP 6.1 使用 EL 表达式 EL 表达式借鉴了 JavaScript 和 XPath 的表达式语言 EL 表达式提供了一种在 JSP 中简化表达式的方法 EL 表达式通常用于在某个作用域 {page、request、session、application等} 内取得属性值 6.1.1 使用 EL 表达式 EL 表达式…

华为OD机试真题 Java 实现【合法IP】【牛客练习题】

一、题目描述 IPV4地址可以用一个32位无符号整数来表示,一般用点分方式来显示,点将IP地址分成4个部分,每个部分为8位,表示成一个无符号整数(因此正号不需要出现),如10.137.17.1,是我们非常熟悉的IP地址,一个IP地址串中没有空格出现(因为要表示成一个32数字)。 现在…

【019】C++的指针与函数

C的指针与函数 引言一、指针变量作为函数的参数1.1、单向传递:值传递1.2、单向传递:传地址 二、数组作为函数的参数传递三、函数的返回值类型是指针类型四、函数指针4.1、函数指针的定义4.2、函数指针变量的注意事项4.3、函数指针变量使用typedef定义别名…

嵌入式开发——文件系统部署rz、sz命令

1、rz、sz命令源码下载 下载网址:https://ohse.de/uwe/software/lrzsz.html 2、源码编译 tar -zxvf lrzsz-0.12.20.tar.gz cd lrzsz-0.12.20 ./configure make CCaarch64-mix410-linux-gcc #指定芯片平台的交叉编译链3、源码编译遇到的问题 3.1、报错打印 (1)报错…

NXP6050使用

文章目录 NXP介绍函数IOMUXC_SetPinMux ()IOMUXC_SetPinConfig () NXP介绍 NXP(全称:NXP Semiconductors)是一家全球性领先公司,其总部位于荷兰埃因霍温。该公司提供各种解决方案,包括安全、连接、电源管理、移动设备…