下载客户端

7 Papers | 英伟达64个A100训练StyleGAN-T；9类生成式AI模型综述

2023-02-06 11:05

来源：澎湃新闻·澎湃号·湃客

机器之心 & ArXiv Weekly

参与：杜伟、楚航、罗若天

本周重要论文包括 6 大公司推出的 9 类生成式 AI 模式综述以及英伟达等机构推出的升级版 StyleGAN 等研究。

Quantum machine learning beyond kernel methods

Wearable in-sensor reservoir computing using optoelectronic polymers with through-space charge-transport characteristics for multi-task learning

Dash: Semi-Supervised Learning with Dynamic Thresholding

StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

ChatGPT is not all you need. A State of the Art Review of large Generative AI models

ClimaX: A foundation model for weather and climate

ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Quantum machine learning beyond kernel methods

作者：Sofiene Jerbi 等

论文地址：https://www.nature.com/articles/s41467-023-36159-y

摘要：本文中，来自奥地利因斯布鲁克大学的研究团队确定了一个建设性框架，该框架捕获所有基于参数化量子电路的标准模型：线性量子模型。

研究人员展示了使用量子信息论中的工具如何将数据重新上传电路有效地映射到量子希尔伯特空间中线性模型的更简单图像中。此外，根据量子比特数和需要学习的数据量来分析这些模型的实验相关资源需求。基于经典机器学习的最新结果，证明线性量子模型必须使用比数据重新上传模型多得多的量子比特才能解决某些学习任务，而核方法还需要多得多的数据点。

研究结果提供了对量子机器学习模型的更全面的了解，以及对不同模型与 NISQ 约束的兼容性的见解。

这项工作中研究的量子机器学习模型。

推荐：超越核方法的量子机器学习，量子学习模型的统一框架。

论文 2：Wearable in-sensor reservoir computing using optoelectronic polymers with through-space charge-transport characteristics for multi-task learning

作者：Xiaosong Wu 等

论文地址：https://www.nature.com/articles/s41467-023-36205-9

摘要：传感器内多任务学习不仅是生物视觉的关键优点，也是人工智能的主要目标。然而，传统的硅视觉芯片存在大量时间以及能量开销。此外，训练传统的深度学习模型在边缘设备上既不可扩展也不可负担。

本文中，中科院和香港大学的研究团队提出了一种材料算法协同设计来模拟人类视网膜的学习范例，并且低开销。基于具有有效激子解离和贯穿空间电荷传输特性的瓶刷形半导体 p-NDI，开发了一种基于可穿戴晶体管的动态传感器储层计算系统，该系统在不同任务上表现出优异的可分离性、衰减记忆和回波状态特性。

与忆阻有机二极管上的「读出功能」相结合，RC 可识别手写字母和数字，并对各种服装进行分类，准确率分别为 98.04%、88.18% 和 91.76%（高于所有已报告的有机半导体）。

传统半导体和 p-NDI 的光电流响应比较，以及传感器内 RC 系统的详细半导体设计原理。

推荐：低能耗低时耗，中科院 & 香港大学团队使用新方法进行多任务学习的可穿戴传感器内储层计算。

论文 3：Dash: Semi-Supervised Learning with Dynamic Thresholding

作者：Yi Xu 等

论文地址：https://proceedings.mlr.press/v139/xu21e/xu21e.pdf

摘要：这篇论文创新性地提出用动态阈值（dynamic threshold）的方式筛选无标签样本进行半监督学习（semi-supervised learning，SSL）的方法，我们改造了半监督学习的训练框架，在训练过程中对无标签样本的选择策略进行了改进，通过动态变化的阈值来选择更有效的无标签样本进行训练。Dash 是一个通用策略，可以轻松与现有的半监督学习方法集成。

实验方面，我们在 CIFAR-10、CIFAR-100、STL-10 和 SVHN 等标准数据集上充分验证了其有效性。理论方面，论文从非凸优化的角度证明了 Dash 算法的收敛性质。

Fixmatch 训练框架

推荐：达摩院开源半监督学习框架 Dash，刷新多项 SOTA。

论文 4：StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

作者：Axel Sauer 等

论文地址：https://arxiv.org/pdf/2301.09515.pdf

摘要：扩散模型在文本到图像生成方面是最好的吗？不见得，英伟达等推出的新款 StyleGAN-T，结果表明 GAN 仍具有竞争力。StyleGAN-T 只需 0.1 秒即可生成 512×512 分辨率图像：

推荐：GAN 强势归来？英伟达耗费 64 个 A100 训练 StyleGAN-T，优于扩散模型。

论文 5：Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

作者：Sunan He 等

论文地址：https://arxiv.org/abs/2207.01887

摘要：在多标签分类系统中，经常遇到大量在训练集中未曾出现的标签，如何准确地识别这些标签是非常重要也极富挑战性的问题。

为此，腾讯优图实验室联合清华大学和深圳大学，提出了一种基于多模态知识迁移的框架 MKT，利用图文预训练模型强大的图文匹配能力，保留图像分类中关键的视觉一致性信息，实现多标签场景的 Open Vocabulary 分类。本工作已入选 AAAI 2023 Oral。

ML-ZSL 和 MKT 方法比较。

推荐：AAAI 2023 Oral | 如何识别未知标签？多模态知识迁移框架实现新 SOTA。

论文 6：ChatGPT is not all you need. A State of the Art Review of large Generative AI models

作者：Roberto Gozalo-Brizuela 等

论文地址：https://arxiv.org/abs/2301.04655

摘要：过去两年，AI 领域里已经出现大量大型生成模型，如 ChatGPT 或 Stable Diffusion。具体而言，这些模型能够执行像通用问答系统或自动创建艺术图像等任务，这些任务正在彻底改变很多领域。

在近日由西班牙 Comillas Pontifical University 研究人员提交的综述论文中，作者试图以简洁的方式描述生成式 AI 对当前很多模型的影响，并对最近发布的主要生成式 AI 模型进行分类。

分类图示。

推荐：ChatGPT is not all you need，一文综述 6 大公司 9 类生成式 AI 模型。

论文 7：ClimaX: A foundation model for weather and climate

作者：Tung Nguyen 等

论文地址：https://arxiv.org/abs/2301.10343

摘要：微软自主系统与机器人研究小组以及微软研究院科学智能中心开发了 ClimaX，这是一种灵活且可推广的天气和气候科学深度学习模型，可以使用跨越不同变量、时空覆盖和物理基础的异构数据集进行训练。

ClimaX 使用新颖的编码和聚合块扩展了 Transformer 架构，这些块允许有效使用可用计算，同时保持通用性。ClimaX 在源自 CMIP6 的气候数据集上使用自我监督学习目标进行了预训练。然后可以对预训练的 ClimaX 进行微调，以解决广泛的气候和天气任务，包括那些涉及预训练期间看不到的大气变量和时空尺度的任务。