下载客户端

AI日报｜马斯克：年底实现完全自动驾驶；盲人“人工眼”问世

2023-08-04 14:40

来源：澎湃新闻·澎湃号·湃客

今日值得关注的人工智能新动态：

轻松创作高质量音乐，Meta发布开源AI工具AudioCraft

谷歌AI搜索大更新：更多的视频和更好的链接

微软的AI侧边栏来了，Windows 11测试版用户可优先体验

马斯克：特斯拉将于年底实现完全自动驾驶

ChatGPT的幻觉能否消失？技术专家：无法解决

在AI的帮助下，四肢瘫痪者恢复了行动和感觉

Patch-DM：高分辨率图像AI生成模型

盲人“人工眼”问世：网上任意冲浪，访问各种信息

以毒攻毒：ChatGPT能否检测AI生成的文本？

LEMMA：学习语言条件化的多机器人操控

轻松创作高质量音乐，

Meta发布开源AI工具AudioCraft

想象一下，专业音乐家无需弹奏乐器，就能不断探索新作品，小企业主可以轻松地为他们在互联网上发布的最新视频广告添加配乐。Meta 今日开源的 AI 工具 AudioCraf 就可以实现这一愿景，从文本生成高质量、逼真的音频和音乐。

据介绍，AudioCraft 包含三个模型：MusicGen、AudioGen 和 EnCodec。其中，MusicGen 使用 Meta 拥有且专门授权的音乐进行训练，根据文本提示生成音乐，AudioGen 使用公共音效进行训练，根据文本提示生成音频，而改进版 EnCodec 解码器则可以在生成更高质量音乐的同时，减少人工痕迹。

谷歌AI搜索大更新：

更多的视频和更好的链接

谷歌的新搜索引擎 Search Generative Experience（SGE）新增了一项重要功能：图片和视频。如果你在搜索实验室中启用了基于 AI 的 SGE 功能，现在就可以在搜索结果顶部的彩色摘要框中看到更多多媒体信息。此外，谷歌还在努力提高摘要框的显示速度，并为框中的链接添加更多上下文。

微软的AI侧边栏来了

Windows 11测试版用户可优先体验

微软今天推出了 Windows Copilot 预览版。Beta 频道中的 Windows 11 Insiders 可以安装一个预览版，该预览版为在 Build 2023 上发布的 AI 侧边栏提供了首次半公开的可用性。Windows Copilot 是该公司 2 月份开始预览的基于浏览器的 Copilot 的系统级版本。微软认为，该工具（也将应用于微软 Office 和 Teams）代表了客户与微软软件交互方式的重大转变。

马斯克：

特斯拉将于年底实现完全自动驾驶

对于许多经常使用特斯拉 FSD Beta 的人来说，很难想象特斯拉能在短短几个月内从目前的状态跃升到 4 级或 5 级自动驾驶。即汽车制造商将对该系统负责，并使驾驶员能够在没有监控的情况下使用该系统。但马斯克近日表示：特斯拉目前正在开发全自动驾驶（FSD）AI 拼图的最后一块——“车辆控制”。他预测，特斯拉将于年底实现完全自动驾驶。

ChatGPT的幻觉能否消失？

技术专家：无法解决

ChatGPT 和其他 AI 聊天机器人在与人类交谈时，很快就会说假话，这种现象被描述为幻觉、混淆或纯粹的胡编乱造，这是每个企业、组织和高中生试图让人工智能生成系统撰写文件和完成工作时都可能遇到的问题。Anthropic、OpenAI 和其他主要大语言模型开发商表示，他们正在努力让它们更加真实。至于这需要多长时间，以及它们是否能够安全地提供医疗建议等问题，还有待观察。对此，华盛顿大学语言学教授、计算语言学实验室主任Emily Bender 说：“这是无法解决的。这是技术与拟议用例不匹配的内在原因。”

在AI的帮助下

四肢瘫痪者恢复了行动和感觉

据外媒报道，一名胸部以下瘫痪的男子，在由 AI 驱动的大脑植入技术的帮助下，重新恢复了运动和感觉。据介绍，该男子在 2020 年一次潜水事故中损伤了 C4 和 C5 椎骨，从此四肢瘫痪。

这一突破是通过创新的“双神经旁路”手术实现的。在此次研究中，外科医生在该男子大脑中控制手部运动和触觉的区域植入了微型芯片，通过将芯片与 AI 算法连接，“将他的大脑与身体和脊髓重新连接起来”，解读该男子的想法并将其转化为行动。

在接受植入后的短短四个月内，该男子的臂力增加了一倍多。研究人员相信，随着时间的推移，反复使用旁路可以促进持久的自然康复。大脑、身体和脊髓可能会重新学习被遗忘的交流路径。

Patch-DM：

高分辨率图像AI生成模型

为了有效地生成高分辨率（如 1024×512）图像，来自加州大学圣地亚哥分校、斯坦福大学的研究人员提出了一种新型去噪扩散模型（在小尺寸（如 64×64）图像块上进行训练），并将其算法命名为 Patch-DM。为避免合成大尺寸图像时出现边界伪影，研究人员在其中也加了一种新的特征拼贴策略。

据介绍，Patch-DM 在新收集的自然图像数据集（1024×512）以及较小尺寸（256×256）的标准基准（包括 LSUN-Bedroom、SUN-Church 和 FFHQ）上都产生了高质量的图像合成结果；与以前的基于补丁的生成方法比较，Patch-DM 在所有四个数据集上都取得了最先进的的 FID 分数。此外，与传统扩散模型相比，Patch-DM 还降低了内存复杂度。

论文：

Patched Denoising Diffusion Models For High-Resolution Image Synthesis

盲人“人工眼”问世：

网上任意冲浪，访问各种信息

为了使盲人可以在网络上访问各种信息。研究人员基于 Raspberry pi3，配合使用网络摄像头、超声波传感器和扬声器，以及物体检测、光学字符识别、谷歌文本到语音的转换和麦考夫语音辅助模型等模型，成功研发了一种供盲人使用的“人工眼”。

首先，超声波传感器将测量自身与前方任何障碍物之间的距离，当在指定范围内检测到前方有任何障碍物时，盲人将会听到一定距离内有障碍物挡路的语音提示；然后，网络摄像头将捕捉前方的图像，Raspberry pi 上将开始运行物体检测模型和光学字符识别模型，通过 Tesseract OCR 模块、对象检测模型分别检测图像中的文本和前方的对象，并使用 gTTS 模块将文本转换为语音。另外，一个名为 MYCROFT 的语音助理模型也将在这一过程中与盲人互动，向盲人介绍天气、每日新闻、以及互联网上的任何信息。

论文：

Artificial Eye for the Blind

以毒攻毒：

ChatGPT能否检测AI生成的文本？

大型语言模型（LLMs）正越来越多地被用于各种应用案例，如大规模文本内容生成。该研究探讨了 ChatGPT 在检测 AI 生成文本方面的性能，并在公开可用的数据集上进行了实验。

结果显示，该研究深入揭示了如何在自动检测管道中利用 ChatGPT 和类似的 LLM，只需专注于解决问题的一个特定方面，并从该解决方案中衍生出其他方面。

论文：

Fighting Fire with Fire: Can ChatGPT Detect AI-generated Text?

LEMMA：

学习语言条件化的多机器人操控

复杂的操纵任务往往需要具有互补能力的机器人进行协作。该研究介绍了基于语言条件的多机器人操纵（LEMMA）基准。其重点是在桌面环境中根据人类语言指令进行任务分配和远距离物体操纵。

据介绍，LEMMA 具有 8 种不同复杂程度的程序化任务，其中一些任务要求机器人使用工具并相互传递工具。对于每种任务，该研究都提供了 800 个专家示范和人类指令，用于训练和评估。与现有基准相比，LEMMA 具有更大的挑战性，因为它要求系统识别每个操纵器的局限性，并相应地分配子任务，同时还要处理每个任务中的时间依赖性。

为了应对这些挑战，该研究提出了一种模块化分层规划方法作为基线。此研究结果凸显了 LEMMA 在开发未来语言条件化的多机器人系统方面的潜力。