下载客户端

AI全球视野 | SD、Flux、Claude等迎来重大更新

2024-10-26 15:16

来源：澎湃新闻·澎湃号·湃客

原创派生万物派生万物AI

Stability发布SD3.5，开源可允许商用/NEWS

今年6月Stability公司发布了第一个Stable Diffusion 3（以下简称SD 3）系列模型Stable Diffusion 3 Medium，尽管业界翘首以盼，Stability公司并没有像前面开源的Stable diffusion 1.5、Stable diffusion XL 1.0那样，把SD 3也开源了。因此业界人士在揣测，到底下一个系列Stability会不会开源。

Stability给出了答案。日前Stability公司释放出了SD3.5系列，该系列包含了2个模型，Stable diffusion 3.5 Large（简称SD3.5 Large）和Stable diffusion 3.5 Large Turbo（SD3.5 Turbo），允许个人非商业用途和年销售额100万美元以下的公司免费商用。此次发布的SD3.5 Large 拥有80亿个参数，适合在一百万分辨率以下的机器运行；而基于SD3.5Large 蒸馏得到的SD3.5 Turbo 比Large版本响应速度更快，只需要4步就可以推理生成高质量的图像。官方解释，在10月29日会发布Stable Diffusion 3.5 Medium模型，该模型拥有2.5亿个参数，能做到家用消费级机器“开箱即用”，可以生成分辨率在0.25-200万个像素区间的图像。

SD3.5系列与其他主流模型的Elo比分

注：Elo是一种被广泛用于机器学习领域，用来衡量不同模型处理性能差异的评分方法

笔者试验SD3.5 Large 的效果图，可以看到手部的处理明显较好，但仍显略微畸形

笔者试验SD3.5 Large 的效果图

笔者试验SD3.5 Large 的效果图，对中文文本的处理仍旧不足

笔者试验SD3.5 Large 的效果图，英文的文本处理非常惊艳

官方解释称，经过优化之后的SD3.5系列可以做到在标准消费硬件上运行，对比了SD3.5 Turbo和目前业界流行的Flux.1[dev] 、Flux.1.1[pro]、SD3.0系列的跑分，SD3.5发布的2个模型达到了提示词推理和图像质量的高优平衡。

Blackforestlabs发布Flux1.1[pro]模型，生成速度快6倍/NEWS

当前AIGC领域最受欢迎的Flux.1模型生成质量和速度已经足以令人惊叹，没想到的是，Flux.1模型团队在日前又给AIGC领域带来另一次震撼！最新发布的一款代号为“blueberry”（蓝莓）的Flux.1.1[pro]模型比它的上一代Flux.1 [pro]生成的速度要快上6倍！Blackforestlabs称，Flux1.1[pro]已经能够实现图像质量和推理速度的理想平衡。

Blackforestlabs同时放出了该款模型与AIGC领域使用较为广泛的几大模型：Midjourney v6.0、Midjourneyv6.1、DALLE 3、SD 3等的跑分，Flux.1.1[pro]获得了试验模型中最高的Elo分数。

Blackforestlabs公布了这款模型的API调用价格为0.04美元/张。

Anthropic升级Claude 3.5 Sonnet，让AI操作电脑/NEWS

Anthropic在近日发布了一次升级，包含了2个版本，一个是常规升级的Claude Haiku，另一个则是Claude 3.5 Sonnet。一直以来，Anthropic针对Claude的发布会释放3个不同型号：Opus、Sonnet、Haiku。6月份发布的3.5系Claude却只推出了3.5 Sonnet，没有Haiku型号，此次的升级算是“补全”了上一次发布的缺漏吧。

升级版Claude 3.5 Sonnet和其他模型的行业基准性能跑分对比

升级后的3.5 Claude Sonnet参与的行业基准的测试来看，在编码和工具使用任务上性能有很大的提升。最重要的是，它实现了通过API接口输入指令，让Claude操作本地电脑：比如输入“使用我的计算机和在线数据来填写在线表格”指令，Claude 3.5 Sonnet会自动操作鼠标、打开网页、浏览数据然后根据表格类型进行填充。

在操作不复杂的软件评估上，Anthropic给出了对比：纯屏幕截屏操作3.5 Claude Sonnet获得14.9%的评分，第二名的AI操作系统仅得分7.8%；如果操作步骤指令稍微复杂一些，3.5 Claude Sonnet竟能获得22%的得分。

虽然这是一次小小的尝试，3.5 Claude Sonnet可能离我们想象中的“AI助手”更近了一些。

复旦大学和百度联手推出模型Hallo2，实现4K高清度的长视频生成/NEWS

近日，复旦大学和百度的研究人员联合推出了模型Hallo2，该模型可以生成长时间的人物动画。Hallo2 模型是首个实现4K分辨率且可以生成长时间视频的模型，研究人员表示，Hallo2 引入patch-drop技术、高斯噪声增强技术和文本控制机制解决AI生成视频中可能出现的脸部特征不稳定、动画连贯性欠缺以及动画的表现力和人物表情丰富度不够的问题。

项目展示了带有文本提示的长视频

其他项目示例，支持不同风格，包括动漫、雕像、水彩等不同画风

除了真人风格的长视频生成，该模型也支持动画风格的长视频生成。

加拿大AI初创公司Ideogram新功能Canvas，花式扩图没有压力/NEWS

Ideogram近日上线了新功能Canvas，不仅支持常规的生图功能，更强大的是它的扩图功能！用户可以通过提示词、拖动图像大小、融合参考图等方法保持上传的图像原图结构不变而无缝扩图。

Canvas入口，还在公测阶段

不过，目前Canvas的Extend（画布拓展）、Magic Fill（魔术填充，替换对象、局部修复、添加文本）、Remix（根据用户上传图片或平台生成图片中选择不同图片进行再创作）是付费功能，免费用户每人每天只有2次免费体验Canvas的额度。

Adobe 推出Project Turntable项目，利用AI算法动动手指就能使2D图片转3D/NEWS

设计人绝不想错过的Adobe Max在日前开幕，今年的Max大会Adobe带来了重磅项目：Project Turntable。该项目目前仍在保密的开发当中，不过，会上的视频操作演示，我们可以看到Project Turntable颠覆美术行业的举动：只需要通过按键和滑动条的简单拖动，2D的图像就能实时生成3D效果，同时会补全旋转中各个角度！

大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果（1）

大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果（2）

大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果（3）

过去美术从业者、3D游戏业为了3D效果需要耗费大量的精力绘制，Project Turntable的出现有望让3D的绘制过程大大缩短。那么问题来了，Project Turntable会是3D从业者的福音还是寒冬？

微软联手OpenAI，提供Chat GPT 专供版 Excel 和 Powerpoint/NEWS

OpenAI近日宣布，将为ChatGPT plus、团队、企业及校园用户这些付费用户提供Windows早期桌面版本，用户可以直接在微软应用商店下载，通过Alt+Space就能快捷使用。目前在微软应用商店已经可以下载ChatGPT for Excel和ChatGPT for Powerpoint。

OpenAI在ChatGPT for Excel版本植入了GPT-4o mini、GPT-4o (omni)、GPT-3.5 Turbo (gpt-3.5-turbo)、GPT-4 (gpt-4)、GPT-4 Turbo (gpt-4-turbo)、Claude 3.5 Sonnet、Claude 3 Opus、Claude 3 Haiku这些热门的模型，无疑让ChatGPT for Excel拥有极大的协同办公的能力。ChatGPT for Excel 和Powerpoint调用上述大模型插件次数超过之后，需要额外为OpenAI付费。