- +1
AI全球视野 | SD、Flux、Claude等迎来重大更新
原创 派生万物 派生万物AI
01
Stability发布SD3.5,开源可允许商用/NEWS
今年6月Stability公司发布了第一个Stable Diffusion 3(以下简称SD 3)系列模型Stable Diffusion 3 Medium,尽管业界翘首以盼,Stability公司并没有像前面开源的Stable diffusion 1.5、Stable diffusion XL 1.0那样,把SD 3也开源了。因此业界人士在揣测,到底下一个系列Stability会不会开源。
Stability给出了答案。日前Stability公司释放出了SD3.5系列,该系列包含了2个模型,Stable diffusion 3.5 Large(简称SD3.5 Large)和Stable diffusion 3.5 Large Turbo(SD3.5 Turbo),允许个人非商业用途和年销售额100万美元以下的公司免费商用。此次发布的SD3.5 Large 拥有80亿个参数,适合在一百万分辨率以下的机器运行;而基于SD3.5Large 蒸馏得到的SD3.5 Turbo 比Large版本响应速度更快,只需要4步就可以推理生成高质量的图像。官方解释,在10月29日会发布Stable Diffusion 3.5 Medium模型,该模型拥有2.5亿个参数,能做到家用消费级机器“开箱即用”,可以生成分辨率在0.25-200万个像素区间的图像。
SD3.5系列与其他主流模型的Elo比分
注:Elo是一种被广泛用于机器学习领域,用来衡量不同模型处理性能差异的评分方法
笔者试验SD3.5 Large 的效果图,可以看到手部的处理明显较好,但仍显略微畸形
笔者试验SD3.5 Large 的效果图
笔者试验SD3.5 Large 的效果图,对中文文本的处理仍旧不足
笔者试验SD3.5 Large 的效果图,英文的文本处理非常惊艳
官方解释称,经过优化之后的SD3.5系列可以做到在标准消费硬件上运行,对比了SD3.5 Turbo和目前业界流行的Flux.1[dev] 、Flux.1.1[pro]、SD3.0系列的跑分,SD3.5发布的2个模型达到了提示词推理和图像质量的高优平衡。
02
Blackforestlabs发布Flux1.1[pro]模型,生成速度快6倍/NEWS
当前AIGC领域最受欢迎的Flux.1模型生成质量和速度已经足以令人惊叹,没想到的是,Flux.1模型团队在日前又给AIGC领域带来另一次震撼!最新发布的一款代号为“blueberry”(蓝莓)的Flux.1.1[pro]模型比它的上一代Flux.1 [pro]生成的速度要快上6倍!Blackforestlabs称,Flux1.1[pro]已经能够实现图像质量和推理速度的理想平衡。
Blackforestlabs同时放出了该款模型与AIGC领域使用较为广泛的几大模型:Midjourney v6.0、Midjourneyv6.1、DALLE 3、SD 3等的跑分,Flux.1.1[pro]获得了试验模型中最高的Elo分数。
Blackforestlabs公布了这款模型的API调用价格为0.04美元/张。
03
Anthropic升级Claude 3.5 Sonnet,让AI操作电脑/NEWS
Anthropic在近日发布了一次升级,包含了2个版本,一个是常规升级的Claude Haiku,另一个则是Claude 3.5 Sonnet。一直以来,Anthropic针对Claude的发布会释放3个不同型号:Opus、Sonnet、Haiku。6月份发布的3.5系Claude却只推出了3.5 Sonnet,没有Haiku型号,此次的升级算是“补全”了上一次发布的缺漏吧。
升级版Claude 3.5 Sonnet和其他模型的行业基准性能跑分对比
升级后的3.5 Claude Sonnet参与的行业基准的测试来看,在编码和工具使用任务上性能有很大的提升。最重要的是,它实现了通过API接口输入指令,让Claude操作本地电脑:比如输入“使用我的计算机和在线数据来填写在线表格”指令,Claude 3.5 Sonnet会自动操作鼠标、打开网页、浏览数据然后根据表格类型进行填充。
在操作不复杂的软件评估上,Anthropic给出了对比:纯屏幕截屏操作3.5 Claude Sonnet获得14.9%的评分,第二名的AI操作系统仅得分7.8%;如果操作步骤指令稍微复杂一些,3.5 Claude Sonnet竟能获得22%的得分。
虽然这是一次小小的尝试,3.5 Claude Sonnet可能离我们想象中的“AI助手”更近了一些。
04
复旦大学和百度联手推出模型Hallo2,实现4K高清度的长视频生成/NEWS
近日,复旦大学和百度的研究人员联合推出了模型Hallo2,该模型可以生成长时间的人物动画。Hallo2 模型是首个实现4K分辨率且可以生成长时间视频的模型,研究人员表示,Hallo2 引入patch-drop技术、高斯噪声增强技术和文本控制机制解决AI生成视频中可能出现的脸部特征不稳定、动画连贯性欠缺以及动画的表现力和人物表情丰富度不够的问题。
项目展示了带有文本提示的长视频
其他项目示例,支持不同风格,包括动漫、雕像、水彩等不同画风
除了真人风格的长视频生成,该模型也支持动画风格的长视频生成。
05
加拿大AI初创公司Ideogram新功能Canvas,花式扩图没有压力/NEWS
Ideogram近日上线了新功能Canvas,不仅支持常规的生图功能,更强大的是它的扩图功能!用户可以通过提示词、拖动图像大小、融合参考图等方法保持上传的图像原图结构不变而无缝扩图。
Canvas入口,还在公测阶段
不过,目前Canvas的Extend(画布拓展)、Magic Fill(魔术填充,替换对象、局部修复、添加文本)、Remix(根据用户上传图片或平台生成图片中选择不同图片进行再创作)是付费功能,免费用户每人每天只有2次免费体验Canvas的额度。
06
Adobe 推出Project Turntable项目,利用AI算法动动手指就能使2D图片转3D/NEWS
设计人绝不想错过的Adobe Max在日前开幕,今年的Max大会Adobe带来了重磅项目:Project Turntable。该项目目前仍在保密的开发当中,不过,会上的视频操作演示,我们可以看到Project Turntable颠覆美术行业的举动:只需要通过按键和滑动条的简单拖动,2D的图像就能实时生成3D效果,同时会补全旋转中各个角度!
大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果(1)
大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果(2)
大会演示的经过Project Turntabl项目独特的算法调节旋转角度生成的3D效果(3)
过去美术从业者、3D游戏业为了3D效果需要耗费大量的精力绘制,Project Turntable的出现有望让3D的绘制过程大大缩短。那么问题来了,Project Turntable会是3D从业者的福音还是寒冬?
07
微软联手OpenAI,提供Chat GPT 专供版 Excel 和 Powerpoint/NEWS
OpenAI近日宣布,将为ChatGPT plus、团队、企业及校园用户这些付费用户提供Windows早期桌面版本,用户可以直接在微软应用商店下载,通过Alt+Space就能快捷使用。目前在微软应用商店已经可以下载ChatGPT for Excel和ChatGPT for Powerpoint。
OpenAI在ChatGPT for Excel版本植入了GPT-4o mini、GPT-4o (omni)、GPT-3.5 Turbo (gpt-3.5-turbo)、GPT-4 (gpt-4)、GPT-4 Turbo (gpt-4-turbo)、Claude 3.5 Sonnet、Claude 3 Opus、Claude 3 Haiku这些热门的模型,无疑让ChatGPT for Excel拥有极大的协同办公的能力。ChatGPT for Excel 和Powerpoint调用上述大模型插件次数超过之后,需要额外为OpenAI付费。
2款应用目前均支持网页端、Mac和Windows使用。
关于我们:派生万物是澎湃新闻旗下独立技术品牌,专注于AI科技创新与应用。助力媒体、政务及各行业客户实现数智化转型。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司