下载客户端

古早费曼论文手写公式也能转LaTeX，还能看懂梗图，马斯克Grok新功能上线就火了

2024-10-30 13:28

来源：澎湃新闻·澎湃号·湃客

原创关注生成式AI的机器之心

机器之心报道

编辑：张倩、陈陈

Grok 大模型终于能看懂图像了。

设想一下，如果我们能够将所有 LaTeX 时代之前的文本资料输入到先进的大型语言模型（LLM）中，并从中获得格式规范的 LaTeX 文档库，这无疑将极大地推动科学文献的数字化进程和标准化工作。对于科研工作者而言，这不仅仅是技术层面的飞跃，它更标志着知识管理和信息传播方式的一次重大变革。

马斯克旗下的人工智能公司 xAI 发布的 Grok 大模型有助于实现这一目标 —— 在经历了最近的一次更新后，Grok 大模型终于能看懂图像了，甚至还能做公式 OCR、解释笑话。

AI 销售和营销自动化平台 Amplemarket 创始人 Luis Batalha 在试用后表示：借助 Grok，他能把理论物理学家 Feynman 博士论文中的公式转换成 LaTeX。

转化之前的文本长这样：

可以看出，里面的公式基本都是手写的，肉眼辨认尚有难度。而 Grok 可以把它们转化成如此工整的结果，而且准确率令人惊叹。

图源：https://x.com/luismbat/status/1850925670408544355

这个帖子吸引了众多研究人员的关注，整个帖子的浏览量已经突破 100 万。

还有人晒出了自己用 Grok 识别出的 18 世纪文件：

在识别其他图像方面，Grok 表现也非常不错。比如网友上传了一张手表的照片，Grok 根据表壳形状和表带设计猜出了表的品牌（对手表有研究的读者可以看下猜得对不对）。

你还可以让 Grok 点评图片，它能从时尚、风格、表情等多个角度进行描述。比如针对下面这张图，Grok 回答：「图片中描述了一位动漫风格的人物，这位人物拥有中等长度的棕色头发，戴着眼镜，并且正在弹奏贝斯吉他。该角色展现了一种休闲、现代的造型，穿着一件格子衫外套和深色裤子，以及带有红色装饰的白色运动鞋。这种装扮表明这是一个年轻的、可能还在上学的角色，给人一种悠闲的艺术氛围……」

图源 https://x.com/ItsZeramy/status/1850810276784054313

马斯克表示，Grok 其实也可以用来解释笑话（梗图）。

今年三月，Grok-1 正式亮相，在数学、推理等能力上取得了不错的成绩。之后，xAI 迅速推出 Grok 1.5，新一代模型实现了长上下文理解和高级推理能力。8 月，Grok 2 上线，在常识、数学竞赛问题 (MATH)、研究生水平科学知识 (GPQA) 等领域与其他前沿模型相媲美。

如今，在 xAI 不断完善下，大家终于可以体验 Grok 的图像理解能力了。为了验证各路网友的说法，机器之心在第一时间进行了测试。

公式 OCR 能力实测

首先，机器之心测试了一下 Grok 对公式的处理能力。我们输入经典论文《 Attention Is All You Need 》中的一张公式截图，要求转换成 LaTeX 代码。

输入的公式截图，对应论文中的公式（1）。

然后，我们将 LaTeX 表达式输入到在线 LaTeX 公式编辑器中进行转换，比对之后发现结果完全正确。

公式来源：https://arxiv.org/pdf/1706.03762

之后，我们上了点难度，用手写公式进行测试，输入的公式截图看起来不是很规范，但 Grok 还是给出了结果。

梗图理解能力实测

接着，我们再看看 Grok 对图片的理解能力。

不知大家是否 get 到小女孩吃蛋糕这张图的笑点。如果没有，当你看完 Grok 的解释，有种恍然大悟的感觉。

不过，Grok 并不是总懂幽默。我们输入如下图片，图片原来的意思应该是想表达打工人的一天似乎都很疲惫，但到了深夜却格外精神。但 Grok 给出的结果并不是。

经过测试，我们还发现 Grok 对图片中的中文理解的不是很好，比如错把中文字符「我的精神状态」转换成「敌人的精神状态」。

Grok vs. ChatGPT，谁的识图能力更强？

虽然识图是 Grok 的新功能，效果也很惊艳，但在众多 AI 模型中，这实在算不上一项新颖的功能。因此，有人在马斯克的评论区发出灵魂拷问，「Grok 到底进展到什么程度了？感觉远远落后于 ChatGPT 啊」。对此，马斯克耐心回复说，「我们只用了几个月就完成了其他人花了几年时间的工作。」言下之意似乎是不着急，慢慢打磨新功能。