• 12
  • +1
    1

我把我的文章做成Token炸弹,这样居然还能防AI洗稿?

2025-03-12 18:56
安徽
来源:澎湃新闻·澎湃号·湃客
字号

原创 数字生命卡兹克 数字生命卡兹克

今天给大家看个新东西,聊一聊我在怎么防AI洗稿。。。

对于我这种内容创作者来说,最怕的洗稿方式是什么?

不是全抄,全抄的话很好举报,而是一帮AI抄袭缝合怪。

经常会有人,复制我文章里的某一段话,然后用AI重写后,贴到他们的文章里去。

主要,这玩意儿还很难举报,因为根本没法管。

我曾经想过用一些手段,来防止洗稿,但是没什么用。

直到之前,我往回翻的时候,看到了一篇帖子。

这是OpenAI的创始成员Karpathy之前发的推文。

这个帖子的大概意思就是,它在一个emoji藏了很多信息,而这些信息,是你看不见的。

然后直接把DeepSeek R1干懵逼了10分钟。

你可能会非常好奇,往emoji里面藏信息,跟洗稿有啥关系。

最开始的时候我也没想到有啥关系,直到我把尝试了一下,在一篇文章中中用这种方式埋了Token,看到这篇文章在公众号后台的正文字数从2000字变成了将近3w字。

我悟了。

于是我几天前写了一篇,在这篇文章里,就埋下了这个菜单,昨天关于Manus的那篇也埋了。

你们可以去试一试,把这篇文章复制到word里。(有死机风险,谨慎)

但是如果你们看完全篇的话,会发现,文章满打满算也就2500字。

而这多出来的1w多字,就是我用Karpathy说的方法,往文章里埋的彩蛋。

你我都不会看见,但是字数统计会发现。

而现在一般的国产AI产品里,会有一个很有趣的设定。

就是token限制。

如果你把这篇文章,发给一些改写工作流的智能体,你就会发现。

而发给一些AI Chat呢。

Gemini也自己截断了。

GPT 4o也懵逼了。

这个时候,其实就用一种非常原始、非常粗暴、非常智障的方式,能限制洗稿,因为根本输不进去。

直接变成Token炸弹。

当然,坦率的讲,对于一些推理模型来说,防不住,这个我是真没招。

而对于做RAG和知识库来说,却并没有任何影响,可以正常问答。

所以也可以避免,误伤友军。

这里,我也给大家举个通俗易通的例子,来讲下这玩意原理是个啥,以及怎么做我文章里的这种Token炸弹。

我们全世界的人在系统上,能看到统一文字,主要得益于Unicode,你可以理解为这是一本全球大字典,把地球上所有国家、所有民族用到的文字、符号和表情,统统都收进来了。

然后每个字符,都给它安排了一个固定的、不会重复的编号。

比如:字母「A」的编号是U+0041,汉字「你」的编号是U+4F60,表情符号的编号是U+1F602。

对,你天天用的各种emoji其实也是Unicode。

而在Unicode中呢,有一个特殊的玩意,叫变体选择符(Variation Selector, VS)。

它能在一个字符后面加一些特殊的信息,让这个字符改变样式或者外观。

比如这个心心。

(❤ + U+FE0F)→ 彩色心形❤️

(❤ + U+FE0E)→ 黑白文本心形❤

后面加的,就是变体选择符。

你可以把文字当成一张纸,变体选择符就像一张透明胶带,上面写了字,但是你用肉眼看不见。

于是,我们就可以,在某个看似普通的文字或表情后面,贴上很多这样的透明胶带。而且理论上能一直往后面贴,想贴多少就贴多少。

在视觉上,你还是只看到一个emoji或一小段文字,但对系统而言,后面其实跟着一大串可以被解析的隐藏字符。

一旦系统或者AI要读取或处理这段文字,就会发现:

“我擦,怎么藏了这么多东西?”

一下子就能把它的token数撑爆。

结果就是,表面看起来没增加文字,但系统的字数统计直接飙升。

而我在Claude3.7那边文章中,把隐藏信息,埋在了Claude 3.7Son︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊net这个单词中的第一个“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”里面。

你可以直接把这个“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”,复制到OpenAI的那个测有多少token的网站里,来看看这个n藏了多少token。

网址在此:https://platform.openai.com/tokenizer

这就是一个,非常隐蔽的token炸弹。

我再给大家演示下怎么找到这些隐藏信息,也就是解码的方法。

特别简单。

打开这个小工具:

https://emoji-encoder.vercel.app/?mode=decode

把文章里我埋彩蛋的“n︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊︊”直接复制到第一个网站,点击“Decode”按钮,即可进行解码。

你可以发现,其实我往这个单词里面,藏了《双城记》英文版的一整章。。。

说完了解码,那如何编码呢?也就是如何把隐藏信息灌进字母里。

还是在这个网站操作。

把按钮切换到Encode,把想藏的信息输入进上面的文本框,然后在下面任意选一个表情or字母即可。

之后你就可以复制最下面文本框里的表情or字符,用微信发给朋友或者存在word文档等平台了。

而且,因为Unicode的特性,实测下来,隐藏信息并不会因为跨平台而被格式化掉。

你还是可以把编码玩的字母,发给微信的朋友,就能给微信页面干死机。或者会显示输入文字过长,无法发送。

我大概测了下,这个极限值是1.5万个token左右,超过就在微信里面发不出去了。

爬虫也一样。

我用Trae写了一段爬虫,把那篇文章给爬下来了。

稍微一运行这段代码,在下面的终端界面里,只要是我埋的token炸弹的位置,全部一片空白。

如果用windows系统导出txt文件,就会全部是乱码。

如果是Mac打开这个txt文件的话,显示的内容就像右图,倒也基本正常。

但是其实这个token炸单,还是保留的。

真的非常非常好玩。

甚至还能把它,当数字水印用。

你可以在发给不同人的文档里,给每个字符都加一点不一样的变体选择符。当文档泄露出去时,若文档里还有这个隐形水印,你就能非常轻松的追踪到是哪一个人的版本被泄露了。

不过我最后的用处,是用非常幼稚和暴力的方法,用它来防洗稿。

我知道,有人肯定会说这招太野路子,或者对推理模型根本没用,或者在更高端的文本抽取技术面前还是挡不住。

但我只是一个想保护自己原创不被AI无脑洗稿的普通写作者,用小成本就能干扰到绝大多数以GPT 4o、Gemini 2.0级别做段落拼贴的自动化洗稿党,那其实已经足够了。

这方法虽然粗暴,却比啥都不做要强。

毕竟创作者的伤痛,就在于辛辛苦苦打磨的心血成果,被一些人,用一些手段,分分钟变成别人的生意,你连哭诉都找不到门路。

就这样。

如若这个小东西,也能帮到你。

那对我来说就值了。

>/ 作者:卡兹克、芝兰山

>/ 投稿或爆料,请联系邮箱:wzglyay@gmail.com

原标题:《我把我的文章手搓成了Token炸弹,发现这样居然还能防AI洗稿。》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    1
    收藏
    我要举报
    评论(12)
    发表
    热评论
    这篇文章看得我脑洞大开两个世界的对比真有意思!
    2天前 ∙ 河北
    回复
    举报
      拉法耶特真有意思!
      2天前 ∙ 河北
      回复
      举报
        两个世界的对比很有启发!
        2天前 ∙ 上海
        回复
        举报
          很喜欢这种历史视角拉法耶特真是个传奇人物!
          2天前 ∙ 陕西
          回复
          举报
            新评论
            这篇文章看得我脑洞大开两个世界的对比真有意思!
            2天前 ∙ 河北
            回复
            举报
              拉法耶特真有意思!
              2天前 ∙ 河北
              回复
              举报
                两个世界的对比很有启发!
                2天前 ∙ 上海
                回复
                举报
                  很喜欢这种历史视角拉法耶特真是个传奇人物!
                  2天前 ∙ 陕西
                  回复
                  举报
                    加载中
                    • F1燃擎上海
                    • 王毅谈第11次中日韩外长会共识
                    • 民政部将施行婚姻登记“全国通办”
                    • 礼来北京创新孵化器正式投入运营,首家合作企业签约入驻
                    • 何立峰分别会见美国联邦参议员戴安斯、新加坡淡马锡董事长林文兴一行
                    • 网络流行词,指避免陷入无意义的“内卷式”竞争
                    • 植物细胞壁的主要成分

                    扫码下载澎湃新闻客户端

                    沪ICP备14003370号

                    沪公网安备31010602000299号

                    互联网新闻信息服务许可证:31120170006

                    增值电信业务经营许可证:沪B2-2017116

                    © 2014-2025 上海东方报业有限公司

                    反馈