下载客户端

网络不规范字词研究：常见错误或通过输入法记忆功能被固化

澎湃新闻记者李敏

2023-06-08 07:35

来源：澎湃新闻

网络不规范用字问题频发，不仅影响人们对汉字的理解和使用，也对公众造成不良示范。一些常见错误可能会通过输入法记忆功能固化错误选择，成为网络不规范字词出现的重要原因。

6月8日，由澎湃新闻牵头发起，上海人工智能研究院、上海市信息安全测评认证中心、上海新华传媒连锁有限公司和上海蜜度信息技术有限公司联合共建的“数字内容生态实验室”发布《网络不规范用字用词现象研究报告》。实验室随机抽取2022年12月到2023年3月期间互动论坛、数字报、客户端、微博、网站、微信、短视频平台七类信源内容，形成具有4946.3万条、706.6亿字内容的样本。经过排查发现，网络语言环境中的不规范字词主要包括误用繁体字、异体字、异形词、常见错误等。

报告显示，按照错误类型统计，常见错误是出现频率最高的类型，占比超过六成；繁体字也是较常出现的错误类型，占比达到20%；异体字、异形词出现相对较少，因异形词、异体字可将规范文件纳入输入法数据库，通过选词推荐等技术手段减少误用。相较而言，形近字、形近词错选等常见错误以及公众主观通过错用体现个性的情况更易发生，且可能通过输入法记忆功能固化错误选择，成为网络不规范字词出现的主要原因。

不规范字词分类统计

针对互联网不规范字词现象，报告从多角度分析不规范使用行为背后的原因，包括人机交互输入方式的限制、创作者能力参差不齐、网络个性化表达促成不规范用字用词风气、专业内容平台示范作用有待进一步发挥等。报告认为，其中，互联网时代的人机交互方式是导致互联网汉字不规范使用的重要原因。相比手写等传统记录方式中逐字思考记录，使用计算机录入可通过输入法的联想功能大大加快内容输入速度，但更容易出现形近、音近字选择疏忽；输入法选词推荐同时呈现字音相同、字形相近、字义不同的易错词，增加了困惑和误用的可能性。

对此，报告认为，以输入法技术优化促进汉字规范使用是减少网络不规范字词最直接的方式之一。受技术限制，过往输入法仅通过正在输入的拼音等信息进行字词推荐。结合人工智能语言模型等前沿技术优化输入法功能，实现结合上下文语境推荐选词，提高选词准确性。在内容发布平台引入智能不规范字词监测工具，优化文本内容检查功能，如微信公众平台的疑似错别字自动检测系统，以及澎湃清穹内容风控智能平台、铀媒等专业的内容审核、校对及管理工具，协助内容发布者正确规范用字用词，形成互联网正确使用字词的氛围；推广针对不同文体、主题的不规范字词检查工具，以技术手段促进汉字文化传承。

上海蜜度智能校对事业部总经理张晓娟表示，目前，国内已有智能校对系统能够针对汉语特点，将字义、字形和字音三类信息以多模态方式编码进大规模深度神经网络中，捕捉句子的细粒度语义信息和长程语义依赖关系，实现错别字、冗余、缺失、语法错误等文字差错的自动识别，同时具备主动演进策略，能够持续学习新的语言现象以改进校对效果，是人工智能技术在语言文字处理领域的典范，为语言文字规范性的监督管理工作提供了有力支撑。