澎湃Logo
下载客户端

登录

  • +1

让古籍活起来,原来这么热血

2021-05-20 12:12
来源:澎湃新闻·澎湃号·湃客
字号

半年前,

央视有一部综艺大火

——《典籍里的中国》。

从《尚书》到《天工开物》,

从《史记》再到《本草纲目》,

“当代读书人”与“古代先贤”对话,

展现那些典籍在五千年历史长河中源起、

流转,及书中的文脉风骨。

都说念念不忘必有回响,

半年后的今天,

让无数读书人魂牵梦绕的:

文澜阁《四库全书》零本、

北宋《金粟山大藏经》写本、

以及著名学者钱谦益、翁方纲、

王韬的抄本、稿本等20万余页海外古籍,

正通过数字化的方式回到了“它们”的家......

典籍散佚,古已有之。

因邦交、贸易、战乱等,历史上中国古籍时有出海,近代以来,战争和动荡更加剧了古籍的损毁和流散。据不完全估计,散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。

“我们在图书馆看到的古籍,其实有的已经有几百年,甚至上千年的历史,有的已经破碎了,所以我们每一次翻阅古籍的时候,都是小心翼翼的,生怕稍微动作大了一点,甚至出口气,祖先留下的文化遗产就受到破坏。”说话的人是陈力,中央文史研究馆馆员,四川大学教授,原国家图书馆副馆长。

对于四川大学历史文化学院副院长王果而言,“以往的学者读古籍都是靠记忆,但是人的记忆力毕竟是有限的,而且古籍的浩瀚程度也超出了一个人所能记忆的范畴,所以我们一直以来缺乏一种有效的对古籍的搜索工具。”

如果水流起来才有活力,那么书便是只有更多的人去读它,它才能有真正的价值。两年前,阿里巴巴达摩院联合四川大学古籍学者探讨古籍数字化平台的实现方案,并获得加州大学伯克利分校东亚图书馆的支持,将首批20万页古籍实现数字化回归。

两年后的今天,他们交出了一份完美的答卷:一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化方式回归故土,落地汉典重光平台,向全世界开放。首批数字化的20万页古籍包含40余种宋元刻本、写本,其中不乏消失多年后重回公众视线的珍本,而这些古籍几经颠沛,终归故里,都源于多年前的一份文化情怀......

2018年,在哈佛燕京图书馆看到散佚古籍的高晓松,内心只有一个问题:能不能以数字化的方式让这些古籍回归祖国?之后达摩院秘书长刘湘雯辗转得知了这份情怀。“当时就觉得很好奇,我们能做些什么......”刘湘雯说。

一本古籍,从扫描影印,到文字标注,从实现识别检索,到形成知识图谱,在留存保护和被焕活被读懂之间,横亘着无数从未面对过的技术难题......

古汉语常用字仅有几千,但中国古籍全部字符约有几十万,绝大部分不仅没被现代字库收录,也几乎找不到样本供AI学习。面对海量无标注的数据,如何让AI快速批量识别古籍,始终是古籍数字化领域的技术瓶颈。

“我们当时的图像识别率,其实已经非常好,我们大部分都可以做到三个9,也就是99.9%的这样的一个识别率。所以对于有这样的一个技术,如果也能够用到古籍上,但是具体有什么样的挑战,其实是不太知道的。”从纸质到真正实现数字化,甚至到用户能有一个很好体验的过程,每一步,都其实有着巨大的鸿沟。

传统的古籍数字化方案,往往依靠纯人工标注进行录入,清代《四库全书》全书7亿字,当年动用了4000多名抄书人,花了10多年才完成书籍编撰,而中国古籍存量浩如烟海,提升识别效率正是技术团队的核心目标。

于是,达摩院技术团队与四川大学专家开展合作,研发了一套全新的古籍识别系统。利用单字检测、无监督单字聚类、小样本学习、主动学习等机器学习方法,构造了一套边识别古籍、边训练模型的系统。

经过两年多反复迭代,达摩院视觉实验室不仅实现针对20万页海外回归古籍97.5%识别准确率,更沉淀出一个珍贵的古籍文字字典,如今可以识别出3万多个字类,近3000种生僻字。该系统已能批量识别百本古籍,并沉淀覆盖3万多字的古籍字典。比起专家录入,这套人机交互的识别系统将效率提升了近30倍。随着古籍识别规模的扩增,机器还会自我进化,不断提升准确率和效率。

后来,跟古籍打了一辈子交道的陈力说:“典籍是中华文明的传承载体,更是人类世界的公共财产,希望有更多力量参与中国古籍的保护和传承,让所有蒙尘的古籍都进入公共世界,让更多普通人有机会接触古籍、使用古籍,让书写在古籍里的文字活起来。”

让散落在世界各地的古籍,

无门槛地为人们使用,

也让我们借由古籍,

跟老祖宗们来一场穿越时空的对话,

所谓“为往圣继绝学”,

便是如此。

汉典重光首批海外古籍数字化回归超过20万页,

针对当前20万页古籍识别准确率达到97.5%,

识别效率比人工录入提升近30倍,

形成古籍汉字字典沉淀字类3万个......

原标题:《让古籍活起来,原来这么热血......》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈