澎湃Logo
下载客户端

登录

  • +1

数字人文|机遇与困局之间:有关古籍“搜商”的教学笔记

张昊苏(南开大学文学院)
2021-07-13 14:33
来源:澎湃新闻
私家历史 >
字号

近些年来,“数字人文”这一名词越来越多地出现在人文科学者的笔下。文科从业者是否必须掌握编程技术,具备自建专题数据库的能力?此类议题明确昭示:我们已处在“数字化生存”的特殊环境之中。即使是在传统学科、主要采取传统方法治学的学者,也大量引入了“e考据”(尽管未必每个人都认同这一叫法)的研究方式——借助互联网、大数据带来的方便,学者得以查询到以往不易获得的海量文献,并通过数据库提供的检索功能详尽梳理信息,从而大大提升研究效率,并发现更多新材料与新问题。

新技术的探索、掌握,并非笔者所擅,但数年前即开始参与“文献挖掘整理研究会”的相关活动,有意识地关注相关信息、资源。

“文献挖掘整理研究会”沙龙海报,约请黄一农教授主讲“e考据的经营模式”,通讯稿见张子轼:《“大数据”与考据新生态》,《中国社会科学报》2018年12月17日。

不过,当时的关注点主要在于学习、了解一些前沿议题和最新动态,并且抱有一种可能过于乐观的想象——新一代的学习者将轻易地进入到这一领域,至少普遍是在技术水平上迅速超越前代从业人员。

近一二年,笔者在开设“古代小说文献学”等专业课程,及指导本科生写作学年论文、毕业论文时,才深切意识到另外一个问题:在十多年前困扰着学习者的若干问题,现在依然困扰着相当一部分的新世代学习者。技术已有迭代、资料库亦更丰富,但如果并不具备相应的数字理念与实践训练,这些变化也并不那么容易直接影响到普通人的学习轨迹。真正熟悉掌握“数字工具”开展文史研究的前沿从业者只是少数,倘若一位学习者在求学之初并未学习过系统的数据检索知识、未受过严格的数字方法训练,就会在走上学术之路的过程中面临更多不必要的荆棘。为了避免这种弯路,在教学中通过某种方式,使学生具备最低限度的“搜商”,也许(在很多地方)是更为切实的任务。有理由相信,能够熟练驾驭各类数据库,通过网络获取学术前沿信息的求学者,其获取信息、建立知识结构,乃至突破课堂教学局限性的能力也将超过普通同侪。在这一前提下,尽量夯实基础、提升平均水平,可能会令某些前沿议题更具有深化、推拓的可能性。

在笔者所供职的南开大学文学院,开设有“古典文献检索与利用”等多门专业选修课,但不少有志于古代方向的本科生并未选修,或较晚选修,因此常常带着比较单一的数字技巧,就进入到较专深学术问题的研究、写作中去。即使是选修上述课程的同学,也限于个人既有的体悟,未必均能熟练掌握检索工具,并深切洞悉数字技巧的重要性。前置训练不足,对于某些常识性问题并没有建立起特别深切的体会,就往往需要经过一段摸索的“弯路”,导致事倍功半。服务于个人研究的“痛感式补救”当然不失良策,但若能尽量直抵目标,则是更加理想的状态。在前不久召开的一次院内青年教师工作坊中,笔者简单报告了对这些问题的思考。

从不同学科教师的分享、讨论来看,尽管各人面临的具体问题不同,但这种趋势可能并非个例。仅举笔者亲历的几个例子为证。

笔者指导的Z同学(本科生)就在论文写作过程中,因缺乏核查经验,遭遇不少弯路。

“中国基本古籍库”《随园诗话》局部截图

熟悉清代文学者当然一眼可以看出问题:袁枚(1716-1798)的《随园诗话》是其晚年著作,最早刊本应为“己酉本”(乾隆五十四年,1789。说详包云志:《<随园诗话>中有关<红楼梦>一段话的前后变化——兼谈<随园诗话>的版本》,《红楼梦学刊》,2005年第4期。)所谓“乾隆十四年刊本”根本绝无可能。这属于根本不必核查的错误信息,但因《随园诗话》所涉问题本就相对复杂,该版本信息又出自重要的数据库,就影响了Z同学的认识。

有趣的是,X同学提交的某课程作业,则属于应核查情况却并未核查的。该作业引用了题署为清代王光撰写的《史记集解》。出于对“王光”这一陌生姓名的兴趣,笔者尝试检索了该书情况,很快发现,引文实出自流行的“三家注”。裴骃的《史记集解》何以变为“王光撰”?经核查,发现这一错误来源于某知名古籍库的错误著录。这一误植当然不会影响到有经验的学者,但对于初窥某领域古籍的学生来讲,就极易因轻信数据库信息而出现低级错误。相对较少的知识基础,相对繁重的课业,也使得学生没有余裕、没有意识去细致核查这些问题。

“鼎秀古籍库”《史记集解》局部截图

上述两个例子,可以说属于相对“低级”的错误——涉及的人物、著作、文本均为常见书,故有经验的学者比较容易辨识。但在相对冷僻的著作中出现类似的情况时,如果不细致核查原文,是不易发现的,这在现有研究中也时常出现,有时也可能误导具备一定水准的学者。

首先要特别说明的是,笔者绝无意于否定电子数据库的价值——相反,正是由于大量电子数据的发布(包括免费的与付费的,较权威的与稍芜杂的),才为学者提供了相当良好的研究机遇。如前文提及的Z同学,通过广泛运用各检索网站,较快地在浩繁卷帙中发现清代文献的若干问题,关注到此前学者未能细致掌握的具体文献细节,其思考颇具学术价值。如果要说遗憾,那就是在有限的写作时间内,由于在材料核对上花费了较多精力,未能彻底解决全部问题。这可以看出电子数据库的“双刃剑”性质,只有亲身把握各数据库的特性,方能自如、高效运用。这令笔者想起自己在本科阶段写作论文,也曾遇到完全相同的问题,经李小林师、杨洪升师,先后据具体实例详细指谬、修改,才慢慢意识到问题之所在,并逐渐窥得文献研究的某些门径。此后逐渐发现,接触到的友人、学生,“重蹈覆辙”者亦为数不少,这种“轮回感”常令笔者感到颇为沮丧。

由于上述细节硬伤广泛出现,学术期刊多不允许征引电子文献。这当然是严谨的做法。但在实际教学中,如何将这种规范的必要性高效传达给学生,是笔者并未解决的问题。此外,日常运用各类电子数据库的研究者,也时时为核查纸质引文而感到较多困扰。如何形成一种能够兼顾效率和准确性的征引机制,如何为已有数据库提供勘误的良性循环(现在不少数据库具备此类功能,但成效如何似可怀疑),使电子文献逐渐成为可靠、可征引的对象,也许又是一个亟须解决的问题。

H同学的论文写作则面临另一个层面的问题:除基本的全文检索之外,如何灵活运用相对“高阶”的技巧,发现、解决某些学术难题。

黄一农先生的“e考据”研究早已展示了若干经典成功案例,如果对相关议题较富好奇心,或有较强的触类旁通能力,应能从中摸索出一套适用于个人研究的检索方法。笔者在不同场合多次向诸生推荐黄先生的研究,并期待着能够通过这些已有案例,提炼出一套更易于掌握的操作指南,以应用到个人的阅读、研究中去。认真玩索其书,有助于进一步提升个人“搜商”,这大概包括但不限于:对各类数据库游刃有余地运用;不同关键词的交替使用与熟悉筛选;行文中附录、图表的加意安排,等等。在一种更“科学”的“经营模式”下,可以用较强的信息素养补救个人某些领域学养之不足。

H同学在研读清代红学文献时,即发现清人常常运用多种语义转换方式解读文本,有些典故出处、批评思路不易索解。在笔者的提示下,参考黄一农研究“干支缀日”的研究法(参黄一农:《甲戌本<石头记>中“甲午八日”脂批新考》,《湖北大学学报》2017年第1期。),运用“中国基本古籍库”的高级检索方式,及“搜韵网”自动笺注、对仗语汇等相关功能,较快地熟悉了相关文本,并发现了若干新材料,且深化了理论思考——通过“大数据”有助初步窥得古诗词注释的基本门径,并逐步开始理解典故、词语注释的诸多核心问题。在此基础上还可发现,“语义转换”的任意性,及某些语词的类似性,可以使材料服务于先入为主的成见;但如善于取用、甄别,也可看出前人书写所依据的具体文化脉络。

通过搜韵网“对仗词汇”功能,可以展开对某些对仗语例的分析,在此基础上可以较快找到新的思路和观点。善用这些数字工具者,还可对新世代的索隐、考据、互文之学提供不同的理解思路。

黄一农先生曾经在主办的“e考据与文史研习营”《招生公告》中指出:

当e考据有可能提供学者一座能爬上巨人肩膀的新型“电梯”时,如何睁大眼睛看得更远,并讲出一个精彩的故事仍属不易。

一面,是在看似“无献可征”之处打捞出更多有意义的材料;另一面,则是逐渐培养驾驭复杂纷繁文献的能力。对纸质文献与电子文献均有比较全面的认识,兼顾人脑与机器的不同特质,这大概是给新世代研习者的任务。

某些文史小工具的运用也有助于高效解决问题。在笔者主讲的“古代小说文献学”课程中,不少同学提出在撰写书籍提要、研讨递藏源流时遇到困难,笔者推荐了“字鉴”微信小程序、“国学大师”网站等,某些问题由此得到较轻易的解决——普通人可以在几分钟的时间内,释读绝大多数不认识的印章文字,以最大限度地掩盖缺乏文字学常识的短板。这尤其有助于青年研究者避免写作硬伤,而且有可能扬长避短,做出“后发先至”式的研究。

图1:某古籍上无法辨识的钤印文字

图2:L氏以拙劣字体粗略摹写后,通过“字鉴”微信小程序识别的结果

图3:通过“国学大师”等网站进一步核查相关信息,解决问题的效率要高于传统查阅方式

如何通过网络获取各类文史信息,建立讨论群组,形成个人的知识-交游网络,也是一个值得思考的问题。笔者在读博士期间,一度对已故青年学者林嘉文(1998-2016)的研究历程颇感兴趣。林氏在中学业余时间自学历史,撰写了《当道家统治中国》(2014)、《忧乐为天下》(2016)两部著作,并且引发了相当不错的学术反响。仅就后一书的附录及出版座谈发言内容看,林氏乃是以中学生身份,参与“预流”之研究,且不仅文笔老道清通,见解亦多可圈可点之处,学者评价“完全符合学术规范,言必有据,注文长达6万多字,占全书五分之一以上。博览群书,引证古籍127种,今人论著311种,其中外国著作四十余种。充分吸收了国内外有关范仲淹庆历新政的成果,对于有争议的问题,作了认真的分析,提出取舍意见。其治学态度是严肃认真的。其水准放诸当今有关范仲淹庆历新政较为优秀的论著之列,也是当之无愧的”(李裕民先生序)。据林氏自述,除读书自学之外,较大程度上依赖于网络学习,尤其是在微博上接触相关学者与学术信息。值得注意的是,林嘉文的自学经历绝非个例,而具有相当的代表性。以笔者本人的问学历程来看,网络的影响(包括信息获取、同侪讨论等诸多方面)也已高于传统的线下学习方式。在古代文学研究领域,也不乏“非科班”学者,能够在现有网络环境下,与圈内学者保持联系,掌握各类数字资源,从而完成相当扎实的学术研究。很遗憾无法想象接受了系统学术训练、又有机会系统运用各种数据库的林嘉文将会有何成就,但仅就此吉光片羽也足以看出,新世代青年人的成学之途已经相当多元,传统的知识体系、培养方案或亦应随之调整。数字素养有助于普通学人做出超越前贤的深度探索,且其并不会遮蔽那些“充实而有光辉”的努力。

毫无疑问,古典文献的数字化程度正在不断刷新历史新高,学者似乎没有理由抱怨资料不足或者难以获取之类的问题。但是,依然要指出的是,“数位落差”一直存在且可能愈演愈烈。夸张一点说,这甚至导致“最低限度”都处在难以保障的环境之下。能否有机会使用各类付费数据库,极大依赖于所处研究环境之不同,而学术研究的“上限”与“下限”或受其制约。笔者曾根据部分高校图书馆官网的公开信息,对不同学校的数据库资源做过不完全统计。以文科见长的N大学,2020年度在图书馆官网检索可得中文数据库为61个,2021年度则为40个,即使考虑到网页显示等问题,也可推断N校的数据库存在某种瓶颈——作为参照,不少国内知名大学所购买的中文数据库在150个左右。笔者供职的南开大学,古籍、文史数据库购买已算为数不少,但像“中华经典古籍库”(收录约十亿字以上的整理本古典文献图书)这样极为重要的古籍数据库就并未购买;与笔者研究领域直接相关且更为专业的中国俗文库、历代别集库等,当然也很难抱有期望。尽管这些困境可以通过个人购买、委托查询等方式尽量摆脱,但获取信息的效率已然较低,相关技巧性的“门槛”也并非人人都能轻易迈过,或有意识去跨越。另外,即使是同一个数据库,不同机构购买的数据量也可能是不同的,这一问题往往不易被使用者察觉,背后的数字鸿沟可能更不易详细研判。

经费更为紧张的高校,则往往连“中国基本古籍库”(18亿字以上古籍原文)、“读秀”(10亿页以上图书原文)这样的著名数据库也未能齐备。对部分重要数据库不再续费购买,对研究者当然也有直接影响。不客气地说,仅从数据字数的多少来看(这已经将很多重要的数字人文研究工具排除在外了!),当下的数位落差已经动辄以亿字、甚至十亿、百亿字为单位,高位者所面临的数据困境,在低位者看来可能是“何不食肉糜”,而笔者闻见所及,似乎也没有太多学人对高校购买数据库的“平均值”或“中位数”加以深入统计、探讨。

而公开获取类的数据库、网站,也常常面临另外的问题。比如,很多网站存在相当的不稳定性——“国学大师网”近来的特殊状况及引发的讨论,当然是一个有意味的显例。如何在教学、研究中摸索出一种相对平衡的模式,尽量具备解决数位落差的能力,也许还值得进一步努力,并经由某种可操作的方案普惠及更多的学习者。

本文所谈,并不拟、也无力系统论述全部问题,只是希望揭示一点:即使只从纯粹的文献检索“术”出发,“见过于师”也是需要训练的。如何使学术研究的初学者快速提升“搜商”,并充分利用年轻研习者易于接受新技术、学习精力充沛等优长,使之达到甚至超越教师的文献检索水准,有效方法还需进一步探索。这是否属于另一种版本的“生活在树上”?笔者难以判断。惟入职前夕,曾面聆Y先生之教诲:“我们落后了,但不希望看到我们的学生还是落后的,要想法走出来”——假若教师对某些文献研究前沿都并不了解,又如何提醒学生具备相应意识呢?于是,时时念及个人于学海所窥极浅,在诸多重要领域亦未能预流,故不敢不常葆惕厉之心矣。

    责任编辑:彭珊珊
    校对:丁晓
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈