- +1
专访斯坦福东亚图书馆馆长:数字时代不比拼陈寅恪式的记忆力
在数字化浪潮席卷全球的今天,电子搜索工具的普及使得从浩如瀚海的资料中获取信息变得易如反掌。在数据库的帮助下,动动手指就能全文检索《二十四史》、足不出户可以看到全国的地方志,古今中外众多研究成果垂手可得……那么,以史料收集与处理为基础的历史学研究,门槛降低了吗?数字时代给研究者带来的是更公平的机会吗?在澎湃新闻的采访中,美国斯坦福大学东亚图书馆馆长杨继东给出了否定的回答。
作为1980年代的历史系学生,杨继东自诩经历过用卡片整理史料的“手工作坊时代”。他于1991年毕业于北京大学历史系,1994年赴美国宾夕法尼亚大学攻读亚洲与中东学博士,曾任宾夕法尼亚大学图书馆中文部主任、密歇根大学亚洲图书馆馆长,自2013年开始任斯坦福大学东亚图书馆馆长。现在的杨继东是数字化研究工具的深度使用者,也因工作关系每天与各大数据库公司打交道。他认为,非电子化时代之前的资料都将电子化,但变革远不止于此。那么,数字技术已经或将要给历史学带来什么变化?
电子检索的时代来临之前,“宅男宅女”没法做研究
澎湃新闻:您于1984-1991年在北大历史系学习,当时的历史学训练和历史研究主要借助哪些工具?
杨继东:那时北大历史系本科分世界史、中国史两个方向,我读中国史;后来研究生导师是张广达先生,学的是唐史。北大的史学训练是严格而传统的,比如学唐代制度史,就得从《新唐书•百官志》、《旧唐书•职官志》、《通典》、《资治通鉴》读起,做一些非常基础的工作,做论文也是你写中书省、我写门下省,都是这种训练。
查阅典籍基本上要去图书馆,但当时一些典籍有索引,相对便利些。上世纪20-30年代西方的索引(英文Index,也译为“引得”)引进中国后,产生过一个“索引运动”,实质上是学习西方社会科学的研究方法,给中国的古籍做索引。1949年以前,位于北京的哈佛-燕京学社、中法汉学研究所等机构都为中国古籍做过索引,如哈佛-燕京学社的引得编纂处就为《春秋》、《左传》、《大藏经》、《水经注》等出过索引,后来在上海出版。《二十四史》的标点本,每本书也都有人名和地名索引。这对我们来说是非常有用的工具,类似于电子时代的全文检索。
《墨子引得》,哈佛燕京学社引得编纂处,1948年5月
历史学者洪业(1893—1980),曾主持哈佛燕京学社引得编纂处工作二十余年。
澎湃新闻:您从什么时候开始利用数字工具?常用哪些数据库?我们知道您现在除了图书馆工作外还在进行汉唐历史研究,也是一个电子设备的深度使用者。
杨继东:1994年我去美国读博士,感觉跟国内有很大不同。当时国内还很少人有自己的电脑,更没听说过e-mail,只有一些科技工作者和工科研究者可能了解。我申请美国学校的推荐信等材料,都是用打字机打的,有些甚至手写,邮寄到美国。我刚到美国,学校就让我办理e-mail账号,我当时还纳闷什么是e-mail?
当时美国的图书馆已经有在线目录,和现在的系统相比当然比较落后,有点像纯文字的DOS系统,要输入指令,但在学者中已经被广泛使用,是查资料必备的电脑知识。使用电脑的趋势到1990年代末就很明显了。
大陆的崛起也很快,做了不少全文古籍数据库,比如直到现在还很流行的“国学宝典”。台湾制作的中文全文数据库也被北美中国学界广为利用。“中研院”史语所开发的二十五史数据库、“汉籍电子文献”数据库的部分内容(包括十三经、二十五史等)于1990年代向全世界的学者免费开放,在很长时间里成为北美学者研究古代中国的首选电子资源。
以中国古代史为例,常用的数据库有两类:一是原始资料的数据库,如《二十四史》、《全唐文》、《大藏经》等,二是研究成果的数据库,如期刊、电子书等。宋朝以前的古籍文献,现在基本上都有电子版,除了少数几种——甲骨文、出土汉简、敦煌文献,其中敦煌文献有部分实现了数字化,但还有一些因为很多字在当前的字库里还没有,所以暂时无法处理。至于宋朝以后的原始资料,内容庞杂,但我相信将来一定会全部实现电子化。
澎湃新闻:数字技术对您个人的历史学习和研究带来了哪些变化?
杨继东:1990年代我刚到美国费城宾夕法尼亚大学读书的时候,在写论文的阶段几乎每个周末都要去普林斯顿大学,因为那里收藏的中文、日本资料非常齐全,连一些地方性的小学院的学报都有。我有时候坐火车去,有时候搭我的老师梅维恒(Victor H. Mair)的车去,因为他也要去找资料。时间很紧,每次要提前在网上查好目录,看自己需要复印什么资料,一到那里就从早到晚开始复印,一天印几百页。由于普林斯顿的东亚馆只有一台复印机,我经常要跟我老师“抢”,但我“抢”不过他。
到了1990年代后期,我就突然发现没必要去了,因为清华同方的数据库已经出来了。日文的《中国关系论说资料》把整个研究中国的期刊汇集成册,每年一辑,也出了光盘版,宾大都买了。
这确实是非常明显的变化。以前你足不出户没法做学问,现在在家里做宅男宅女也可以研究学问。
美国历史学界领跑数字化,中国大陆是后起之秀
澎湃新闻:美国学术研究机构对原始史料的数字化工作是何时起步的?
杨继东:美国相当早,1980年代电脑刚刚普及的时候就开始做了,包括一些研究中国的学者,也开始利用电脑处理原始资料。
研究宋代社会经济史的郝若贝(Robert M. Hartwell, 1932-1995)从1970年代开始就和他的夫人、学生一起,陆续将大量宋代人物传记资料录入电脑,并开发出一种分析研究这些数据的软件。
与近些年来开发的那些只能提供字词检索的古籍全文数据库不同,郝若贝数据库中的人物资料多是经过研究者在阅读理解原始材料以后输入的,在每个历史人物下都列有一套比较完整的信息,比如生卒年月、籍贯地望、亲属关系、官场履历等等。学者可以利用这些数据做归类和分析。
郝若贝夫妇去世以前将这套数据库遗赠给哈佛大学。在包弼德等人的领导下,数据库的内容和软件不断更新,近年成为哈佛与北京大学、台北中研院史语所等机构共同启动的“中国历代人物传记资料库项目”的基础。
我用过这个数据库。它和二十四史这类古籍数据库不同的地方在于,能够显示很多相关联的东西,比如一个人不同的字号、官衔、地域、亲属联系等,都做了链接,这些链接就给研究者很大的帮助。还有地理信息的标引,如果你要在地图上找这些人都能找到,精确到某个县某个村。这就比其他古籍数据库更进一步。
当然1990年代以后做中文文献数据库的主力是在中国大陆。
中国历代人物传记资料库(CBDB)项目中,由453人与新儒家朱熹来往的2717封信中归纳出的社会网络关系。图片来自CBDB网站。
CBDB资料库中人物居住地的人口密度分析,以及这些地方人物社会关系网络密度分析。图片由Adam Mitchell,Darius Li制作,来自CBDB网站。澎湃新闻:对历史学界影响较大的中英文数据库有哪些?
杨继东:最常用的就是JSTOR,它包含了北美一些最重要的亚洲研究刊物,比如《哈佛亚洲学报》(Harvard Journal of Asiatic Studies)。JSTOR原本是非盈利性机构,它最早是从我以前所服务的密歇根大学发展起来的。其特点是只收录历史过刊,一般是3-5年以前的研究成果。进入21世纪以后,JSTOR还将工作范围扩展到欧美地区的主要艺术博物馆、图书馆,将这些机构搜藏的大量艺术品拍摄成数字照片,并在此基础上建立ARTstor图像资料库。资料库的中国艺术图像来自纽约大都会艺术博物馆、旧金山的亚洲艺术博物馆、英国图书馆的主导的国际敦煌项目等等。
ARTstor数据库而收录最新的期刊的全文数据库有Project MUSE,还有ProQuset,欧洲也有几家数据库。
ProQuest公司总部在密歇根州安阿伯市。检索美国大学的博士论文,最常用的工具就是ProQuest Dissertations数据库。美国几乎所有大学的博士论文,除了在本校图书馆或档案室有留底外,还要向ProQuest公司寄送一份拷贝。但此库只提供索引,阅读全文需购买。
除了刊物以外,越来越多西方学术专著也开始以电子和印刷两种方式出版。比如谷歌(Google)与密歇根、哈佛、斯坦福、牛津大学以及纽约公共图书馆合作推出的图书数字化工程。这个电子图书馆包含数百万各种语言的书籍,其中1923年以前发表的书籍已经进入公有领域,可以在线阅读,1923年以后的出版物可以全文检索。如果想查阅20世纪30年代以前的西方报道和研究中国的书刊,可以利用这一图书馆。在中国国内利用谷歌检索有一定麻烦,但以谷歌图书馆为基础建立起来的 HathiTrust Digital Library 似乎畅通无阻。这是目前美国最大的线上图书馆,它对版权保护的办法跟谷歌图书馆一样,即以1923年为界做不同的处理。
另一方面,来自中国的电子学术期刊和书籍也在北美逐渐普及。中国大陆的清华同方、万方、超星、阿帕比等企业的数字信息产品,以及港台电子学术期刊,都开始被北美学者使用。
HathiTrust Digital Library澎湃新闻:您负责的斯坦福东亚图书馆如何选择购买文史类数据库?目前采购电子资源和纸质书的比例分别是多少?
杨继东:具体买什么数据库由懂得中文、日文、韩文的馆员跟师生联系,了解最新学术动态,按他们的需求采购新的资源。我们每年出钱,由数据库的供应商负责维护数据库。
东亚图书馆每年约投入130—140万美元采购中、日、韩三个语种的数据库。我此前在北京开会惊讶地发现,北大图书馆每年用来采购中文图书的经费跟我们差不多。我认为需要呼吁增加国内图书馆的投入。美国超过20所的大学图书馆的资源采购费用达到2000万美元,哈佛一年有4000—5000万美元,斯坦福有2500万,这还不包括医学图书馆、法学图书馆和商学院图书馆。中国一流大学的图书馆每年的采购费才3000—4000万人民币,这是没办法比的。
你别看进图书馆大楼的人越来越少,用图书馆资源尤其是网上资源的人还是很多的。
至于电子资源和纸质书的比例,如果是美国的医学院和理工科图书馆,电子资源能达到95%甚至更多,基本可以实现“无纸化”。但文科图书馆80%的经费还是用在采购纸质书籍上,包括斯坦福、哈佛这样的学校。这个比例可能会下降,但我个人觉得下降的余地不太大。
这涉及阅读习惯的问题,很多人还是觉得要从头至尾阅读书籍的话,纸质本是最舒服的。很有意思的是,现在美国的中学生可以选择教科书用电子版或纸质版,但是绝大部分孩子还是选择纸质书。那些厚厚的精装本装在书包里很沉,但色彩鲜艳、翻页容易,比如我读高中的女儿就用纸质本教材。
这里还要区分书和刊。期刊将来会全部电子化,因为阅读一篇文章的时间远远少于阅读一本书,而且研究者不一定要阅读整篇文章,他可能只是快速浏览,找个页码引用一下。所以期刊电子化的程度将远远超过书籍。
很多图书馆都在逐渐下架纸质期刊,比如加州大学系统,它建立了一南一北两个仓库,将所有纸质版刊物划归这两个仓库,每个仓库只留一个备份,其他的全部不需要。因为保存这些东西是要花费大量资源的,需要空间、人力等等。而数据库的维护都是公司在做,图书馆向它们付年费就可以了。
据我所知,中国的大学图书馆大部分经费都花在购买数据库上,特别是购买理工科的外文数据库。像北大图书馆购买中文图书的经费只占1/10左右,这个比例在其他图书馆大概也差不多。所以这些钱都被外国做电子期刊的公司赚去了。
斯坦福大学东亚图书馆历史研究“扁平化”了吗?社科文献学面临转型?
澎湃新闻:研究资源的电子化,是否降低了历史研究的门槛?过去学者爬梳史料主要依靠卡片,要看《四库全书》等大部头著作需要去图书馆。而现在,许多典籍已经数字化,主题设定下的资料搜集可以利用计算机搜索完成。
台湾科技史学者黄一农就倡导“e考据”的研究方法,利用电子资源迅速检索大量信息,短短几年内便在他未曾涉足过的“红学”领域做出了不少研究成果。他认为文科研究会产生天崩地解的变化。您怎么看?
杨继东:研究门槛确实在降低,以前可能只有大家才能研究的东西,现在一般学者都能研究,甚至不是科班出身的人也能研究。在数字时代之前,学者们就在比拼记忆力,比如陈寅恪在失明之后,仍然能凭借记忆通过口述做研究,这让人十分佩服。但是电子时代这不重要了,一个普通研究者获得资料的能力可能就远远超过陈寅恪。
资料的获取和检索越来越方便,所以对找资料的能力要求会降低,尤其是像《二十四史》、《全唐诗》、《全唐文》、《四库全书》这些比较大众化的史料都搁在那里大家都能利用。这种检索资料的能力以后不会成为衡量一个学者学术水平高下的主要指标,但是,其他方面的能力,比如理论、学识,包括归纳、分析到最终得出结论的能力,这些东西是无法替代的,也是无法通过搜索数据库而习得的。这些能力还是需要大量训练来培养。
而资源的丰富也有弊端,例如很多人用检索代替阅读。我读张广达先生的研究生接到的第一个任务是把《资治通鉴》从头到尾读一遍。当时觉得很累,但是读完之后收获非常大,读了有将近一年的时间。如果纯粹依靠检索,不通过系统的阅读,你很难发现很多重要的问题和新的研究领域、研究兴趣。所以在电子时代,强化阅读是一个很大的挑战。
澎湃新闻:数字时代使得学术研究“扁平化”,是不是也会产生大量学术垃圾?
杨继东:社会公众对学术资源的接触和了解确实比以前容易得多了。你要是真的想做学术的话条件确实比以前好很多。这个趋势我们应该欢迎,它能让学术研究有更多的受众、更多的读者。
但现在有一个问题就是有些数据库里文章同质化很严重,甚至还有很多互相抄袭。
所以旧的门槛消失了,新的门槛又出现了,你怎么样识别那些优秀的原创性的学术成果,这就是很重要的能力了。比如你研究唐太宗,你在清华同方里面搜索唐太宗能找出很多很烂的文章,把这些文章全部下载下来没有什么用处。那你就要靠你自己的能力去检索和筛选那些优秀的文章。所以学术上的“大同社会”还很远。
清华同方发起的中国知网数据库澎湃新闻:现在我们做的只是把资源电子化,数字检索史料也有局限,除了简单的文献检索和查找功能以外,有没有依靠技术对史料做进一步分析的可能?比如有人通过电脑技术分析词频来研究红楼梦的作者。
杨继东:现在欧美有一种说法叫“数字人文学”(digital humanities),就涉及到用电脑技术做研究的方法。一个非常普遍的应用是GIS(地理信息系统),用于历史地理方面的研究,分析历史上的地理、人文现象。还有,在古汉语研究中,在读音和文字之间建立关系,让电脑模拟古汉语的读音,我知道在芝加哥大学就有美国的学生在做这个项目。这可以开拓很多新的研究领域。
美国有很多人在做数字人文学。因为相较于纸质出版的研究成果来说,它的研究成果形式可以多样化、多层次。它能够突破纸质出版的局限,更能吸引读者。这确实是一个趋势。
澎湃新闻:大学里有一些教授传统的文献检索方法的课程,比如社科文献学,是否还适应今天的研究者的需要?
杨继东: 我认为这门课还是有必要的,但如果我来上这个课肯定会做出大的改变。检索学术资料毕竟和搜索一般生活信息不同,是有技术含量的。
我想这门课应该包括怎样检索西文的和中文的数据库,去了解各种数据库功能的差异和质量的优劣。数据库也是用不同的字库建成的,有的是用国标码字库,有的使用台湾大五码字库,有的用Unicode也就是国际统一码,字库里面字的大小、多少都不一样,所以数据库也是不平等的。这里面有很多专业知识要学习。
你在研究当中不能忽略这些专业的知识,比如说你的电脑里面首先要有Unicode Extention B这个字库,然后你的电脑才能有足够的字显示古汉语文献,因为美国一般的新电脑里面只有两万个汉字左右,如果你不再装一个字库,你就达不到相应的检索能力。
在数字时代还是需要学会怎么样使用这些数据库,如何检索,这不是baidu、 google就能找到的,它需要很专业的知识。所以这种课主要是看老师能不能与时俱进,更新上课的内容。
新技术带来的弊端:检索代替阅读,出现“数字鸿沟”
澎湃新闻:数字时代的史学研究有哪些问题?
杨继东:我刚才说的检索代替阅读就是很大的弊端。
还有很多人指出过(数据库检索的问题),比如检索武则天的相关资料,如果只输入“武则天”,不了解关于武则天的其他称呼,是找不全的。过去中华书局出的人名索引就比较好,把武则天的各种称呼都列出来,做成索引。我也一直呼吁做数据库的人要学习纸本时代做的索引,把索引融入数据库,检索武则天不仅出现有武则天的词条,对于武则天的其他称呼比如武后、武才人等等词条都能显示。所以数据库也需要做得更加精细。
数据库制作过程也不一样。有些数据库,比如爱如生,主要是靠人工输入,这样就比较精确。爱如生是做得比较好的,它的负责人刘俊文先生之前是北大历史系的教授,研究唐代法律制度的权威。但是绝大部分数据库做不到这一点,都是通过OCR软件扫描识别文字,错误较多。所以也有必要让读者了解各种数据库的缺陷,自己做相应的校对工作。
爱如生申报全文数据库澎湃新闻:过去,图书馆买一套《二十四史》花不了多少钱,但数据库就贵得多了。数字时代的历史研究,是否造成了新的“不公平”?
杨继东:是的。数字资源对有些人做研究也是不利的,像清华同方数据库一年要一万美元,很多小的学校买不起。过去只要师生需要《二十四史》,学校就可以去买,几百美元就够了。
所以现在就造成新的数字鸿沟(Digital Divide),以前觉得不错的美国州立大学,现在就发现越来越难以承担师生对数字资源的需求。在美国学术资源越来越向大的图书馆倾斜。美国版权保护特别严厉,未经许可的网上共享要进监狱的。这就对很多中小型学校产生很大影响,这不仅体现在中文数据库上,西文数据库也是如此。
这个局面怎么克服,目前还没有很好的方案。不给钱完全开放获取也无法维持。我们也想了一些办法,像斯坦福东亚馆每年就会向6个外地学者提供游学金(travel grant),让他们来本馆作研究,每人获得700美元的旅费资助。但这也是供不应求。所以数字资源的影响很复杂,不可一概而论。
五局合刻二十四史 (五百七十册)数字技术改变历史研究形态了吗?
澎湃新闻:傅斯年曾说“史料即史学”,20世纪初期的“新史学”讲求运用新工具、新方法去尽量扩充史料,某种程度上是在强调史料在史学研究中的中心地位。当我们借助现代化的电脑网络技术用在一定范围内“穷尽”史料之后,史料在史学研究中的地位是否将发生变化?
杨继东:一些常见的史料大家都能见着,不需要太多个人技能。但不可否认,许多新史料有待发掘。珍稀资料的重要性恐怕没有下降,反而在上升。就像20世纪初敦煌文书的出土,极大地改变了人们对中国中世纪历史的认识,汉简的出土也让人们对秦汉历史有了一个全新的认识。所以新资料的发掘是十分重要的,可能会形成一个新的研究领域。
比如今年7月份我们将在斯坦福举行的一个会议(Beyond the Book: A Conference on Unique and Rare Primary Sources for East Asian Studies Collected in North America),就聚焦于新史料。美国有大量和东亚有关的资料待发掘。比如美国国会图书馆所藏的有关中日战争的资料很少为人所知,新泽西的州立大学Rutgers收藏了许多二战后联合国在华救济署的资料。还有很多美国大学图书馆藏有二战后美军缴获的日军绘制的高分辨率的中国地图,在我以前供职的宾夕法尼亚大学就有几千张,在华盛顿大学和斯坦福大学也有好几千张。这些都是非常有价值的资料。还有美国人以前到中国旅游所拍的照片、摄影记录都在民间大量存在。还有位于费城的长老会档案馆,里面就收藏有大量有关中国的手稿资料。明尼苏达大学有基督教青年会以前在中国的各种档案、照片资料。这些资料对中国近代史的研究都非常有用,所以史料也是新的领域,学者需要不断发掘新资料。
有些资料现在甚至连目录都没有,更别说数字化。我们希望展现这些资料的来龙去脉、历史价值。
澎湃新闻:所以技术带来的“扁平化”仅限于现有资料搜索。您觉得计算机还带来了更深层次的改变吗,比如文史研究的形态?
杨继东:人文科学领域的研究成果的数字化可能是一方面。另一方面是学科渗透,现在美国的学者就特别注重跨学科训练和背景,也会主动学习不同学科的知识,比如搞历史的你懂点地质、地理、气象,搞语言的知道考古等其他方面的知识。所以一个人文学科的学者如果其他方面的能力比较强的话,他能够做出一些吸引人的成果。比如GIS(地理信息系统)就是现在比较流行的。
还有学问和学术的呈现方式会发生改变。据我所知,在美国有几个华裔学者就在计划做一个数字项目,他们想通过数字虚拟影像呈现上海在过去一百年里面建筑景观所发生的变化。你可以在1920年代或者1940年代的上海街道上体验风情。这只有通过数字技术方式才能实现。
总体上,我认为电子时代对学术研究的影响能够和造纸术、印刷术相提并论。而且它不仅对学术产生深远影响,对每个人的生活也都会产生巨大影响。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司