澎湃Logo
下载客户端

登录

  • +1

数说红楼:揭秘《红楼梦》作者之谜

2018-11-23 20:17
来源:澎湃新闻·澎湃号·湃客
字号

中国的四大名著中《红楼梦》有非常特别的位置。然而,其作者归属仍是谜团,各学派争论不一。1920年,胡适先生“大胆假设”,认为后四十回并非曹雪芹所著,而是高鹗续书。周汝昌认为《红楼梦》共108回,现存80回,后28回遗失。白先勇认为,没有人能续作红楼梦,后四十回中作者笔触细腻,前后呼应,一百二十回应全系曹雪芹所做。关于续作的文学价值,红楼梦“发烧友”张爱玲并不以为然。她认为后十回乃是“狗尾续貂,附骨之蛆”。读到第81回“占旺相四美钓游鱼”时,便觉“天日无光,百般无味”,仿佛进入了“另一个世界”。众多大家各执一词,学术界仍无定论。今天,狗熊会带大家再读石头记,尝试从数据分析角度给出一点佐证。

从前80回到后40回:红楼一梦,大厦倾颓

想要了解红楼梦作者,需先了解红楼梦。红楼梦讲述贾、史、王、薛四大家族的兴衰,贯穿贾宝玉、林黛玉、薛宝钗的爱情婚姻主线。“贾不假,白玉为堂金作马;阿房宫,三千里,住不下金陵一个史;东海缺少百玉床,龙王请来金陵王;丰年好大雪,珍珠如土金如铁”正是对四大家族极盛时期的判词写照。从红楼梦前八十回到四十回,发生了什么?简而言之,从前80到后40,是四大家族“大厦倾颓”,贾宝玉和林黛玉爱情悲剧的重要过渡。

我们先来看看故事的主人翁。初读红楼梦,最艰难的是缕清人物关系。红楼梦中眼花缭乱的宗亲关系,常常让人置身云雾。这里我们抽丝剥茧,只提取前十大出场人物和他们的出场比例,如下图所示。贾宝玉出场的比例最高,着墨最多。令人有点意外的是出场其次的并不是钗黛,而是贾府的封建家长代表,贾母和凤姐。贾母在书中有非常重要的地位,她是贾府内部最高权力的代表。这位老人不仅懂得享受荣华,而且当贾府倾頽之时,她拿出家财赈济众人,也是有条不紊,从容镇定。凤姐可以算是贾府的“执行董事”,明是一盆火,暗是一把刀。她执掌贾府实权,但为人心狠手辣,最终机关算尽,终免不了含愧而死。

除了前三个代表人物,读者最为关注的是贾宝玉、林黛玉、薛宝钗之间的爱情婚姻悲剧。从前80回到后40回,三人发生了什么样的故事?我们不妨来看看三人的出场密度统计。可以看出前40回中宝玉、黛玉的步调更为一致,此时黛玉刚刚来到贾府,与宝玉两小无猜;中期三位人物描写都有所减少,此时注重于贾府整体宏观刻画;在后80回中,三者出场再次推向高峰。其中关于黛玉的描写,在100回左右已经淡出观众视线。此时最大的情节变化是“林黛玉焚稿断痴情”,这是悲剧发生的时刻。黛玉听到远处传来的娶亲喜乐,内心充满孤独哀伤,也了却了在人世的最后一点俗缘。这一段的描写是很动人的,她焚的是诗稿,也是自己的诗魂。关于薛宝钗的描述在100回之后出现高峰,此时她已“出闺成大礼”,成为贾府权利代表认可的儿媳,未来等待她的整个家族的重担。值得注意的是这里钗黛之争并没有发生明显的正面冲突,这与凤姐瞒天过海的计策相关,整个婚姻事实是经过贾府高层操控的,这也是悲剧的源头。
接下来,我们再来看看,从前80回到后40回,人物关系发生了怎样转变?将人物共同处于一个自然段看做网络连接1次,我们可以绘制1-40回;40-80回;80-120回人物之间的“社交网络”(线条越粗,关系越强)。很明显能够看出,主要人物关系逐步加强,在第三部分推向高潮。此时写四大家族“忽喇喇似大厦倾颓”,一时间众人相互牵连,无一幸免。再回首曾盛极一时的大观园,不禁让人嗟叹。
最后,我们再来看看红楼梦中的小人物。红楼梦是一个群像小说。除了主角之外,作者对于小人物的刻画十分传神。比如焦大,他是贾府老仆,全书只在开头和结尾处出现。但作者借他的醉骂,已经道出贾府颓势:曾经烜赫一时,如今子孙不肖。除此之外,令人印象深刻的刘姥姥进大观园,也是神来之笔。曹雪芹写富贵人物如贾母能够写出风流的贵族做派,写村妇形象竟也是入木三分。借着刘姥姥进大观园的视线,读者体会出大观园盛时何其富丽堂皇。当贾府败时,刘姥姥再次出现,救下巧姐。从80回过后,作者对于小人物刻画也十分传神,这与之前我们的结论一致,后40回作者主要处理贾府内部主要人物之间的矛盾。
咬文嚼字,《石头记》作者系谁?

1从数据分析检验看《红楼梦》作者归属

从上面的分析已经可以看出,红楼梦前后情节出现了很大变化,后40回作者更加关注主要人物之间矛盾的处理,减弱了对边线人物的描写。接下来,我们不妨“咬文嚼字”,看看作者在用语习惯上是否前后一致。

从统计学上,判断作者前后用语是否一致,我们自然与【统计检验】联系在了一起。这里,将整体分为:1~40回,41~80回,81~120回作对比。前两个总体的对比将作为参照;重点对比后两个总体之间的差异。我们将一个章节的词频作为一个观测,使用t检验检验不同总体之间词频均值的差异(注:这里我们要求这些词不能在3个总体的词频都<30)。

我们看看具体结果,首先我们关注【高频词汇】。经过统计检验,红楼梦前后用词出现较大断层的高频词集中于形容词、副词方面(在动词、介词、连词等方面差异不大,此处不再列出细节结果)。几个频率显著减小的词包括:越发、难道、可巧、不曾、原是。

①越发:

众人越发慌了。(第25回)

那袭人、麝月等一发慌了,回过凤姐几次。(第95回)

②难道:

黛玉笑道:“你说你会过目成诵,难道我就不能一目十行么?”(第23回)

雨村低了半日头,忽然笑道:“莫非他有遗腹之子,可以飞黄腾达的么?”(第120回)

③可巧:

可巧宝玉往黛玉那里去了。(第60回)

恰好王夫人打发周瑞家的照看(第103回)

④不曾:

黛玉道:“不曾读书,只上了一年学,些须认得几个字。”(第3回)

贾母道:“我活了八十多岁,自作女孩儿起,到你父亲手里,都托着祖宗的福,从没有听见过那些事。”(第106回)

⑤原是:

凤姐儿说道:“大老爷原是好养静的。“(第11回)

袭人道:“二爷的病原来是常有的。“(第105回)

除此之外,我们对文献[1][2]重点词汇进行了统计检验。在名词方面,“丫鬟”出现显著减少;动词方面,“打量”显著增加;副词方面,“越发”显著减少,同义词“更加”显著增加,“刚才”显著增加。值得注意的是虚词中的句尾虚词和文言虚词两个类别出现了显著变化。句尾虚词中,疑问句式结尾的语气词增多,这可能与后40回中对话增加有关;单字文言虚词在后40回大部分显著减少,这说明后期语言向白话靠拢。除以上词汇外,其他词汇并没有在统计意义上得到的显著变化的证据。
最后,从文章组织方面,我们对段落长度、标点符号构成进行了统计检验。这里我们发现,后40回段落长度变长,且句号、双引号、问号都显著增多;这与后四十回的人物对话增多有关。
2再论参考系:以《倚天屠龙记》为例

我们从统计检验角度谈红楼梦作者归属,不能够没有参考系。在本节开头,我们已经说明,将前40回与41~80回的语言特征连续性作为参考;实际上,从前面的统计检验结果来看,前80回的语言风格相对更加统一。但是似乎这里并不能让我们完全信服,对于一般的章回小说,出现语言风格的波动是不是正常现象呢?由于情节、感情的波动,小说的文字使用出现差异可能并不是一个“奇葩”的现象。

我们不妨看看其他章回小说是咋样的。这里纳入我们之前讨论过的一个章回小说,《倚天屠龙记》作为参考(显然这一部小说没啥作者争议,感兴趣的读者可以自行分析其他章回小说)。同样地,我们对倚天屠龙记划分三个总体,检验在实词、虚词等方面的差异。结果如下表所示,我们并不能找到非常显著的总体之间差异。这说明《倚天屠龙记》这部小说作者在前后用语用词习惯上是相对更加统一的。

3回归分析:能否“智能”区分前80回与后40回?

最后,我们进行了一个“鬼畜”的回归分析。首先将一个章节看成一个观测,前80回所有章节标记成Y=0,后40回标记成Y=1。一个自然的问题是,通过回归分析,能否“智能”区分前后总体?删除一些可能跟情节相关的词,经过变量选择后保留了6个词汇,它们大部分是文言虚词,回归系数如下表所示:

关于模型的预测性如何呢?我们进行了5折交叉验证,得到预测集平均AUC达到95.4%!这说明通过用语特征能够非常清晰的区分出红楼梦前后的差异。

红楼梦这部小说可以说包罗万象,从数据分析角度看作者归属只是其中一个方面。红楼梦中有许多语言特征很有意思,它的内容从古至今也多方争议。

相关术语:

在判断显著性时,我们不再以p值小于0.05为标准。这是由于此处涉及“多重检验”的问题。简而言之,如果涉及许多组假设检验,设置显著性水平为0.05是不尽合理的。此处我们采取Bonferroni修正,将p值根据总的检验组数进行调整。由于本案例总共涉及几十组检验,采取谨慎性原则,我们标注了p值<0.001的词汇。对多重检验感兴趣的读者也可以了解一下专用于多重检验的FDR方法,此处我们不再赘述。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈