澎湃Logo
下载客户端

登录

  • +1

顶刊论文 | 大数据时代社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用

2022-06-08 06:08
来源:澎湃新闻·澎湃号·湃客
字号

大数据时代下社会科学研究方法的拓展-基于词嵌入技术的文本分析的应用

摘 要:

在大数据时代的背景下,基于大数据的分析处理技术为以“数据驱动”的社会科学研究创造了新的发展契机。其中,词嵌入(Word Embeddings)技术借势大数据浪潮,以其高效的词表征能力和强大的迁移学习能力在文本分析领域受到越来越多的关注。不同于传统的文本分析路径,词嵌入技术不仅实现了对非结构化文本数据的表征,还保留了丰富的语义信息,可以实现对跨时间、跨文化文本中深层次文化信息的挖掘,极大丰富了传统的社会科学实证的研究方法。文章总结了词嵌入技术的基本原理及特点,系统地梳理了词嵌入技术的六大应用主题:社会偏见、概念联想、语义演变、组织关系、文本情感和个体决策机制。随后,文章归纳了词嵌入技术的基本应用流程。词嵌入技术还面临文本数据的选择、中文文本的分词处理、单词语义信息的表征层次三种挑战,文章归纳了相应的应对思路与方法。最后,基于词嵌入技术的强大适应能力,未来研究可以进一步关注该技术在管理领域的应用前景,包括政策效应评估、用户推荐系统、品牌管理、企业关系管理、组织内部管理、中国传统智慧与管理问题六个方面。

学人简介:

冉雅璇,中南财经政法大学工商管理学院

李志强(通讯作者),中南财经政法大学工商管理学院

刘佳妮,中南财经政法大学工商管理学院

张逸石,武汉理工大学管理学院

文献来源:

《南开管理评论》2022年第2期。

本文第一作者冉雅璇

研究缘起

社会科学领域的实证研究是“数据驱动”的,以心理学、管理学为代表的学科研究在实验、问卷和其它二手数据基础上开展量化分析,并从这些由数字构成的结构化数据中提取信息。然而,对于文本这一类非结构化数据的处理仍主要采取主观理解和判断的质性研究范式,极大地局限了非结构化数据的研究价值和效度。尤其在大数据时代,互联网一方面赋予了大众借以表达观点、情感、态度的文本创作自由,超大规模的话语文本不仅高度可及,还因为其充分包含人的认知信息和反映事物的客观属性而具有研究价值。除了即时生成的内容,另一方面,诸如书籍、新闻、文件报告等历史悠久的文本资料也得以电子化的文本形式被网络载入,尤其对跨时段研究的素材、视角和话题十分有益。而在社会认知系统的视角下,文本内容所蕴含的信息是多层次、多样化的,能够表征内隐且抽象的认知信息,而这些复杂的心理活动信息在基于被试自我报告的传统方法下难以获得。毫无疑问,非结构化数据已经引起学界的广泛兴趣,但囿于传统研究方法的不足(见表1),文本信息未能得到充分、客观且有效地处理。近年来,计算社会科学的发展驱动了以机器学习(Machine Learning)为代表的大数据分析技术的实践应用,甚至建构起这一学科体系下的研究范式。在此机缘下,本研究力图探讨计算文本分析方法的研究价值,并聚焦自然语言处理(Natural Language Processing)下的新兴技术——“词嵌入(Word Embeddings)”,介绍其在构造难以直观量化的抽象的关系型变量上的有效性,以期为国内研究人员带来启示。

技术原理

“词”作为最小的文本语义单位,既是我们理解和描述一系列社会、文化、心理、行为特征或现象的基础信息单元,也是计算机展开文本分析的基础。词汇在文本中的分布模式揭示了特定的意义。例如,词汇的使用次数、位置和类型能够用以推断撰写人性格、话语风格、话题分布等内容特征。不同于以往的计算文本分析方法(如词频统计、主题模型)的是,词嵌入从全局文本信息的视角出发,摆脱了词汇之间彼此独立的传统假设,从而能够建构词与词之间的内在语义关联。依赖于分布式表征(Distributional Representation)的核心假设,词嵌入通过分析目标词与其上下文词汇之间的分布规律来学习和提取目标词的众多语义特征信息,因而“词”的文本分布越相似或有高度的共现频率,其对应的词向量也更相似,反映在高维向量空间中即为相近的“距离”(见图1)。因此,词向量之间的几何关系度量能够在很大程度上说明词与词之间、概念与概念之间的现实关系。

词嵌入分析方法遵循计算社会科学研究范式的一般信念——“数据驱动知识发现,让数据自己说话”,即在不严格预设理论假设的情况下,通过文本数据挖掘以探索性地发现一些基本模式,然后结合有关理论和事实证据进行解读和知识提炼;或者将词嵌入方法融入实证研究中,从当前的基本模式中进一步发掘新的研究问题和提取相关构念的变量。与传统的社会科学研究方法对比,基于词嵌入技术的方法优势在于:第一,可以高效且自动化地处理大规模文本数据;第二,依据文本内在的分布规律提取特征,减少对主观判断过程的依赖,因而结果更客观;第三,能够利用外部信息和领域知识改进算法,可拓展性和重复性强;第四,可以实现对跨时间、跨文化文本中深层次文化信息的挖掘。

图1 词嵌入技术表征文本词汇的示意图

注:图形由作者绘制。

研究现状

词嵌入以其高效的词表征能力和强大的迁移学习能力在文本分析领域获得越来越多的关注。本文回顾并梳理相关文献(见表2),发现词嵌入技术在社会学、语言学、心理学和政治学等领域得到了广泛应用,并将现有研究总结为社会偏见、概念联想、语义演变、组织关系和个体判断机制五大主题。国内的社会科学领域对词嵌入方法的探讨有较大的发展空间,本文通过介绍国外社会科学领域对词嵌入的应用情况(包括探讨的主题和具体内容、采用模型、训练语料和时间跨度)应征该方法在描述抽象概念的关联和跨文化、跨时段上的优势,以期帮助国内社会科学研究者了解该技术独特的应用价值。

表2 词嵌入技术在社会科学领域的应用现状总结

注:表格由作者整理。

应用展望

鉴于词嵌入技术主要基于无监督的学习方式来挖掘文本词汇的语义信息,进而探索性地建构词汇之间的相似或相关的特征。同时,考虑到计算机分析路径固有的局限性,本文也认为该研究方法文本数据的预处理、文本表征效果方面有一定的条件限制,但大部分问题在众多学者的努力下已经得到了很大程度的改善,由词嵌入技术衍生出的一系列模型优化算法、辅助性分析技术、融入外部知识库等分析策略和研究范式也渐成体系,进一步保障了该方法在应用实践中的有效性和稳健性。基于词嵌入技术的强大适应能力,本文提出其对未来管理研究可能带来的独特贡献:第一,刻画品牌--消费者的市场关系,辅助企业的品牌管理。充分利用用户生成文本(User-Generated Content)和企业生成文本(Marketer-Generated Content),借此评估产品或品牌的市场表现和形象,探讨品牌依恋、品牌文化和品牌联想等话题;第二,通过挖掘组织内的文本(如会议记录、员工评述、领导讲演文本),揭示员工的内隐认知信息(如动机、信念、情绪),进一步探讨诸如领导力、员工创新力、员工的组织支持感和企业文化等话题;第三,利用词嵌入方法对中华古籍文本展开分析,挖掘诸如组织领导风格、组织文化、组织竞争力、管理者与下属间关系、人员激励政策等研究话题,进而探索中国本土的管理智慧和组织话题。此外,基于文本这一承载了主体多方面属性信息的特点,词嵌入技术还可应用于更广泛的表征范畴,从表征文本单位拓展至表征个人、组织等实体。例如,根据线上用户的特征来进行兴趣推荐或偏好预测;利用词嵌入的基本原理,未来研究可以考虑利用文本来刻画企业间的关系网络及其节点特征(如竞争、合作),进而更有效地描绘企业在网络中的嵌入式角色,进而辅助企业的合作策略。

注:阅读原文请参见南开管理评论官网

转载 | 李三民

审核 | 华唐门生

终审 | 李致宪

©Political理论志

前沿追踪/理论方法/专家评论

ID: ThePoliticalReview

原标题:《顶刊论文 | 冉雅璇等:大数据时代社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用》

阅读原文

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈