- +1
数说两会|1978年到2024年政府工作报告关键词盘点
2024年3月5日上午,十四届全国人大二次会议在人民大会堂举行开幕会。国务院总理李强代表国务院,向十四届全国人大二次会议作政府工作报告。
澎湃新闻从中国政府网上,整理了1978年至2024年共计47份《政府工作报告》,通过文本挖掘算法,一同解锁中国发展背后的政策密码。
一份政府工作报告一般分为两个部分:对过去的回顾总结、对未来工作的发展部署。
47年间,政府对未来的发展布局有何变化?澎湃新闻分析了在发展部署部分,关键词共现词的变化情况。
不难发现,近些年,一些新的共现词频繁出现:1978年至2017年的政府工作报告,和“发展”共同高频相邻出现的,是“经济”“社会”。然而,从2018年政府工作报告开始,“高质量”成为了“发展”最大的关键词。
不仅如此,“建设”的共现词,从早些年的“现代化建设”“经济建设”,发展到进入21世纪的“基础设施建设”,再到如今的“政府建设”。2024年政府工作报告提出,“全面加强政府建设,大力提升治理效能”。
澎湃新闻也统计了47份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”以及“经济”等词语在过去47年中一直高频出现。
还有部分词语愈发频繁地出现在《政府工作报告》中,例如“政策”“保障”。因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”。近些年新的喇叭形词语,还包括“高质量”“数字”“人工智能”。
那么,2024年的政府工作报告有哪些新词汇?澎湃新闻找到了一些今年提到,但过去五年(2019年-2023年)未曾提及的词语,例如“基础教育”“市场秩序”“质量第一”。
分析方法:
1.本文所有原始文本材料来自中国政府网1978年至2024年政府工作报告。
2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。
3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。
4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2024年政府工作报告文本。
澎湃新闻记者 舒怡尔 对文本有所贡献
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司