澎湃Logo
下载客户端

登录

  • +1

数说两会|1978年到2024年政府工作报告关键词盘点

澎湃新闻记者 赵佐燕 王亚赛
2024-03-05 12:37
来源:澎湃新闻
美数课 >
字号

2024年3月5日上午,十四届全国人大二次会议在人民大会堂举行开幕会。国务院总理李强代表国务院,向十四届全国人大二次会议作政府工作报告。

澎湃新闻从中国政府网上,整理了1978年至2024年共计47份《政府工作报告》,通过文本挖掘算法,一同解锁中国发展背后的政策密码。

一份政府工作报告一般分为两个部分:对过去的回顾总结、对未来工作的发展部署。

47年间,政府对未来的发展布局有何变化?澎湃新闻分析了在发展部署部分,关键词共现词的变化情况。

不难发现,近些年,一些新的共现词频繁出现:1978年至2017年的政府工作报告,和“发展”共同高频相邻出现的,是“经济”“社会”。然而,从2018年政府工作报告开始,“高质量”成为了“发展”最大的关键词。

不仅如此,“建设”的共现词,从早些年的“现代化建设”“经济建设”,发展到进入21世纪的“基础设施建设”,再到如今的“政府建设”。2024年政府工作报告提出,“全面加强政府建设,大力提升治理效能”。

澎湃新闻也统计了47份《政府工作报告》中的常青词汇。结果显示,“发展”、“建设”以及“经济”等词语在过去47年中一直高频出现。

还有部分词语愈发频繁地出现在《政府工作报告》中,例如“政策”“保障”。因其增长趋势,澎湃新闻将此类词语称为“喇叭形词语”。近些年新的喇叭形词语,还包括“高质量”“数字”“人工智能”。

那么,2024年的政府工作报告有哪些新词汇?澎湃新闻找到了一些今年提到,但过去五年(2019年-2023年)未曾提及的词语,例如“基础教育”“市场秩序”“质量第一”。

分析方法:

1.本文所有原始文本材料来自中国政府网1978年至2024年政府工作报告。

2.本文使用jieba分词(https://github.com/fxsjy/jieba/)。采用精确分词模式,避免重复分词和歧义。分词结果均去掉数字、单字、标点符号。

3.为增加分词正确率,在jieba分词的基础上加入自定义词典,自定义词典主要包含了往年人民网和新华网统计的两会热词。

4.在分词基础上,采用TF-IDF加权技术。词语的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。本文使用的语料库即1978年至2024年政府工作报告文本。

澎湃新闻记者 舒怡尔 对文本有所贡献

    责任编辑:吕妍
    校对:张艳
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈