澎湃Logo
下载客户端

登录

  • +1

在RStudio年会上,我遇到了一群看似与数据无关的人

2019-05-06 18:34
来源:澎湃新闻·澎湃号·湃客
字号

RStudio 是 R 语言最常用的集成开发环境(IDE),该公司每年都会举办为期一周的培训和大会,参会者通常是企业、政府、学界负责统计和编程的中层人员,他们的头衔包括“数据科学家”、“数据分析师”、“数据工程师”、“统计学家”、“增长分析师”等等。培训和大会都是演讲形式,由 RStudio 公司员工或其他对使用 R 有丰富心得的各界人士介绍程序拓展包的开发动向、数据分析案例等。

因为参会都是企业给员工报销,所以会费价格不菲。如果每项活动都参加,再算上差旅和食宿,需要三四千美元。幸运的是,RStudio 也给少数群体发放奖学金。2019 年 1 月的年会,我有幸成为 38 位奖学金获得者之一,参加了在德州奥斯汀举办的 RStudio 2019 年年会,又写作 rstudio::conf(2019)。

由于培训和大会只有一周,其实能学到的技术知识远不足以直接拿来应用。我主要的收获还是对“数据”在业界、学界、政府部门中的使用有了新的认识,也结识了很多我自己熟悉领域之外的数据行业工作者。

说起“多元化”的时候,我们通常指的是种族、性别等方面。虽然 RStudio 在这些方面做得也很好,让我印象最深的还是会上行业和分析方法的多元化。

行业的多元化

在大会上,我认识的许多人都来自乍一听和“数据”毫无关联的行业,例如水泵、电力、渔业等等。深入交谈后,我发现他们的公司都已经有几十人的成熟数据团队,日常工作也真的是在获取、分析数据,而不是制作充满热门词汇但毫无实际意义的幻灯片。

下面是我碰到“有趣数据人”的不完全名单:

1)全球领先水泵公司的高级数据科学家

据他介绍,他所在的水泵公司几年前就在高层领导的推动下建立了数据团队,负责“预测性维护”(即推算水泵最可能在什么时间、什么地点坏掉)。他拿到数学博士学位后加入了该公司,现在团队已有 20 人。

他们目前只能从新安装的水泵中获取数据,因为获取数据需要在水泵中安装一个硬件设备。早期的水泵除非公司回收,否则无法获取任何数据。

我还和他聊到在全球不同市场的合规问题——这家公司业务遍及世界各个大国,这么收集数据肯定容易引发法律争议。他说他做法务的同事一直在研究这个问题,公司目前只在其熟悉的市场收集数据。

2)美国某大型能源公司的首席气象学家

我们开始聊天是因为我发现他名片上的公司标志和我每个月付电气费网站的标志一模一样。

这位气象学博士在公司的可再生能源部门,负责收集精确到分钟的气象数据,预测美国各地区未来五年、十年有多少太阳能和风能可被利用。

他介绍自己工作的时候两眼放光,特别励志。他说他 14 岁就想做气象学家了,所以现在可以每天分析气象数据非常幸福。

3)帮美国联邦政府做全国性调查的私营公司统计学家

美国联邦政府常规开展许多大型全国调查,研究内容包括居民就业、健康、学生阅读水平等等。有些联邦政府部门(例如劳动统计局 Bureau of Labor Statistics)有全职员工负责调查工作,但是多数部门因为资源有限,所以把调查外包给私营公司。我见到的就是这样一个公司的统计学家和程序员。

公司开展一项全国调查的程序大概是这样的:统计学家首先进行抽样,确保调查样本具有代表性。为了保证少数族裔的调查结果可靠,统计学家还要过采(oversample)少数族裔。确定完样本以后,调查员就去敲门做调查了。数据返回给总部后,有专门清洗数据的部门来清洗数据(佩服这个部门的员工!)。清洗完后,统计学家对结果进行加权。公司还有很多程序员来开发方便统计学家工作的公司内部工具。

有一位负责居民健康调查的统计学家介绍了“受访者自行汇报数据”(self-reported data)的可靠性。她说,如果调查员问受访者他的身高体重,基本上所有人都会高报身高、少报体重。所以可靠的调查都是调查员带着尺子和称,现场去量的。

这让我想到美国人口普查局的一项研究,他们把税务部门的居民缴税数据和经济调查中受访者自行汇报的收入数据合并,发现在一个家庭中,当妻子挣得比丈夫多时,妻子会大幅少报自己的收入,丈夫会大幅高报。这种现象在丈夫比妻子挣得多的家庭却不存在。

4)美国最大招聘网站之一的经济学家、数据科学家

我有幸认识了这家公司五个不同岗位的员工,他们有的负责分析网站的招聘数据,定期发布美国劳动市场报告;有的则分析雇主在网站上的行为,预测哪些雇主更有可能投放广告,付费推广他们的空缺职位。

让我印象最深的是这五个人的教育背景。五人中只有一个是经济学专业,其他人来自生物、社会学、法律、信息科学(information studies)背景。他们都说公司致力于建立多元化团队。

5)国际慈善组织的数据分析主任

出乎我意料的是,这家组织也有十多人的数据团队。不过他们目前收集、分析的只是该组织各个慈善项目的收支。主任说,她非常希望团队可以从实证角度分析每个慈善项目的影响,但数据采集需要的花费太高,目前她的组织没有这样的资源。

我问她,缺少资源是因为慈善组织缺钱吗?她说,问题其实是社会和捐赠人都希望慈善组织的钱可以尽可能花在实际救助上,而她的数据团队相当于“管理层”,没有人会希望善款花在“管理费”上。

不过,积极的一面是,这个慈善组织几年前就建立了内部数据库。该组织世界各地的办公室之间发送、更新数据,已经不再使用 Excel。讲到这里,这位数据分析主任终于笑了。

还有很多其他有趣的人...

- 美国国防部下属研究院的分析师(工作内容不涉密)

- 为加拿大地方政府做“渔业数据可视化”的咨询师

- 美国知名大学基因实验室的科学家

- 大型共同基金的市场营销主管和软件工程师

我问他们在做每个季度收益图的时候可不可以通过修改画图方法来展示一条“更好”的收益线。他们说,行业有相关规定,大型基金在画图的时候都有统一模版,不能擅自修改。

分析方法的多元化

除了行业的多元化,大会让我印象深刻的还有分析方法的多元化。社会科学主要讲因果推断(causal inference),其他的分析方法很少涉及。这次在 RStudio 大会,我见到了更多的分析方法。

预测性分析(predictive analysis)

“不经思考就随意把各个变量丢进软件里跑回归”可以说是社会科学研究之大忌,不过我在 RStudio 大会上却见到了不少适合这种方法的应用场景。在实验科学中,大量回归分析可以帮我们找到可能的因果关系,之后我们可以再用控制实验来准确证明。在市场营销领域,知道 “A 可以很好地预测 B” 已经足够了。非要弄清楚它们之间有没有因果关系,很多时候是浪费时间。

A/B 测试(又称线上实验)

社会科学家也做实验,但我的理解是,他们和业界人士的关注点不同。业界的实验,例如“改变某个按钮的颜色”,通常在因果识别方面没有社会科学实验那么“麻烦”——社会科学实验常常会出现“实验组人员接受了对照组的处理”、“实验组人员互相影响”等各种问题。业界的实验在这方面相对简单直接,但由于其数据规模大、实验频率高,所以业界的数据人员更关注以下两点:

建立完善的底层架构、自动化工作程序,这样线上实验可以更规范;

提高非数据人员对线上实验的理解,这样他们可以在实验前就定好实验计划,实验开始后不会再修改样本或者实验时长。

描述性分析(descriptive analysis)

光是有描述性分析在社会科学界很难发表论文,但在 RStudio 大会上,我看到了描述数据的价值。过去这一年,有不少孩子在美国边境被移民局工作人员带离了他们父母。民间法律组织 ACLU 的数据科学家 Brooke Watson 汇总了这些孩子的基本信息,并向 RStudio 大会参会者介绍了孩子的安置情况。

她花了几个星期时间,从各地民间组织那里获得了孩子们的基本信息(姓名、生日、性别、安置地)。但由于这些 Excel 表格格式不一,她每天的工作就是清洗这些数据,最终合并成一个大表格。

这些数据并不全,她也不知道有多少孩子没有被收录。但就是这样一个残缺、不具代表性的数据集还是引起了很大反响。她制作了地图、分析表格后,收到了美国各地民众和议员的来信,很多人因此而决定行动起来。

每位数据工作人员其实 90% 的时间都在清洗数据,不过我们通常不会因此得到任何赞扬,因为“清洗数据”听起来是一项机械、技术含量远不如“建模”的工作。但我觉得,能坚持几周、几个月清洗完大量来源复杂的数据,本身值得嘉奖。回归系数是知识,描述性的总结数据也是知识。

包容的氛围

RStudio 大会包容的氛围也让我印象深刻。我作为学生,一开始很担心这些从事数据工作的中层管理人员会很难接近。实际上,他们是我见过最聪明却最友善的一群人。我打招呼的每个人都细心跟我介绍他所在行业最基础的知识,除了专业内容还又介绍了很多职场经验。

大会组织者对营造这样的氛围非常上心。他们多次强调,几个人如果围成一个圈聊天,一定要留一点空间,好让其他人加入。大会的行为守则也提供了很多举报骚扰等不端行为的方法。我在大会上还见到了哺乳期的妈妈、坐轮椅的残疾人。

申请奖学金

2020 年的 RStudio 年会将在一月的旧金山举行。每年奖学金面向的人群不同,感兴趣的朋友可以在 2019 年八月关注 RStudio 网站。

    本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

    +1
    收藏
    我要举报
            查看更多

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈