- +1
车品觉谈大数据(上):中国在交易的数据没法确定干净与否
过去三四年中,大数据以极快的速度从概念走入现实,深度嵌入到了经济社会中的方方面面。回望来路,大数据究竟给发展带来了哪些切实的机遇?面向未来,政府治理究竟该如何适应这一新的科技革命?
就上述问题,近日,笔者专访了大数据领域的知名专家车品觉先生。希望本次专访的内容,能够对大数据的继续发展提供讨论的火花。
车品觉先生现任中国计算机学会大数据专家委员会副主任、浙江大学管理学院客席教授等职。车品觉先生于2010年加入阿里巴巴集团,担任阿里巴巴集团副总裁、阿里巴巴集团数据委员会会长,负责阿里大数据体系的整体规划。2016年4月,车品觉先生由阿里巴巴集团去职,加入某知名投资机构,其视野也从一个大公司的内部运作转向全社会的创新创业生态体系。本文授权澎湃新闻(www.thepaper.cn)刊发,此文为第一部分。
大数据是一种全新的材料,不是另外一种高科技
李辉:大数据在三四年前爆发,成为经济社会各领域广泛接受的新概念。您在大数据领域有着丰富的实战经验,但是以您观察,社会层面对大数据是不是已经广泛接受?
车品觉:今天你跟我聊,我特别想强调的一个观点,就是大数据是一种全新的材料,它不是另外一种高科技,只要你找到了合适的方式用它,它在哪里都可以使用。这个观点看似被人重复过很多了,但是其实很多还根本不理解。
我跟很多企业领导或者政府部门谈大数据的时候,发现他们很多都是停留在“解决问题”的层面,就是说,当大数据引发一件事情后,他们总是在想该怎么解决,但是很少认真探讨这个出来的事情,本质上跟以往的东西有什么不一样。因为你真的把大数据当成是一种材料的话,你就会明白,大数据带来的问题是全方位的。它不是哪一种具体的技术,让你能看到它的功能,让你有办法针对性地管理。大数据带来的影响是全方位的,很多创新出来的时候,你根本意识不到,同样很多问题出来的时候,你也完全理解不了。所以我说,一定要把它当做一种新材料,从本质上,从体系上来思考大数据。
大数据时代,最重要的是关联
李辉:大数据对经济社会的方方面面都有渗透,刚才您谈到了大数据本质上是一种材料,那么,从您这些年的体会来看,对这种材料的应用,相较于以前的数据应用,究竟有什么样的新特征?
车品觉:如何应用大数据?首先要了解数据的生命周期。“布点”、“收集”、“存储”,这些是前端,之后需要对数据做“识别”、“关联”、“分析”。还有一个能把整个过程包起来的,就是“实时刷新”。这就是数据的生命周期,它是一个闭环。不管你怎么使用大数据,你首先要了解这个周期。
大数据跟以前的数据不一样。首先,“布点”就往往不是你自己布的,有些“布点”是别人布的,所以你需要有一个对外部数据的认知。尽管你自己的数据有时候已经足够大了,但还是要关注别人的布点,要把别人的数据“关联”在你自己的数据当中。这是跟以前最不一样的。以前的数据是封闭的,大数据时代不一样了,一定需要跟外部的数据关联。
譬如反恐,一个人从新加坡来北京,他从新加坡上飞机开始,就已经跟各种数据关联了。事实上,关联的速度越快,用于计算的时间就越多。我听说美国在“9·11”后,用了三年的时间拿到了一种非常重要的技术,一种快速计算的技术。这种技术能从你站在海关那个地方拍照开始的五分钟内,计算出你是一个恐怖分子的概率有多大。为什么?因为它用五分钟时间把你的数据和恐怖分子的数据进行了关联和计算。这只是据说,并没有人详细知道。为什么我知道,因为它用到的这个技术,刚好是我朋友那个公司开发的,这个技术本来在华尔街的交易中心用来实现一百毫秒的运算能力,有人买了这个技术给了美国政府。
就像我刚才讲的,从人脸识别到匹配全世界十几亿人数据,如果你需要三个小时来计算,那肯定就完蛋了。正确的做法是:从你进入海关的那一刻就开始计算,之后不管你是在空中还是在陆地上,计算机都在不断关联和计算你。所以说大数据时代,最重要的就是关联。
李辉:如此说来,数据关联是大数据时代的新特征,那么数据关联一定能够创造之前不可能创造的新价值,是这样吗?
车品觉:过去我们用数据去解决“发生了什么”这样的问题,但是从我们知道“发生了什么”到最终“如何解决”,中间是有很多的环节。随着数据技术的发展,中间环节需要人工判断的地方在逐渐减少。
譬如打车软件告诉你,从现在这个地方打车到你家需要45分钟,但是你因为急事必须30分钟之内回到家,怎么办?其实后来你发现,你可以先打车到某一个地铁站,在那个地铁站乘地铁,总共半个小时就到能到家了。这个问题就解决了。但此时你发现你已经必须关联第三方数据——不单单是出租车的,还要地铁的。
过去数据很集中,就是我知道我有多少数据,问题很清楚,我能解决问题。但是我告诉你,过去的解决只是一种假设的解决,因为没有第三方数据,只是基于假定的第三方数据做决策。所以大数据的起点就是关联第三方数据。当第一方数据和第三方数据能够非常有机结合的时候,我们对数据的分析就会有一种全新的理解。
大数据应用涉及“快”、“准确”和“过去的经验”
李辉:所以要做出正确的决策,关联第三方数据非常重要。那从机器的角度来看,代替人决策的内容越来越多,是否意味着对技术的需求也越来越高?
车品觉:事实上,人工智能、深度学习,这些都是二十年前就有的技术,但是二十年前没有大数据,没有可以关联的数据。所以大数据的故事从有了关联才真正开始。
正像我前面讲的,这个过程中,人类在中间环节需要做判断的地方越来越少了,这不是减少人手这么简单,其实它是“两秒钟”的科技,就是说,让很多事情的决策提高了两秒钟。不要以为两秒钟很简单,你要知道一百毫秒跟两百毫秒的差异,在股票市场中就是会死人的,人家拼就拼这一百毫秒。
李辉:大数据的应用,代替了很多人的思考,加速了决策过程,“快”是大数据应用创造价值的主要判断标准吗?
车品觉:在我看来,大数据的应用一般涉及三个问题:在解决一个问题上,“快”是不是一个非常关键的点?“准确”是不是一个非常关键的点?“过去的经验”是不是一个很关键的点?
“快”,我刚才说了,很多事情,胜负就是两秒钟甚至一百毫秒的事。“准确”,自动驾驶对路上的人脸识别,过去的准确率是90%,如果你能提高到95%,很多功能就可以实现了,那就是一场革命。还有就是“过去的经验”,也就是可重复性,我从这里跳下去死不死?这是一个低概率事件,根本没有重复性,因为我只有一条命。所以我们喜欢看的是天天都有的数据,就是发生率非常高、重复率非常高的数据,这样的话,数据分析才有大用途。
大数据带来生态创新
李辉:谈到大数据带来的新价值,您之前在阿里工作,现在成为一名投资人,所以无论是自己的实践,还是您看到的其他人的实践,相信都是非常多的。我想首先了解您为什么会从一个大公司的大数据负责人转战做一名投资人。
车品觉:对我来说现在是扩大眼光的很好的时机,可以看到更多的东西。以后有机会可以再把目光收回来聚焦。就个人来讲,我没有兴趣帮企业赚钱。为什么我要参与国家大数据工作组和网信办的一些工作,就是因为我想处理一些政府层面的问题。
但是我愿意和政府官员交流,并不是说我喜欢政府的权力,权力对我来讲绝对没有什么吸引力。如果我需要权力,就在阿里继续管多一点人就行了。我真正喜欢的,是大数据带来的新生态。我跟一些政府朋友说,其实我最近挺开心的,因为我做投资之后出去见了很多小公司——这是生态的标志。
一个生态的形成意味着,你会看到非常多的、能生存下来的小公司。中国(互联网领域)只有三大巨头肯定不叫生态。能叫生态,必然是这个地方有很多的种类,很多你想都没想过的东西在出现,蚂蚁、蜘蛛……这些都是正常的生态。如果一个生态很干净,只有一座大山,那不叫生态。对于大公司来讲,比如对于阿里来讲,新生态并不是什么好事儿,因为有很多阿里的人出去创业,十几、二十几个人就组建成一家小公司。这对于阿里来讲是一件挺头疼的事情。但是对于生态来讲,这是一件好事。
我跟一个朋友开玩笑说,以前在阿里,有人、有钱、有数据,我出去见到很多小公司,没数据、没钱、没人。但我还是看到非常多的年轻人在创业,包括很多海归。我开始对这个生态产生信心。我们现在已经站在大数据带来的整个生态创新的临界点,这是大数据真正的意义所在。
有些政府部门没有想清楚自己为什么要收集数据
李辉:数据关联越来越多,人工智能越来越发展,势必会激发出大量创业公司的出现,大企业当然也会受益,也就是您所说的一个生态系统的形成。这显然也给政府带来了挑战,因为政府以前主要治理小数据,但是在这个大数据的生态中,政府应该做怎样的调整来刺激这个新生态的发展?
车品觉:怎么来治理整个生态,这是一个蛮有意思的问题。中国现在有一个比较有意思的课题,就是数据资产。政府绝对是拥有数据资产最大的机构,但是今天中国对数据资产的理解太浅,有点不够重视。
有些政府部门没有想清楚自己为什么要收集数据。我认为,政府部门对数据资产停留在想要有多少就有多少的阶段。这是很小数据时代的思维:占有数据,控制数据。其实只要有好的策略,政府拿到的数据会越来越多。但是我要说的是,你拿的数据多了,对社会的责任也就多了。如果你拥有这么多数据,你又不去用,那你干吗收集?但是如果你把这些数据分享出去,人家又会说泄露隐私。
而且我们要明白,政府的数据往往是一些商业领域的催化剂,这一点非常难琢磨。事实上,你根本用不着把数据分享出去,你可以根据数据建立模型,别的公司既看不到数据,又能从你的数据里获益。这才是聪明的做法。比如人民银行征信里面的数据,是不必要公开的,它只需要做一个模型跟其他模型匹配。这一点其实是人民银行该做的。
李辉:除了公开政府自己的政务数据,中国政府推出的“互联网+”战略在一定程度上推动了社会上各领域数据的关联。
车品觉:确实是。我觉得美国这么多的总统里面,奥巴马是最伟大的。因为他是第一个把大数据推到美国国家最高战略层面的总统。奥巴马政府有自己的数据中心,有自己的政府CDO(首席数据官)。
同样做这件事情的,是我们国家的领导人。中国政府也把大数据跟“互联网+”推到国家战略层面。唯一不一样的是,美国做这个事情更加开放,中国比较封闭,但是两者的力度都非常大。我说的伟大就是在这个地方,就是敢做。你看哪有一家公司现在不赌还想赢的?国家同样如此。
当然也有人会说,与其说奥巴马厉害,不如说美国厉害。其实奥巴马之前的两任总统就已经把美国图书馆里面的资料全数字化了,这些为奥巴马的大数据化做了铺垫。但是中国政府在此之前毫无铺垫,是凭空开始做这件事情的。关于这一点,做研究的人就需要想一想,中国和美国国情有何不同?我们该怎样做?
今天的数据交易还停留在“你要卖他要买”的状态
李辉:政府开放数据,以及在全社会提倡“互联网+”,将显现地增加全社会数据互联的程度。但是在企业层面,正如您前面所说,很多数据“布点”都是别人布的,如何关联?是不是正是在这个背景下,数据交易在中国逐渐热了起来?
车品觉:今天在中国的数据交易有一点像淘宝,就是说,如果我有一堆数据,我可以跟你做交换或者卖给你。业内有很多人交流过这个问题,但是说实话,通常情况下我是不敢用这些数据的。
为什么?你今天给我一个数据,我不知道你的来源,也不知道数据会不会是脏的,我怎么敢用?每天早上八点钟之前数据一定要给到我,你能不能做到?如果不能做到,我怎么敢用?如果用得好,下一次的数据质量是否跟上次的一样?如果不一样,我怎么敢用?另外我还担心,如果有一天你突然不卖给我了,那我已经开展的业务怎么办?
如果这些都无法确定,我是真不敢用交易来的数据。但现在的数据交易,确实是都不能确定这些问题的。总体来说,今天的数据交易还停留在“这是一个沙发,你要卖他要买”这样的状态,还没有到刚才说的细节。
不过中国的事情很奇怪,有时候先忽悠,忽悠起来了就会有很多人把他的资源加进来,结果这个事情最后也能搞成。这是很中国特色的,在美国是不敢想的,但是在中国有时候真的会发生。我朋友问我,我也不敢说中国的数据交易不行。但是我知道这件事现在还很迷茫,做这件事的官员很着急,到现在还没有一个很清楚的案例能说明,数据交易是成功的。
数据拥有权的归属是个尖锐问题
李辉:一个私营公司收集的数据,本身就是用户的数据,然后再卖给别的公司,这不是有问题的吗?
车品觉:你这个问题其实是挺尖锐的,尖锐在哪里呢?尖锐在涉及数据拥有权的归属。这个问题我们讨论了很久,政府部门也比较关心。比如说,你现在进了一个网站,这个网站说“你如果用我网站的服务,那么有关你的数据就归我所有”。你同意了,那么相当于你签了约,你使用网站或者应用的服务,网站或者应用就可以使用你的数据来改善它的设计。但问题在于,用户同意让你使用数据搞好用户体验,并没有同意你跟其他公司交换有关他的数据,是不是?
之前参加一个论坛,有个人问了数据拥有权归属的问题。旁边一位刚好在公司里做这件事情的人说,“现在来说这还不是很严重的问题”。我立马回应说:“谁说不严重?”从阿里离开之后,我就要说实话。切切实实来讲,作为一个公司你有这个权力吗?
还有一点,先不说你把数据拿出去交易,就说你自己用,譬如用户注册了一个公司的网站,使用这个网站的服务。但是这个网站仅仅靠本网站的数据对用户的认知还不足够,它出去买一点数据匹配进来,就能知道更全面的信息。但是,用户有没有授权网站去认知他?这个事情应不应该告知用户,公司有没有责任?我对这种做法有一些反感。如果在美国、欧洲的话,这个事情是有一点夸张了。我这是实话实说,没有夸大。
其实大公司在这方面的问题更大。比如腾讯、阿里,事实上是一个包含非常多公司在里面的公司,政府对这种公司的处理是不是应该一视同仁?什么意思呢?我这个公司有一百个分公司,用户和任何一个公司签“可以使用数据作为用户改善”协议时,该协议是限定在这个分公司,而不是一整个集团!我想说的是,当一家公司已经大到分公司之间的数据传输也会让你恼火的时候,你不能把一家公司当一家公司看。
(本文由微信公众号“三思派”独家授权)
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司