- +1
解锁“暗数据”的隐藏价值
当IT领导者们试图从企业收集的数据中获取商业价值的时候,他们面临着无数挑战。或许最不为人知的是,没有很好地利用那些已经生成的、频繁保存的、但却被很少使用的数据,正在让他们错失各种机会。
这种以物理暗物质命名的所谓“暗数据”,是指在业务开展过程中经常收集到的信息:由员工、客户和业务流程产生;由机器、应用和安全系统生成为日志文件;出于合规目的必须保存的文档,以及不应该保存但仍然保存了的敏感数据。
根据Gartner称,企业信息领域的大部分是由“暗数据”组成的,许多企业甚至不知道他们拥有多少暗数据。存储暗数据会增加合规性和网络安全风险,当然,也会增加成本。
弄清楚你有哪些暗数据、保存在哪里、其中包含哪些信息,这是确保暗数据有价值的部分是安全的、且不应该保留的部分被删除的一个重要步骤。但挖掘这些隐藏数据的真正优势,是要让企业真正地从这些数据中受益。
但挖掘暗数据并非易事。暗数据有很多种格式,有可能是完全未格式化的,例如存在于扫描文档或者音频、视频文件中。
下面让我们来看看这些企业组织是如何把暗数据转化为商机的,以及业内人士给那些希望利用暗数据的IT领导者提供的建议。
来自赛车手的编码音频
五年来,Envision Racing收集了100多场电动方程式比赛的录音,每场比赛都有20多名车手参加。
咨询公司Genpact帮助Envision Racing利用这些数据,该公司全球分析负责人Amaresh Tripathy表示:“任何人都可以在开放频率上收听这些广播流。”
此前,这支来自英国的赛车队的赛车工程师试图在比赛期间实时使用这些音频传输,但车手使用的代号和首字母缩略词使得他们很难弄清楚所说的内容以及如何使用这些音频,因为Tripathy说,了解其他车手在说什么可以帮助Envision Racing的车手制定赛车策略。
“比如什么时候使用攻击模式,什么时候超车,什么时候踩刹车,”他说。
Envision Racing还收集自己车队车辆传感器的数据,例如轮胎、电池和刹车,并从供应商那里购买外部数据,例如风速和降水量。
Genpact和Envision Racing展开合作从这些数据流中挖掘价值,利用自然语言处理构建深度学习模型来分析这些数据。从准备数据管道到提取数据、过滤掉噪音,再到进行有意义的对话,这个过程花了六个月的时间。
Tripathy说,人类需要5到10秒才能弄清楚他们听到的内容,这种延迟使无线电通信变得毫无用处。由于人工智能模型的预测能力和洞察力,现在他们在一两秒之内就能做出响应。
7月,在纽约举行的ABB FIA电动方程式世界锦标赛上,Envision Racing车队分别获得了第一和第三名,Tripathy将这一结果归功于利用了所谓的暗数据。
暗数据黄金:人工生成的数据
Envision Racing的音频文件是人类生成型暗数据的一个例子,这种数据主要是供其他人使用,而不是被机器使用。数据归档平台提供商ZL Technologies联合创始人、首席执行官Kon Leong表示,这种暗数据对企业来说是非常有用的。
他说:“这种数据对于理解企业所有要素是非常有用的,包括文化、绩效、影响力、专业知识和敬业度。员工每天都在分享绝对海量的数字信息和知识,但到目前为止,这些信息和知识基本上都还没有得到开发和利用。”
电子邮件、消息和文件中包含的信息可以帮助企业组织获得洞察力,例如谁是组织中最有影响力的人。Leong说:“企业把80%的时间都花在了沟通上,但是只把1%的时间花费在数据分析上。”
处理人工生成的非结构化数据是极具挑战性的。例如,通常不会设置数据仓库来处理这些信息,而且收集这些信息可能会给企业带来不得不应对的新问题,例如合规性、隐私和法律等等。
Leong说:“这些治理能力在如今的数据湖概念中并不存在,事实上,通过把数据收集到数据湖中,会生成另一个孤岛,这会增加隐私和合规风险。”
相反,企业可以把这些数据保留在当前所在的位置,只需添加一层索引和元数据,实现可搜索性。他说,让数据保持原状,也能让数据保留在现有的合规结构中。
有效的治理是关键
解决暗数据价值和来源存疑的另一种方法,是从可追溯性开始着手。
《Fundamentals of Data Observability》一书作者、数据可观察性提供商Kensu的创始人Andy Petrella表示:“如今,暗数据被认为是一种可以利用的、尚未开发的资源,这是一个积极的行业趋势。”
他说:“利用暗数据的挑战在于人们对暗数据是信心不足的,尤其是在哪里、以何种方式收集这些数据。可观察性可以让数据沿袭变得更透明、具有可追溯性。可追溯性让数据质量检查成为可能,使人们有信心使用这些数据来训练AI模型,或者根据这些数据带来的智能性采取行动。”
StoneTurn是一家专注于监管、风险和合规问题的全球咨询公司,该公司董事总经理Chuck Soha认为,处理暗数据的常用方法是把所有内容都放入数据湖中,而这会带来重大风险。
他说,在金融服务行业尤其如此,多年来该行业一直是把数据发送到数据湖中。“在典型的企业中,IT部门把所有可用的数据与一些基本元数据一起转存到一个地方,并创建与业务团队共享的流程。”
这适用于那些内部拥有必要分析人才或者为特定用途引入外部咨询顾问的业务团队,但在大多数情况下,这些举措只是其中一个部分,Soha说。
“CIO们从以前的不知道他们还有什么是不了解的,转变为知道他们有哪些是不了解的。”
相反,企业应该从数据治理开始着手,去了解他们都有哪些数据,存在哪些问题,其中数据质量是首要因素。
“利益相关者可以决定是对这些数据进行清理和标准化,还是从更好的信息管理实践重新开始着手,”Soha认为,把精力投入在从那些包含有不一致或冲突信息的数据中提取洞察力,是一种错误的做法。
Soha建议,把各个业务部门内部已有的、良好的运营数据联系起来,弄清楚这些数据之间的关系,有助于产生快速而有用的洞察,而且也不需要立即查看任何暗数据。“这么做还会让你有机会去优化你应该从暗数据的哪些方面开始着手。”
最后他说,AI在帮助利用非结构化数据方面也是非常有用处的。“人类通过使用机器学习和AI技术可以查看只有1%的暗数据,并对这些暗数据的相关性进行分类,然后强化学习模型可以快速生成对剩余数据的相关性评分,从而优先考虑需要更仔细地查看哪些数据。”
利用AI提取价值
亚马逊Textract、微软Azure认知服务、IBM Datacap、以及谷歌Cloud Vision、Document、AutoML和NLP API都是常见的、用于处理暗数据的AI解决方案。
Tripathy说,在Genpact与Envision Racing的合作中,Genpact在内部对机器学习算法进行了编码,这需要Docker、Kubernetes、Java、Python、以及NLP、深度学习和机器学习算法开发方面的知识,而且整个过程是由MLOps架构师管理的。
遗憾的是,这些技能是很难获得。Splunk去年秋季发布的一份报告显示,受访的1300多名IT和业务决策者中,只有10%-15%的受访者表示,他们所在的企业组织正在使用AI来解决暗数据的问题,缺乏必要的技能是利用暗数据的主要障碍,仅次于暗数据本身的数量。
一个问题(和一个机会)正在浮出水面
暗数据仍然是一个充满风险和机会的宝库。根据行业的不同,企业的暗数据估值从40%到90%不等。
由Quest赞助的、Enterprise Strategy Group在7月份发布的一份报告显示,平均47%的数据是暗数据,有近1/5的受访者表示他们的数据中有70%以上是暗数据。Splunk的调查也呈现出类似的结果,平均55%的企业数据是暗数据,1/3的受访者表示,他们有75%或更多的数据是暗数据。
而且这个情况在好转之前可能会变得更糟,因为有60%的受访者表示,他们有超过一半的数据根本没有被捕获,甚至他们不理解其他大部分数据为何存在于此。随着更多数据被发现和存储,暗数据的数量也会持续增加。
对于CIO们来说,现在是时候去制定暗数据有关计划、着眼于充分利用任何有希望为业务创造新价值的暗数据了。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司