大数据是从哪儿来的?唐雄燕说,其实是我们大家贡献出来的。比如,平时有些隐私的话可能不会跟家里人说,但告诉百度了;上网搜什么东西,百度知道;社交关系谁掌握,所用的微信和QQ会掌握;购物爱好和习惯,淘宝网、京东网知道;通话和上网记录,三个运营商可能有;身份、家庭和房产信息,政府那里有;在哪里刷了信用卡,银行知道;现在人在哪儿,你的手机可能掌握。
要在数据里找出有价值的东西来,这就是大数据技术的核心,迅速完成数据价值的提纯。比如,监控了你一整天,可能真正有用的数据,就是在一两秒钟内发现你干了坏事。这是如何找出来的?这就是数据挖掘技术的关键。通过大数据应用可达到什么目的?唐雄燕认为,对我们的管理来说实现了更高效的管理,对商业来说实现了更精确的营销,对于社会很多事件的发生,或者是环境的预测来说,则提供了更及时的预测,以及更优质的服务。比如,谷歌通过对搜索的分析判断流感的趋势,和美国疾控中心的数据完全是一致的,而且速度更快。
大数据应用靠技术来支撑
大数据到底是一种现象还是一种技术?百度公司发展研究中心副主任率鹏认为,没有技术支撑的大数据是没有办法应用起来的。
比如,在“百度知心”上搜索“刘德华”,除了在屏幕左侧展现刘德华的基本信息,还同时在右侧展现用户在访问“刘德华”信息过程中可能会感兴趣的其他资料——代表作、家庭情况、个人生活信息,甚至目前和他关系紧密的一些其他艺人的资料。这样一些信息,恰恰是对于用户在百度上对刘德华大量的搜索行为总结和归纳的基础上,才把知心的信息归纳并且展现出来的。
搜索“紫色的小花”,百度就会给出很多类似的花卉,并且一定是紫色的,同时这个花一定不大。这样的搜索结果,也都是通过对于大数据的归纳和处理总结出来的。还有“PK大咖”——拍一张自己的照片,百度就能告诉你哪个明星和你长得最像,相似度有多少。
“百度翻译”,则是通过大数据和学习的技术,上线了24种语言不同的翻译工具,其中有12种是整个百度翻译团队都没有人懂的。率鹏说,在完全不了解、不懂得、不理解这种语言的情况下,正是大数据技术的支撑,开发出了这个在行业中质量非常领先的翻译工具。
大数据对隐私保护提出了挑战
大数据的应用,会让人们在上网、刷卡时把自己的信息暴露出来,因而就产生了关于隐私保护的问题。大公司对于用户隐私的保护是非常严格的,包括最近国内的10家公共云服务企业做了内部评测,它们是可信和有保障的。
但他也指出,对于政策制定来说,原来对用户的隐私保护更多侧重于隐私本身是什么,如个人的名字、电话号码、银行账号等。而大数据时代除了保护这些信息,需要一些新的思路和方法,如果只是保护用户信息的采集环节,在大数据时代就是不完整的,因为总有一些其他信息能够分析出有些涉及用户隐私的信息。就是说企业掌握这个数据,或者掌握这些分析是允许的,但法律要禁止的是拿这些数据不能做什么。他认为,大数据时代对隐私保护提出了新的挑战。
大企业在隐私的保护上相对会有比较完善的手段,也不敢轻易去作恶,如果要作恶的话,代价是非常大的。但一些小的企业,就比较容易出问题了。随着大数据的发展,将来骗子在互联网上也是透明的,如果有不良行为,很快就可以被抓住。有了大数据,反而能增强信息的安全。
率鹏则认为,首先是国家有相关的法律进行保护和约束。在隐私问题上,他重点强调了两个概念:一是符号化,二是用户特征。所谓符号化,就是当去识别一个用户的时候,实际上是用和他的真实信息不相关的符号标记这个用户,这个符号是通过算法来保证的,使你下一次登陆时依然能够识别出和上一次登陆是同一个用户,但是从技术上,却没有办法通过这个符号反推出这个人在真实生活中的姓名、电话和住址,这些信息和这个符号都是没有办法关联起来的,是单向的识别,而不是在网络上肖像和真实身份挂接起来。这就使得基本享受了大数据带来的优势,同时又规避了信息安全的风险。
所谓用户特征,则意味着在大数据时代,企业感兴趣的往往是这个用户的特征,而不是家庭地址、电话号码那些敏感的信息。如果在数据使用过程中严格遵循这些原则的话,就能够规避风险。 率鹏特别提到,有些用户会把照片发到微博上,或者把真实的履历信息以一种公开的形式放在互联网上。他认为,在大数据时代,迫切需要向用户加强对于保护个人信息意识的教育,即安全上网的教育。
(责任编辑:)