您所在的位置:云计算 > 云应用 > 活的大数据实战——人群标签及标签关联性挖掘(1)

活的大数据实战——人群标签及标签关联性挖掘(1)

2013-07-04 11:14 佚名 速途网 字号:T | T
一键收藏,随时查看,分享好友!

“大数据”时代的到来,为各个行业利用数据进行预判、分析、优化都起到了至关紧要的作用。而如何使大数据发挥其根本价值,真的为我们所用,是全世界数据算法科学家为之奋斗的技术性难题。

AD:

2013年初,第85届奥斯卡金像奖颁奖礼在美国好莱坞举行。而在颁奖礼之前,微软纽约研究院经济学家David·Rothschild通过大数据分析,对此次奥斯卡各奖项的得主进行了预测。结果显示,除最佳导演奖有所出入外,其它各奖项全部命中。这并不是David第一次准确预测,在2012年美国总统大选中,他就曾准确预测了51个选区中50个地区的选举结果,准确度高于98%。

“大数据”时代的到来,为各个行业利用数据进行预判、分析、优化都起到了至关紧要的作用。而如何使大数据发挥其根本价值,真的为我们所用,是全世界数据算法科学家为之奋斗的技术性难题。

找出数据间的关系——

1980年,托夫勒在《第三次浪潮》中就曾预言:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’则是第三次浪潮的华彩乐章”。

在数据呈十万亿亿字节ZB级增长的当下,如何从海量数据中获取并过滤有价值的关系信息,是对所有数据从业者而言的一大挑战。而如何建立数据间的关系,也是如何使大数据“活”起来的必经之路。

在日常生活中,我们常会发现这样的情况,在诸如谷歌、百度等搜索引擎搜索若干关键词后,例如“睫毛膏”、“不晕染”、“浓密”、“纤长”等关键字,在搜索结果页面常会看到睫毛膏的广告推广。似乎,这些搜索引擎明确知道了我们想要做什么、我们会对什么感兴趣。

这一切其实并不神奇,这只是算法科学家通过数据收集、建模、分析之后,将用户、搜索字、搜索字相关广告这几类数据进行了关联。所以当我们进行搜索的时候,看到匹配的广告,就并不难以理解了。

最近,美国的“棱镜”计划引起了全世界范围内的关注,诸如个人隐私等话题被不断提及。在一系列争议之中,随着IT业巨头们纷纷被斯诺登拉下水,“大数据”这一个先锋技术概念再次被拉到聚光灯前。

有人甚至“善意”的对后续前往美国留学的求学者提出建议,在与家人或朋友的电话中多提及诸如“如何用高压锅制造炸弹”、“怎么制造TNT炸药”等敏感字眼,用来加大美国情报分析机构的工作量。然而,这种方法真的有效吗?我看并不尽然。

事实上,没有规律和结构可言的数据并无任何意义,而美国的数据分析家显然早已认识到这一点。仅仅获取电话录音、上网足迹等数据、将这些数据汇聚在一起并不足够,这仅仅完成了“大数据”。而真正使数据产生价值,只有将这些碎片化的数据进行分析比对,将人们的真实身份、性格、消费习惯、需求等个人信息还原后,数据才得以“活”起来。

据美国数据分析家所言,仅通过一次电话发生的时间、通话时长、通话的地点这几条数据,就可判断出该通话是否存在恐怖袭击的可能性。而这,就是通过建立海量的用户通话数据与恐怖袭击之间的联系后,才得出的分析结论。

内容导航



分享到:

  1. 私有云安全挑战与实践
  2. 低调的美团云 技术不低调

文章排行

本月本周24小时

热点职位

更多>>

热点专题

更多>>

读书

The Ruby Way(第二版)中文版
本书采用“如何解决问题”的方式阐述Ruby编程,涵盖了以下内容:Ruby术语和基本原理;数字、字符串等低级数据类型的操作;正则表

51CTO旗下网站

领先的IT技术网站 51CTO 领先的中文存储媒体 WatchStor 中国首个CIO网站 CIOage 中国首家数字医疗网站 HC3i