中国领先的IT技术网站
|
|

活的大数据实战——人群标签及标签关联性挖掘

“大数据”时代的到来,为各个行业利用数据进行预判、分析、优化都起到了至关紧要的作用。而如何使大数据发挥其根本价值,真的为我们所用,是全世界数据算法科学家为之奋斗的技术性难题。

作者:佚名来源:速途网|2013-07-04 11:14

沙龙活动 | 去哪儿、陌陌、ThoughtWorks在自动化运维中的实践!10.28不见不散!


2013年初,第85届奥斯卡金像奖颁奖礼在美国好莱坞举行。而在颁奖礼之前,微软纽约研究院经济学家David·Rothschild通过大数据分析,对此次奥斯卡各奖项的得主进行了预测。结果显示,除最佳导演奖有所出入外,其它各奖项全部命中。这并不是David第一次准确预测,在2012年美国总统大选中,他就曾准确预测了51个选区中50个地区的选举结果,准确度高于98%。

“大数据”时代的到来,为各个行业利用数据进行预判、分析、优化都起到了至关紧要的作用。而如何使大数据发挥其根本价值,真的为我们所用,是全世界数据算法科学家为之奋斗的技术性难题。

找出数据间的关系——

1980年,托夫勒在《第三次浪潮》中就曾预言:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’则是第三次浪潮的华彩乐章”。

在数据呈十万亿亿字节ZB级增长的当下,如何从海量数据中获取并过滤有价值的关系信息,是对所有数据从业者而言的一大挑战。而如何建立数据间的关系,也是如何使大数据“活”起来的必经之路。

在日常生活中,我们常会发现这样的情况,在诸如谷歌、百度等搜索引擎搜索若干关键词后,例如“睫毛膏”、“不晕染”、“浓密”、“纤长”等关键字,在搜索结果页面常会看到睫毛膏的广告推广。似乎,这些搜索引擎明确知道了我们想要做什么、我们会对什么感兴趣。

这一切其实并不神奇,这只是算法科学家通过数据收集、建模、分析之后,将用户、搜索字、搜索字相关广告这几类数据进行了关联。所以当我们进行搜索的时候,看到匹配的广告,就并不难以理解了。

最近,美国的“棱镜”计划引起了全世界范围内的关注,诸如个人隐私等话题被不断提及。在一系列争议之中,随着IT业巨头们纷纷被斯诺登拉下水,“大数据”这一个先锋技术概念再次被拉到聚光灯前。

有人甚至“善意”的对后续前往美国留学的求学者提出建议,在与家人或朋友的电话中多提及诸如“如何用高压锅制造炸弹”、“怎么制造TNT炸药”等敏感字眼,用来加大美国情报分析机构的工作量。然而,这种方法真的有效吗?我看并不尽然。

事实上,没有规律和结构可言的数据并无任何意义,而美国的数据分析家显然早已认识到这一点。仅仅获取电话录音、上网足迹等数据、将这些数据汇聚在一起并不足够,这仅仅完成了“大数据”。而真正使数据产生价值,只有将这些碎片化的数据进行分析比对,将人们的真实身份、性格、消费习惯、需求等个人信息还原后,数据才得以“活”起来。

据美国数据分析家所言,仅通过一次电话发生的时间、通话时长、通话的地点这几条数据,就可判断出该通话是否存在恐怖袭击的可能性。而这,就是通过建立海量的用户通话数据与恐怖袭击之间的联系后,才得出的分析结论。 

可靠的数据模型——

David·Rothschild表示:“我们创建的模型是能够预测未来的,而不只是过去发生的。科学是相同的,但证明哪些数据最有用却存在千差万别。”

和传统由人工进行数据统计及收集的方式,网络时代的数据更多来自机器,利用机器进行自动化的数据抓取及存储,并批量化导入数据库用于后续分析及使用。

例如某条街道上记录车流量的摄像头,通过24小时的实时监控将道路情况,整理统计并用于后续分析。而通过摄像头记录道路情况,显然比传统交警站岗统计违章情况更有效,但同时对于数据的分析要求也就更高。

在大数据时代,随着数据规模呈指数级增长,对数据进行加工和分析的主角,也由原先统计和分析人员变成了程序员和算法师。程序员和算法师通过建立了无数且复杂的数学模型,并不断进行优化与调整,找寻出数据间微妙的联系,并在各渠道中对这些联系进行应用。

我们先撇开“棱镜”计划这件事情本身是否应该存在的争议性不谈,单纯从技术角度来讲,“棱镜”计划与大数据时代的发展是密不可分的。

诚然,每个个体的行为也许都不尽相同,但都是有规律的。通过海量数据的获取与分析,能够获得人们的行为习惯的有效信息,当信息量累积到足够的规模之后,科学家们通过建模找寻数据间的联系,从而对每个人的个体行为习惯进行推测,并提供分析。而“棱镜”计划正是通过海量数据的收集,建模与分析,找寻到单一个体与诸如“恐怖袭击”、“隐藏罪案”等事件间的联系,并采取相应应对方式的计划。

当洛杉矶警方通过“棱镜”计划所收集到的数据,对几十年的犯罪记录进行分析后,预测犯罪行为模式与频率,从而有针对地安排警力的时候,广告主也可以通过分析海量客户的购买行为能够了解客户,进行有针对的营销以提升业务,而易传媒人群标签算法,就是帮助广告主了解用户并提升投放效果的数据分析模型,是“活”的大数据的现实实践者。 

“活”的大数据实践者——

美国记者华莱士曾经谈笑风生地说:“如果它看起来像鸭子,游泳像鸭子,叫声像鸭子,那么它可能就是只鸭子。”

而易传媒人群标签算法,就是帮助广告主找到“鸭子”。

在营销界,啤酒和尿布的案例一直为人们所熟悉。普通人可能无法理解,为什么尿布与啤酒这两种风马牛不相及的商品摆在一起,居然使两者的稍量大幅增加。原来,妈妈们通经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,而在互联网浩如烟海却又杂乱无章的数据中,发现类似“啤酒和尿布”之间联系,就是人群标签算法的核心价值所在。

人群标签算法首先根据互联网的行为属性将人进行了区隔,随后分析不同人群之间的共同属性,建立人群间的联系并应用于后续的广告投放。

这好比某超市门店发现:老张买了2瓶啤酒、4袋花生米。可是在超市中,了解一个又一个老张们的喝酒习惯没有意义。门店需要知道的是,有多少个老张?又有多少个喝酒习惯不同的老李?将喝啤酒配花生米的老张与喝干白葡萄酒配腰果的老李分开,分成不同的客户群体才有意义。比如只要知道,在喝酒的100个客户里,有30个喝啤酒配花生米的老张,10个喝干白葡萄酒配腰果的老李,另外有20个老王是喝黄酒配豆腐干,这就足够了。这时就可以知道,啤酒与花生米有关系,干白葡萄酒与腰果有关系,黄酒与豆腐干有关系,那么这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。

易传媒人群标签算法,是将互联网上的“老张”、“老李”、“老王”区分开,并找到他们真正关注的内容,将其标签化处理后,分析标签间的关系并进行关联化投放的算法。比如我们发现到把浏览汽车网站作为每天必做事项的老张,也经常搜索“LED电视”,从而对其标记“汽车”与“LED电视”的人群标签,当发现千千万万个“老张”都同时具有“汽车”与“LED电视”标签的时候,我们发现这两个标签似乎存在某种必然的联系,便可对这些“老张”们,投放LED电视的广告了。而这在过去,仅凭经验主义大行其道的时代,汽车与LED电视,便如啤酒与尿布一样,是风马牛不相及的两种东西,是万万想不到这两者之间的联系的。

互联网的海量数据不仅可以提炼归类并开发成为实用的系统工具,在实际执行中,数据也是无处不在并且可以被扩展化使用的。而“人群标签算法”就是赋予数据活力,使大数据“活”起来的一种典型体现。人群标签算法是通过线上人群行为数据的收集,抽取并标记以产品导向的兴趣标签,经由人群标签聚类,并对人群进行行为及兴趣趋势分析的流程化算法。

通过持续的、多渠道的、海量的数据收集及管理,易传媒从线上到线下,从在线到移动,将受众进行纳米级微分,帮助广告主最准找到人、管理人,支持强大的受众区隔,提供包括26类人口属性细分、20大类159小类行为兴趣细分、3大类产品行业、数千种行业产品意向细分,共13000多个、3层结构的受众标签。

大数据时代,最大的创新就在于,人们可以通过算法科学家及数据分析师们不断调整优化的数据模型来解读大脑无法处理的数据间关系,我们的四周充斥着数据,而我们的生活也被不断收集数据的计算机引导并优化着。

通过大数据相对理性的分析,结合大脑感性的思维方式,在面对决策和判断是十字路口,我们会得出性价比更高的结论,得到更高效的解决方案。而这一切,才是大数据带给我们的无尽财富和价值。而易传媒,在将“活”的大数据运用在互联网广告投放这件事情上,也将不遗余力、不断前进。

【编辑推荐】

  1. 得大数据者得天下
  2. 并非所有企业都适用大数据
  3. 大数据需要数据虚拟化
  4. 对服装行业大数据的思考
  5. 需要一点想象力----九谈大数据时代
【责任编辑:箫韵 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

Windows Forms 编程实战

本书由浅入深地介绍Windows Forms编程的技巧和各种实用方法。本书先详细介绍了菜单、状态条、可复用类库、文件对话框、文本框、按钮、列表...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× Python最火的编程语言