杨恒均 | 大数据时代,各国秘密警察都在干什么?
上次在华盛顿同一位“知情人”聊了半小时的斯诺登,我感到不安...
阅读更多发布者五月三十五日 | 1 月 30, 2014
大数据的陷阱 胡泳 郝亚洲 李娜再度夺得大满贯,超越了张德培的华人大满贯纪录,非举国体制下的奇迹造就了举国的愉悦。在总结李娜成功因素的时候,也再次看到了这样的言论,“是大数据起到了重要的作用”。早在 2013 年美网期间,就有媒体说大数据深度介入赛事、颠覆体育的时代来临了。但在仔细看过了相关材料后,我们发现,大数据的作用仅仅是囿于赛事的外围,比如观众体验;并不能够轻易得出大数据在提升球员自身比赛能力方面会发挥显著效果的结论。这次李娜夺冠,最靠谱的解释就是李娜在卡洛斯的帮助下提大大提升了心理层面的战斗力。可以说在技术层面领先的前提下,李娜在整场比赛中很好地克服了节奏的问题,也就是说她具备了一颗冠军的心脏。 而目前所说的大数据,无非是告诉球员一些不算具体的技术指标。在个人竞技比赛中,高手之间心理素质的较量远远重要于技术的比拼,否则也不会有“爆冷”一说。可以说,体育比赛的最大魅力就在于那些无法预知的“黑天鹅”。 2012 年 9 月 6 日,代表亚洲网球至高水平的中国选手李娜在美国迎战名将小威廉姆斯。当时, IBM 公司在综合了美网过去 8 年的全部比赛数据之后,为参赛球员制定了“ Keys to the match ”的比赛制胜策略。李娜一方获得赢球的关键包括 3 个指标: 1 、一发得分率超过 69% ; 2 、 4-9 拍相持中得分利率要超过 48% ; 3 、发球局 30-30 或 40-40 时得分率要超过 67% 。 比赛结果是,李娜溃败。比赛结束后, IBM 高调地宣布李娜仅仅完成了三项制胜策略中的一项,而小威廉姆斯则完成了自己三项制胜策略中的两项。 于是,很多人就顺着 IBM 的思路去问,李娜为什么不照着 IBM 的策略去打球? 美国著名的博客纳特 · 西尔弗在《信号与噪音》中提出了一个命题,数据究竟是对于我们的未来有所帮助的信号,还是毫无意义的噪音。西尔弗成名于奥巴马选举期间。当时,奥巴马和罗姆尼的选战正在胶着,人们都看不出来谁有可能获胜。西尔弗用棒球的统计方法得出结论,奥巴马必胜。这一准确预测让他名声大噪。但是,西尔弗很快就开始反思,利用大数据获得成功预测的案例远没有失败的多。为何? 为什么 911 的时候,美国政府会忽视将要有恐怖袭击的信息,就像当年的珍珠港事件一样?为什么握有大量数据的经济学家预测不出来经济危机?为什么美国职业棒球大联盟中,球探依然无法被数据所取代? 西尔弗在书中写到:“自从有了印刷机,我们的世界已经经历太多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但是用的信息却寥寥无几。我们主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。” 西尔弗的话已经说得很清楚,人的主观愿望是决定看到信号还是听到噪音的关键因素。当美国情报部门收到种种美国即将遭到恐怖袭击的信号时,他们并没有采用相关性思维将其联系起来。 2010 年,一位民主党议员给西尔弗打电话,让他告之自己能否保住席位。西尔弗说你有 99% 的机会,你应该把自己的竞选基金捐献给民主党相对弱势的地区,可是,这位议员并不愿意为了 1% 的风险去帮助别的议员。 当当事人的主观愿望不积极的时候,大数据对他们来说不过是噪音而已。同样,数据也会因为主观意愿具有欺骗性。《赌神》中,周润发扮演的赌神一直有一个转戒指的习惯。对手通过观看大量的录像发现了这一动作,并认定当赌神转动戒指的时候,就是他出千的时机。结果,在一场生死之战中,赌神欺骗了所有人。他在转动戒指后并没有出千,结果导致对手崩溃。如果按照今天的观点来看,对手在进行数据分析的时候,过于强调了直接的因果性,模型中缺少了变量。这个最大的变量就是当事人的心理状态。 这也是西尔弗一再强调的。西尔弗是美国本土知名的棒球统计专家,他打造的 PECOTA 系统被认为是最权威的棒球比赛统计工具。就在《点球成金》一书在美国大红大紫之后,球探这个职业一度陷入低谷,各个球队都疯狂地迷恋上了数据。然而,西尔弗认为事实证明,球探最后还是击败了数据。 数据系统的判断依赖的是历史数据,而球探除了依赖历史之外,还要依赖于现场判断。西尔弗举了红袜队明星佩德罗亚的例子。他说数据系统告诉自己,佩德罗亚会是很有潜力的新星。事情的发展也如他所料,但是当西尔弗靠近佩德罗亚的时候,才发现,佩德罗亚坚定的信念和专注力才是决定他在场上可以出色发挥的关键。而这两点,都是数据系统无法感知的。 说回到 IBM 为大满贯球员打造的制胜策略上。在和几位国内资深的网球评论员交流之后,发现大家对这个所谓的大数据系统除了觉得好玩之外,并没有实用的价值。首先,这套系统不能预测。其次,这种依赖于历史数据得出来的结论,早已被球员的教练团队烂熟于胸。对于李娜来说,教练员的任务不是把这些数据告诉她以便进行针对性训练,而是侧重于心理辅导。 而且,若要 IBM 为李娜设定的三个指标都达标的话,需要两大因素支持。首先是李娜的临场心理状态。打球不比下棋,想到的可能做不到。其次,在于对手的压迫程度。面对小威这样的力量型选手时,李娜的发挥空间会被大大压缩。而这两大因素又是紧密联系在一起的。 我们很多时候都会被误导,认为大数据的作用是让历史告诉未来。不然。甚至在网球这样的领域里,历史数据常常会成为陷阱。大数据之大,一方面在于原始数据库的规模之大,更在于实时流动量之大、数据来源之大。就像西尔弗所言,一个好的棒球预测系统必须具备三大要素:考虑球员表现的外在因素;区别看待运气和技术因素;了解球员的表现和年龄变化之间的关系。 有意思的是,在另一场女子网球比赛中,一位球员做到了 IBM 为其制定的三项指标中的两个,她却失败了。胜利的一方,只完成了一个指标。
阅读更多发布者CDT aggregator | 11 月 6, 2010
牛刀:两大数据说明中国房价要下跌十年 ——民生经济学杂谈之十三 央行货币政策委员会委员 周其仁教授很幽默,把中国经济当作政府和银行在和面团,说是,水多了加面。想想还很形象,中国经济自朱镕基总理之后,一直在和面团,和来和去和到现在,也许是想把这团面和成一个蛋糕,只供有身份的人品尝,但是,这团面就是一个面,做不成蛋糕,成了一堆难以下噎的窝窝头,表面光鲜,实则肶糠。 而央行又在拼命注水,水多了,就不是和面,也做不了面。那么,水有多少,面有几何?我们来看一个数据:根据央行数据显示,今年 9 月末,广义货币余额已经达到了 69.64 万亿元,按照国家统计局发布的前三季度 GDP 达 26.866 万亿元计算,超发货币将近 42.774 万亿元。这么多的水,央行早已把中国经济变成了一个泽国。 而那这团面做成窝窝头,主要的市场表像是,房地产一飞中天,表面好看,实际上一肚子肶糠,建筑寿命只有 30 年,使用权只有 70 年,根本没有价值的东西,却被炒成了天价。何故?我们再来看一个数据:从 2000 年- 2009 年,全国房地产企业一共购置占地面积近 33 亿平方米土地,但同期完成土地开发面积仅有近 21 亿平方米,十年间闲置土地达到近 12 亿平方米,这还不包括今年前 9 个月购置房产开发土地 2.9 亿平方米。 我在今年 6 月 5 日中国风险投资论坛做演讲时,讲到中国经济面临的现状,货币多了导致房价非理性上涨,纵观全球解决这种经济状况的办法,对中国来说已经走到死胡同,必须尽快进行抉择,那就是,到底是贬货币,还是降房价。我给出的解决之道是,只有降房价,其他都是死路。当时国家许多领导人和部委、广东省和深圳市主要领导和全球金融界、经济学界、企业界有关人士都在场,却打动不了他们。 11 月 2 日 中午,于建嵘教授到江西万载县讲课,呼吁停止强制拆迁。课后与县委书记吃饭,书记对于峥嵘说: “ 为了发展,就得拆 …… 如果没有我们这些县委书记这样干,你们这些知识分子吃什么? ” 于愤而离席。到了一级政府大员如此理解强制拆迁,而决策层至今无法出台拆迁条令时,血房图的诞生也就毫不奇怪了。 那么现在我们再来这两个数据,矛盾无法解决。你不降房价,开发商就大规模囤地。一个国家的土地市场失控,其实就是货币发行失控,基本就意味着经济面临崩溃。如此严重的问题,我们还要和面团的方式来解决,能行吗?如果决策层一个劲的和面团,那么,这团面最后和出来的必定不是面,而是便,大便的便,排泄物而已。 所以,这两个数据说明,中国经济依然在贬货币还是降房价的两难中徘徊,而且,贬货币的趋向更加明确。如果真的是选择贬货币,大规模的经济危机不可避免。根据全球经济危机的历史来观照中国这个经济现象,巴西是 22 年,日本是将近 20 年,香港是 13 年,美国看来也必定在 10 年以上,中国经济尾随其后,将要衰退至少十年以上。 而现在决策层毫无改革意愿,毫无降房价的措施,有的只是短期行政措施和手段,而涉及到房地产,恰恰是长期战略,短期行为无法解决中国的房地产问题。彻底打破房价上涨预期,才能给中国经济找到一条解决之道,维持房价,假惺惺的搞什么遏制投资和投机,结果不是和面团,而是死路一条。 做好中国房价下降十年的打算,才是理性的选择,因为房价没有可不下降,房价下降只是房价泡沫破灭,只是对一个产业产生影响,而货币长期贬值将会引发经济崩溃。何去何从,应该当断。当断不断,反受其乱。 牛刀亲笔签名新书网上有售 另有曹建海亲笔签名新书《向高房价宣战》 和王福重签名新书《写给中国人的经济学》 网址 http://shop58544884.taobao.com MSN空间完美搬家到新浪博客!
阅读更多