×
畅享IT
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918
当前位置:畅享论坛 >  科技  >  网络|安全 > 正文
发帖
回复
(共 2 条) 上一页 1 下一页
查看: 248|回复: 2

[转帖]几个很有启发性的关于“数据会说谎”的真实例子

[复制链接]

等级:经理
行业:
职能部门:
城市:上海
金币:802

 

数据解读是数据分析最重要的环节,数据不会说谎,说谎是来自于数据误读;很多公司招聘数据分析只强调数据处理,对数据解读无法评估,就会带来数据误读,从而产生“数据会说谎”的结论。

1.、通过可控的客户端采样监测,得到了一定样本的,包含google搜索url特征的日志记录,得到google的搜索量;同样的样本下,采集到包含google adwords广告url特征的日志记录,得到google的广告点击数。 那么,理所当然&一厢情愿的 用点击数/搜索量,得到点击率。 但是,这个点击率是显著错误的,理由是,googleadwords广告点击,并不只发生在google的搜索结果中! 当时的情况是,点击率被高估了一倍。(其实已经区分了adsenseadwords广告点击的url特征,但是adwords也会出现在其他网站)

对数据逻辑及相互关系的理解不透彻,就会带来错误的解读。

2、反欺诈点击,有一定的点击过滤策略来进行,引入一种新的过滤策略,会带来更加严格的过滤,于是按照新的策略跑一遍旧的日志,得到结论,额外过滤了若干点击,价值若干,会导致收入下降若干。
但是这个结论是彻底错误的。当严格的策略执行之后,客户对该系统信心增加,竞价价格提升,广告预算提升,收入不降反升。
这也是有实际数据佐证的。简单结论是,单方面做数据推算,而忽略了与用户、客户的交互影响,就会做出错误的推断。

3 某同事,名校计算机博士,算法达人,做了一条曲线,AB高度相关,得到结论,A会导致B,看一眼结论我就骂人了,狗屎结论,实际上是AB均受C的影响,所谓高度相关是C的因素带来的,这是只看数据不懂业务的典型。

4、样本偏差,特典型的就是沉默的大多数现象,简单举例,去IT论坛,发个投票,百度好不好,腾讯好不好,多数人会说不好。但是真正的用户是不会去IT论坛,更不会参与这种无聊的投票;所以这种投票得到的结论,你要真信,你就傻了。 此外,还有比如送礼品的票选,喜欢这种礼品的用户,本身就有倾向性,如果票选内容与礼品有关,那么结论显然是不可靠的。

5、有人提到预测未来,补充一点,就是用户不知道自己的未来。这也是普遍做样本调查容易产生的误区。如果时间前溯10年,你问一个用户,你会去买苹果手机吗?他肯定会说,你是不是疯了。但是当真的很酷的苹果手机放到他手上,他才会有感觉。 这是有真实案例的,十几年前,手机还叫大哥大,还是大款们才特有的玩物,真有调查公司跑到路边采访行人,说你需要买手机吗,行人纷纷表示不需要。他们不知道这玩意对他们人生的改变有多大。10年前,又有类似的事情,上网当时被认为是不务正业的表现,报纸媒体开始忧心忡忡年轻人的网瘾和被网络的伤害;然后又有媒体去采访,很多人表示,上不上网无所谓。这些都是当年一些新闻电视里出现过的典型场景。如果你相信,你就真完了。

这里的问题是,用户不能预知技术的发展和对人类群体乃至自身的改变;当然,有的人能看到,1997年,还在读书,我一直纠结大学毕业能做什么,第一次接触到了互联网,我坚定,这是改变人类的东西,这是我一辈子的职业。

6、举一个前几天碰到的真实的例子吧。选取音乐电台用户的一个子集,共2W人;分成AB两组,每组1W人;对每一组使用不同的推荐算法。统计在一天内每一组的用户一共点击了多少次喜欢的按钮和不喜欢的按钮。计算每组用户点击喜欢的按钮的比例 = 点击的喜欢个数/(点击喜欢的个数+点击不喜欢的个数)。理论上这个值越高,说明这组用户越满意,也就说明用在这组上的推荐算法更好。后来发现这个结果没有统计意义…… 因为有些用户会一天给出上千个喜欢与不喜欢的反馈,这样的用户在AB两组中的分布决定了最终结果的好坏。改进方法是:需要去除这些噪音点,或者使用其他的统计值。

7、我们还针对AB两组用户分别统计了:平均每个用户每天点击喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越好。可是,我们又针对AB两组用户分别统计了:平均每个用户每天点击不喜欢的音乐的个数。按理说,这个个数越高,说明推荐算法越差。结果,发现在很多情况下,第一个个数高的算法,第二个个数也高。于是,使用单一指标也许不能很好的刻画一个算法。改进方法是:使用更多的指标来进行刻画,具体问题具体分析,寻找背后的原因。

8、当年Firefox用户与Mac用户对支付宝重要与否,单从浏览器数据统计看,Firefox访问支付宝的比例太低了。不过因为支付宝不支持Firefox,所以,这个比例不能用作判断的依据。Mac用户也是一样。再说一个,支付宝当年代缴水电煤的项目改版之后,发现缴费用户立刻暴增,产品人员欣喜若狂,后来白鸦同学分析一下,哦,原来那几天是每个月水电煤缴费高峰期,周期性的抽风。其实呢,分析一下我国有关部门发布的数据,你会发现那都是一些说谎的数据。

 

 



畅享论坛提示:看帖后顺手回帖,是对辛苦发帖者的鼓励,是美德。


等级:经理
行业:培训
职能部门:其他
城市:上海
金币:802
 发表于 2014/4/28 10:53:58 | 博客 | 圈子 | 发送站内信 | 加为好友 | 邀请加入圈子
top第1楼
9、二战时英国皇家空军邀请美国的统计学家分析德国地面炮火击中联军轰炸机的资料,并且从专业的角度,建议机体装甲应该如何加强,才能降低被炮火击落的机会。但依照当时的航空技术,机体装甲只能局部加强,否则机体过重,会导致起飞困难及操控迟钝。 统计学家将联军轰炸机的弹着点资料,描绘成两张比较表,研究发现,机翼是最容易被击中的部位, 而飞行员的座舱与机尾,则是最少被击中的部位。作战指挥官由此认为,应该加强机翼的防护,因为分析表明,那里”密密麻麻都是弹孔,最容易被击中”。但是统计学家却有不同观点,他建议加强座舱与机尾部位的装甲,那儿最少发现弹孔—–因为他的统计样本是联军返航的受损飞机,说明大多数被击中飞行员座舱和尾部发动机的飞机,根本没法返航就坠毁了。
所以如LS几位所答,不是数据说谎,而是没注意到沉默的数据(缺少了的样本),需要分析者有足够广的视角和逻辑,才能从数据里挖掘出足够正确的东西。
10、改版了款wap产品,没做任何推广前提下,发现流量飙升,尤其匿名用户涨了3倍。因为产品本身用户基数低,所以流量翻了两三倍也算正常。当时估计是SNS的口碑传播导致的。但最后还是觉得不对劲,查了一下,发现是搜索引擎在抓页面,因为改版了,所以它们要重新抓一次。空欢喜一场。数字还是那个数字,但背后它到底对应了什么内容,常常被忽略了。
11、我们会在游戏中对很多内容或操作做数据监控,然后通过分析数据的提高还是降低,去判断用户对该内容的喜欢程度。但是单独看数据的提高和降低是没有意义的。例如,我们发现某项物品最近销售数据在下滑,我们可能就会下结论:这个物品受欢迎程度在下降。但这个结论是不准确的,必须结合着其他的数据一块看,例如DAU。如果DAU在下降,那么该物品的销售随之下降是正常的,如果结合着比例来看,有可能会发现虽然销售数据在下降,但是比例数据(即销售数/DAU)是在上升的。这样会明白,其实该物品的受欢迎程度并没有下降了,而是DAU下降了。而在DAU下降的同时,销售比例在上升,其实该物品的受欢迎程度反倒是提高了。
因此,其实不是数据在说谎,而是很多数据需要辩证的来看。
12、前不久不有这么一段儿:说是美国著名调查机构PEW在“胸围与幸福指数”调查中对500对30—40岁的夫妻调查结果显示:女性胸围A杯的离婚率为37%,胸围B杯的离婚率为16.3%,胸围C杯的离婚率为4%,而胸围达D杯的女性离婚率1%都不到。这个典型的抽取样本数量不等的情况下的出的所谓结论可信度大打折扣。有个简单的方法看看滑稽在什么地方。有没有注意到,里面木有E杯和F杯的数据,why。。。因为,要么根本就没有E和F,自然没有结论,要么E和F数量很小,得出的结论完全可能出现100%离婚的结论,这样的结论和前面的推到就不符合所以隐藏了。

等级:经理
行业:培训
职能部门:其他
城市:上海
金币:802
 发表于 2014/4/28 10:54:27 | 博客 | 圈子 | 发送站内信 | 加为好友 | 邀请加入圈子
top第2楼
互联网治理,让更多人享受便利
4月23日至24日,全球互联网治理大会在巴西圣保罗举行。大会采取委员会模式,邀请来自各界的代表一起,讨论互联网在全球使用和发展的相关战略指南。
  随着此前“棱镜门”事件的持续发酵,互联网安全性备受质疑,未来互联网治理将何去何从,成为人们迫切关心的话题。本次会议上,“多利益相关方模式”的治理原则及未来互联网治理的线路图成为大家讨论的焦点。
  如何在互联网的保护及开放中获得平衡是一个重要课题
  巴西著名智库瓦加斯基金会技术与社会中心主任路易斯•费尔南多•曼康对本报记者表示,此次大会对“多利益相关方模式”进行讨论,就是让各国政府、民间团体以及互联网用户等能平等参与网络治理讨论,并对全球互联网治理提出一些解决方案,以推动全球互联网安全平稳发展,避免让更多的国家受到网络侵害。但他坦言,这一过程并不容易,不同的国家间会因为国情、政治体制不同,提出一些不同的解决途径。
  会议现场,在巴西总统罗塞夫致辞时,一些民间团体成员用“棱镜门”事件主人公斯诺登的头像遮挡脸部,并拉起巨幅横幅,上面写着“我们都是受害者,我们都被监控,我们支持罗塞夫(要求建立全球网络新秩序)”。
  在致辞前,罗塞夫签署了巴西国会参议院4月22日晚通过的《网络民法》。《网络民法》明确了用户、企业和公共机构在巴西使用互联网的权利与义务。这一法案特别强调互联网管理的系列原则,包括言论自由、网络中立和隐私保护。
  在和一些与会代表的交流中,记者发现,大家对这部法律都比较认可,很多人认为这是全球网络治理的一大进步。一位代表指出,如果未来能有更多国家效仿巴西制定类似的法律,相信互联网使用的安全性及隐私性会大大增加。
  世界上因网络攻击而遭受大量财产损失及安全威胁的国家不胜枚举。以巴西为例,据当地媒体披露,不仅罗塞夫本人,巴西大型战略型企业的网络信息也受到美国国家安全局的操控。据报道,巴西已成为网络犯罪主要受害国,每年因此损失达150亿雷亚尔(1雷亚尔约合2.8元人民币)。企业商业秘密、政府机构信息和个人隐私受到严重的安全威胁。
  本次大会主席维尔吉利奥•阿尔梅达指出,这次会议后将根据会议讨论结果形成国际互联网治理规则及未来互联网生态发展路径两份纲领性文件。巴西互联网指导委员会董事会成员卡洛斯•阿丰索强调,未来如何在互联网的保护及开放中获得平衡是一个重要课题。
  美国总统奥巴马特别助理、白宫数字安全协调员米切尔•丹尼尔表示,美国支持建立一个“多利益相关方模式”的互联网。
  目前全球还有60%的人不能享受互联网带来的便利
  联合国副秘书长吴洪波提出,政府间应当采取一些必要的措施来弥合信息鸿沟。一些与会代表也强调,大部分能够与会的国家还是发达国家,很多发展中国家可能因为经济等原因,没有办法作为“多利益相关方”的一员来表达自己的意见,目前还有60%的人不能享受互联网带来的便利。希望未来更多的发展中国家也能在全球互联网治理过程中表达自己的意见,参与到这一进程当中来。
  中方代表在会议上强调,互联网治理应遵循联合国宪章和公认的国际关系准则,承认和尊重各国在互联网空间的主权,各国有权利根据自己的国情,根据广大老百姓的意愿,制定互联网的法规和政策。
  来自欧盟委员会的瑞恩•汉斯在接受本报记者采访时指出,中国作为发展中国家,在互联网治理的道路上取得了巨大的飞跃,也承担着日益重要的社会责任。
  中国互联网信息中心战略与国际合作中心副主任孙先堂对本报记者表示,治理是为了更好发展,只有发展好了才能更好治理。他指出,政府的引导作用无可替代,在政府的正确引导下,更多的网民才有可能参与到全球互联网治理的进程中。来自俄罗斯的代表也阐述了类似的观点。
  同时,多方治理没有统一模式,各方都在摸索阶段。孙先堂希望,未来中国也能够承办更多类似的、与互联网治理有关的国际大会。此次关于“多利益相关方模式”的全球网络治理原则及路线图的探讨只是个开始,未来我们还有很长的路要走。
就在5月22日,Future-S中国信息安全与风险管理峰会2014就将聚焦时下最热的移动网络、互联网和物联网大背景,为大家带去精彩纷呈的解读。还不速速来报名。可直接关注SITC微信平台,通过微信回复:报名+姓名+电话+邮箱
或者来电咨询:Ms.史 021-62127452
邮箱:Shiyx@shic.gov.cn

(共 2 条) 上一页 1 下一页
您还未登录,不能对文章发表评论!请先登录
2020-04-10 08:00:04 704/2020-04-10 08:00:04 720/2020-04-10 08:00:04 736