数据会说谎
2016-04-20

被《首发 | 上海购房者大数据分析报告》刷屏了。这是3月23日的克而瑞大数据发布会上,易居执行总裁丁祖昱先生发布的《八大城市购房群体白皮书》的部分内容。


我仔细看了三遍!


首先,这是房地产咨询行业的上市公司,第一次承认了大数据在房地产行业应用的可能性和价值;

其次,字和图实在太小了,不看多几遍确实也看不清楚!

最后,有几个关键结论引起了我比较大的兴趣,见下图。


简而言之:有钱人,住市区;穷人,住郊区。

这个结论太正常了,正常得有点反常。

所以我仔细检查了克而瑞对“首置客户”“首改客户”“再改客户”和“豪宅客户”的定义,我发现了问题所在,见下图。



相信聪明如你也发现了,克而瑞是用“房价”来定义“客户”。过去买了便宜房子的客户就是“首置客户”,然后通过大数据发现“首置客户”住在郊区,因为便宜房子都在郊区……


生活中,同样自我循环论证的例子还有:我们假设过去四年住在中学男生宿舍的人是“男人”,住在中学女生宿舍的人是“女人”,然后用大数据跟踪观察他们读大学的居住情况,最后得出结论:“男人”住在大学男生宿舍,“女人”住在大学女生宿舍……无懈可击……好有道理,我竟无言以对……


所以,数据确实会说话,有时候是真话,有时候是谎话,关键取决于对数据样本的定义。以我在万科工作的经验,我会倾向于用“年龄段”来定义“客户”



首置客户:<35岁

首改客户:36-45岁

再改客户:46-55岁&中高支付力

豪宅客户主要看支付力

假设这样的定义是可靠的,我们再来看看数据是怎么说的:(颜色越深表示客户密度越大)


图一:26-35岁人群分布

图二:36-45岁人群分布

图三:46-55岁人群分布

图四:中高收入人群分布



乍一看,好奇怪!


为什么首置和首改客群住市区的那么多?

为什么再改客群更多出现在中外环等近郊?西南边都住到外环外去了?


其实再仔细想想就会明白,因为这才是事实。

1、你可曾见过哪个城市的市中心全住的有钱人?

2、首置首改客户,工作刚性强,时间不自由,住在公司附近是不是边际成本更加合理?想想你刚刚毕业那会,想想现在身边的年轻朋友和同事,他们住在哪?

3、再改客户,已经有房了,如果有能力有意愿再换房,他们会图什么?还是一切为了工作吗?借用当下流行的一句话:生活,除了眼前的苟且,还有诗和远方。


最后,热烈欢迎克而瑞加入大数据的房地产应用领域,期待你们更精彩的表现。