- +1
要一眼识别出城市里品质更高的居住空间,数据能够做什么?
在评估一座城市的内部空间时,新一酱一直有一个困惑:要怎样才能知道哪些小区可能会住着更追求生活品质的人?
简单的小区房价数据并不能帮上这个忙。从微观空间来讲,房价的决定因素中,房子的位置几乎是起到了决定性的影响力,而房子外部的因素——比如学区——带来的偶然影响也往往高于房子内部的居住品质本身。
看下面的上海小区房价等高线图就可以很轻易地发现,小区相对市中心距离的因素直接影响到了城市内的房价数据产生了明确的圈层效果。
有朋友告诉新一酱一个经验,物业费的高低是衡量小区品质非常直观的一个参考数据:在上海,别墅的物业费通常在4元/平方米/月以上,顶级豪宅的物业费单价能高于10元,而“老破小”的这个数字一般会低于1元。在上面的等高线图中,新一酱也尝试做了一份物业费的等高线图,但几个远郊别墅区出现的明显高值聚集区又让我们产生了犹豫——物业费的确对最高端的一批小区有比较明确的识别力,但对市中心更复杂的居住环境来说,它很难在狭小的区间段内作为单一指标来识别出那些诸如“适合城市的中产阶层家庭”居住的,具备一定品质的小区。
经历了两个重要数据直接关联识别失败后,新一酱认真地静了一静。我们总是期待能有一些与现实经历具备严格相关性的“超级指标”能够直接映射出某个结论。但实际上,城市的运转总是无数事物交织在一起互相作用的。
就好像走在街道上路过一个小区的时候,你的大脑经过对它的楼高、外立面新旧、绿化效果或者隔着围栏看到的遛狗的大爷,通常都能够处理出来一个结果:这个小区的房价是该比周边房子更贵还是更便宜,或者简单点,“不考虑买不买得起,我是否会愿意住在这样的一个小区里”。
因此新一酱认为,要想分析出一座城市里哪些居住空间更有品质,更合适的办法是模拟类似这样的一套主观感知与决策的过程,将更多人脑认为能够纳入小区是否更适合居住的因子都放入一个大池子里。
运气很好的是,最近几年链家开始大规模要求门店中介对辖区内的所有小区进行详细的数据录入,不仅记录小区的建筑年代、楼栋数与户数、物业费、车位配置等基本的数据,还包括对小区的景观与设施配置、业主及租客特征、安保与保洁,以及其他优缺点特征都作了详细的文字记录。(感恩)
这些数据与文本信息,正好是新一酱希望在分析池中用到的。于是以上海为案例,新一酱在链家上抓取了约1.7万个小区的所有详情数据。对所有数据进行清洗及标准化之后,新一酱最终从1.7万个小区的总量中筛选出了8169个数据全面的小区作为分析样本。
在《这些年,上海是如何一点一点变大的》中,新一酱曾经对上海所有小区的建成年代展开分析,而如果叠加它们的外立面描述——它通常也是我们见到小区的第一印象,你会看到类似上面词云图表展现的结果:间隔40年,上海的小区外立面在风格、色彩和材质上已经有了明显的多次迭代。当然,建设时间更早的小区得到最大的评价是“老”,这也意味着它们的居住空间品质会在观感层面被直接减分。
小区内的配套设施也是这种直觉印象的组成部分。健身器械已经成为了上海小区内部的标配,但如果小区可以拥有更为小众的公共空间——除了分类更细的运动设施,新一酱在数据中发现了烧烤区域、红酒室、雪茄室这样的配置,小区的品质感会一下子得到很高的加分。当然外部设施通常只是第一印象,人们最终将最多的时间花在自己的房子内部。
2017年,上海市城镇居民的人均住房面积是36.7平方米,这低于很多级别更低的城市。住在更宽敞的房子里,是很多人换房子的主要诉求,而住在更有品质的房子里,通常是在满足“更大的房子”前提之后才会考虑的问题。基于这个判断,新一酱认为,如果一个小区的主力户型面积更大,则它会更倾向于提供更高品质的居住空间。
要识别一个小区的主力户型,新一酱首先对每个小区内的户型面积数据展开第一轮分析,排除过高的异常值后,取小区内所有户型面积值的频数最高区间中间值作为小区的代表户型面积。如果有并列的频数最高区间,则取它们中间值的平均值。
综合上海所有小区的代表户型面积数据,你能在上图中看到从市中心向外,小区的代表户型越来越大,并在闵行、松江方向形成了“大户型聚集分布区域”,这里也确实是上海近郊主要的一大片别墅区。而在上海的北部,户型则没有进一步扩大的趋势。当然户型相关的数据也不仅仅只是面积。户型朝向及内部规划的有效性都会影响到人们在内部的居住品质。人们对这一点的重视尤其出现在大约2000年之后开发的楼盘上,对那些由品牌开发商操盘的楼盘来说,户型的略微差异都会显著影响销售价格,乃至品牌声誉。
从每个小区的整体情况看,新一酱也着手统计了目力所及能够观察到的户型数据。从链家上能收集到的近25万多套挂牌和交易的房源看,人们最为看重的户型标签包括“南北通透”“X房间朝南”“明卫”等。在对房子的居住品质考量上,新一酱也会着手把这些标签作为量化指标纳入进去。需要说明的是,其他也对户型有积极评价的标签还包括了“明厨”“卧室带阳台”“主卧带卫”“观景落地窗”“带衣帽间”“观景飘窗”"带阁楼"等,但它们在总体中的代表性不如前三者那么突出。除了这些指标,人们在购房之前还会着重考虑的是与谁住在一起。其中一个不太礼貌但足够直接的问法是“这个小区是不是动迁安置房/经适房/廉租房/公租房小区”。与业主及租客画像相似的,购房者会通过对这个问题的回答来判断小区内居住人群品质的如何。不可回避地,我们也需要将这个维度的数据纳入评价体系之中。
完成对所有可量化数据指标的梳理之后,新一酱确定了9项指标来对各个小区的居住品质展开综合评估,以此得到上海整体居住空间评估的结论。这9项指标分别为:1 物业费。
2 小区二手房价水平。为了消除空间区位对房价带来的影响,我们计算的小区房价在所在板块内的价格水平,每个板块分成5级计算。
3 房屋属性。是否为动迁安置房/经适房/廉租房/公租房,若是则做降分处理。
4 房龄。计算时按每十年为一个年代计分,1949年之前建造的房子统一记为一类。
5 代表户型面积。
6 户型优点标签占比。包含了“南北通透”“朝南”和“明卫”三个标签,分别计算小区内包含这些标签的户型占所有户型比例。
7 业主特征。在中介人员记录的文字描述中,挑选“改善房”“置换”“预算充足、年纪较大的购房者”“企业高管”等非首次置业、非年轻购房群体相关的关键描述,从业主人群描述角度来判断小区是否具备高品质属性。
8 租客占比。这部分数据也是从文本描述中提取,没有明确的量化比例数据。其中,“租客少”会被判定为加分项,而“租客多”则判定为减分项,没有相关描述的不计入。
9 车位配比。车位的充裕自然能在一定程度上反映小区品质更高。不过这项数据的缺失比较严重,新一酱只能为缺失小区暂赋了同板块相应的均值,并忍痛调低了它的重要性。
将这9项指标拟合起来,新一酱一共尝试了3种方法。
第一种方法是用“多元回归算法”,它想验证的其实是新一酱的朋友在最初提出的假设“是否物业费越高的小区品质一定越高”。这里我们用物业费之外的8项指标来拟合物业费,将所有数据的75%划分为训练集,25%作为测试集。最终得到了较好的拟合效果及每个指标的权重,赋权汇总后得到每个小区的总分。
但在核查时,新一酱发现多元回归的结果依然受到数据可靠性的影响并不足够理想。因此新一酱决定再引入主观的“层次分析法”每个指标项设定主观权重,并计算另一个版本的小区品质总分。
针对对两个版本的小区品质总分,新一酱分别提取了各板块内排名10%的小区,并取两个版本的交集。
在这个过程中,作为一次尝试,新一酱也引入了非监督学习中的“DBSCAN分类算法”,对上述指标中的房价、物业费、房屋属性减分项、车位配置4项数据展开分析,得到了27组特征显著的分类及一组特征散乱的离群点。由于输入的有效属性不足,这次分析的结论只能作为之前得到结果的辅助方法来修正一部分结果。
最终,新一酱算出了上海的790个高品质小区。
从板块层面上看,几乎所有的高品质小区的房价都能高于同板块的小区均价。其中与市中心距离较远的板块溢价率更高,而浦东的几个联洋、碧云及塘桥的高品质小区房价与板块均价几乎没有差别。
而从物业费看,由于多数板块的物业费均价差异不大,一些品质小区超过10元/平方米/月的物业费则显示出超高溢价了。有趣的是,在长寿路板块,品质小区的物业费均价竟然低于板块整体的物业费均价。当然,品质小区也依然面临着自己的问题。新一酱针对790个选出的品质小区再统计了它们的优缺点之后发现,它们之中仍有一定比例的小区面临噪音、安全和光污染等问题。只是相对于更多的居住空间来说,这已经是相对最好的选择了。最后,新一酱从7个方面列出了各自的TOP 10品质小区,它们不是完整名单,但具有一定的代表性意义。在这一套研究中,新一酱从数据出发,明确了城市中哪些区域有哪些更好的居住空间,使得人们愿意牺牲价格、交通或者其他因素选择住在这里。从中,我们也能反推出城市中那些追求生活品质的人都在什么地方聚集。更重要的是,这套数据结论也反向为城市从整体上标识出了一些更值得关注的居住空间,它们与高品质的居住空间有很大的距离,也许是城市进化过程中值得更新的潜在目标。
文/丁成成 沈从乐 视觉/王方宏
本文用到的数据均抓取自链家,可能存在记录缺失或不准确等问题
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。
- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2024 上海东方报业有限公司