前言
在具体了解机器学习之前,我们先了解一些基本的操作和概念。以下的内容如果你感觉简单,你可以自行选择后面内容学习,不过我还是建议每篇文章都大概浏览一遍。如果你不太理解,也别灰心,很多前面文章一带而过的东西则会在后面详细讲解。
决策树
众所周知,房地产一直都是一个非常暴力的行业,很多人靠着炒房发家致富。恰好,小王的爸爸就是搞房地产的,随着机器学习的变成一种潮流,老王也准备在自己的行业上运用机器学习来帮助他更好的预测房市,买卖土地。于是就向小王的同学也就是掌握机器学习知识的你求助。
当你问老王,在过去他是如何预测房价时,他却说靠直觉。但是机智的你怎么可能会被这些鬼话骗住,随着更多的询问,你发现老王其实是从过去的房价中发现了一个套路,他利用这个套路来预测新房子的价格。
机器学习也是这样。
我们将会从决策树这个模型开始讲解。在机器学习里面存在很多准确度更高的模型,但是决策树则是最容易理解的一个,同时它也是很多优秀模型的底层模块。
我们将会从决策树这个模型开始讲解。在机器学习里面存在很多准确度更高的模型,但是决策树则是最容易理解的一个,同时它也是很多优秀模型的底层模块。
简约决策树
从图中可以看出这个决策树把房价预测分为两类,图中所列出的房价均为该地区同类型历史房屋均价。
在实际中,我们用数据来决定如何把房价分为两类,然后再次得到房价,这个从数据中捕获房价套路的过程就叫做拟合或者叫训练(fit or train) 被用来拟合模型的数据叫做训练集。
至于一个模型如何拟合是一个有点复杂的过程,我将会在后面进行讲述。在模型被拟合后,你将把未被预测房价的房子喂进模型从而获得其预测房价。
改进决策树
上面两个决策树哪个更可能是拟合过训练集得到的?
左面的决策树更可能,因为它捕获现实的情况:有着更多的房屋的房子房价更高。但是上面的这个简约决策树有着最大的缺点就是它不能学习更多的影响因子,比如房屋尺寸,地段,等等。
那么我们就可以利用更多的分支来学习,叫做深层决策树,这样的深层决策树可以考虑每个房屋的总面积。图像表示就是:
你预测的过程就是从树上行走的过程,总是挑选符合当前房屋特性的路径走。
这里的每个分支,每片叶子所代表的价格都是被你的训练数据所决定的。
下一章,我们将会讲解如何检验数据。