前言

在具体了解机器学习之前,我们先了解一些基本的操作和概念。以下的内容如果你感觉简单,你可以自行选择后面内容学习,不过我还是建议每篇文章都大概浏览一遍。如果你不太理解,也别灰心,很多前面文章一带而过的东西则会在后面详细讲解。

决策树

众所周知,房地产一直都是一个非常暴力的行业,很多人靠着炒房发家致富。恰好,小王的爸爸就是搞房地产的,随着机器学习的变成一种潮流,老王也准备在自己的行业上运用机器学习来帮助他更好的预测房市,买卖土地。于是就向小王的同学也就是掌握机器学习知识的你求助。

当你问老王,在过去他是如何预测房价时,他却说靠直觉。但是机智的你怎么可能会被这些鬼话骗住,随着更多的询问,你发现老王其实是从过去的房价中发现了一个套路,他利用这个套路来预测新房子的价格。

机器学习也是这样。

我们将会从决策树这个模型开始讲解。在机器学习里面存在很多准确度更高的模型,但是决策树则是最容易理解的一个,同时它也是很多优秀模型的底层模块。

我们将会从决策树这个模型开始讲解。在机器学习里面存在很多准确度更高的模型,但是决策树则是最容易理解的一个,同时它也是很多优秀模型的底层模块。

简约决策树

3BA81A9DEFAA5D09275539883506DD75

从图中可以看出这个决策树把房价预测分为两类,图中所列出的房价均为该地区同类型历史房屋均价。

在实际中,我们用数据来决定如何把房价分为两类,然后再次得到房价,这个从数据中捕获房价套路的过程就叫做拟合或者叫训练(fit or train) 被用来拟合模型的数据叫做训练集。

至于一个模型如何拟合是一个有点复杂的过程,我将会在后面进行讲述。在模型被拟合后,你将把未被预测房价的房子喂进模型从而获得其预测房价。

改进决策树

1C2B2E1D1290935CF8DEBEDAB88AFEC8

上面两个决策树哪个更可能是拟合过训练集得到的?

左面的决策树更可能,因为它捕获现实的情况:有着更多的房屋的房子房价更高。但是上面的这个简约决策树有着最大的缺点就是它不能学习更多的影响因子,比如房屋尺寸,地段,等等。

那么我们就可以利用更多的分支来学习,叫做深层决策树,这样的深层决策树可以考虑每个房屋的总面积。图像表示就是:

8BD8FDCD7C823AA6D7492CC8D4276A8B

你预测的过程就是从树上行走的过程,总是挑选符合当前房屋特性的路径走。

这里的每个分支,每片叶子所代表的价格都是被你的训练数据所决定的。

下一章,我们将会讲解如何检验数据。

相关文章
评论
分享
  • 线代简讲

    行列式 谈到线性代数时有两个基本概念:行列式,矩阵。 说到行列式我们应该明确一点:行列式表达的是一个具体的值,他的表现形式为$$\left| \begin{array}{c} a_{\text{1,}1},, a_{\text{...

    线代简讲
  • pandas 简单介绍

    前面介绍了pandas如何读取文件,这次就介绍一下pandas的一些基本知识

    pandas 简单介绍
  • 三.损失函数

    我们在日常所说的模型训练的过程就是模型不断学习数据特征的过程,那么这个过程是如何进行的? 可以把一个初始化的模型视为一个刚出身的婴儿,对这个世界(数据)一无所知,于是他便开始学习自己接触的一切事务,从中掌握事物运行的规律。 而这个学习...

    三.损失函数
  • 二. 读数据

    如何读取数据前言人工智能本质上是数据科学,一切操作都是基于对数据的操作,因此,立志要学好ai的人就必须要学会数据的基本操作。 先来个简单的先介绍一种比较简单的读取文件方式,这种方式相对于下面的pandas读取来说速度更快的一点,结构自...

    二. 读数据
  • Knn

    KNN前言:knn(K-Nearest Neighbor)中文名叫做k最近邻算法,这是有监督算法(自己下去百度一下什么是有监督,什么是无监督),分类算法中简单粗暴的一个。 分类方法是根据距离该点最近的k个邻居,从而得到该点所属的分类。...

    Knn
  • Hello World

    Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using ...

    Hello World