Kaggle官方课程链接:How Models Work
本专栏旨在Kaggle官方课程的汉化,让大家更方便地看懂。
How Models Work
第一步,如果你是机器学习的新手。
Introduction
我们将从概述机器学习模型的工作原理和使用方法开始。如果你以前做过统计建模或机器学习,这可能会让你觉得很基本。别担心,我们很快就会建立强大的模型。
本课程将让您在经历以下场景时构建模型:
你表哥通过房地产投机赚了数百万美元。由于你对数据科学的兴趣,他主动提出与你成为商业伙伴。他会提供资金,你会提供预测各种房屋价值的模型。
你问你的堂兄过去是如何预测房地产价值的,他说这只是直觉。但更多的质疑表明,他从过去见过的房子中识别出了价格模式,并利用这些模式对他正在考虑的新房进行了预测。
机器学习的工作原理是一样的。我们将从一个名为决策树的模型开始。有更高级的模型可以给出更准确的预测。但是决策树很容易理解,它们是数据科学中一些最佳模型的基本构建块。
为了简单起见,我们将从最简单的决策树开始。
它将房屋分为两类。所考虑的任何房屋的预测价格都是同类房屋的历史平均价格。
我们使用数据来决定如何将房屋分为两组,然后再次确定每组的预测价格。从数据中捕获模式的这一步骤称为拟合或训练模型。用于拟合模型的数据称为训练数据。
模型如何拟合的细节(例如如何分割数据)足够复杂,我们将稍后保存。模型拟合后,您可以将其应用于新数据,以预测额外房屋的价格。
Improving the Decision Tree
以下两个决策树中,哪一个更有可能是拟合房地产训练数据的结果?
左边的决策树(决策树1)可能更有意义,因为它捕捉到了这样一个现实,即卧室更多的房子往往比卧室更少的房子售价更高。这种模型最大的缺点是它没有捕捉到影响房价的大多数因素,如浴室数量、地块大小、位置等。
你可以使用具有更多“分裂”的树来捕捉更多的因素。这些被称为“更深”的树。一个同时考虑每栋房子地块总面积的决策树可能看起来像这样:
你可以通过追踪决策树来预测任何房子的价格,总是选择与房子特征相对应的路径。这房子的预测价格是最低的。我们做出预测的底部点称为叶子。
叶子处的分割和值将由数据决定,因此是时候检查您将使用的数据了。
Continue
让我们更具体一点。是时候检查你的数据了。