数据的重要性

数据

机器学习三要素包括 数据模型算法

总结成一句话:

算法通过在数据上进行运算产生模型。

2020年2月12日0时-24时,湖北省新增新冠状肺炎病例14840例(含临床诊断病例13332例)。

你有什么想说的?

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。

重要的事情说 3 遍。

特征工程

概念

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。通俗的说,就是尽可能的从原始数据中获取更多信息,从而使得预测模型达到最佳。

--维基百科

简而言之,特征工程是一个把原始数据变成特征的过程,这些特征可以很好的描述数据,并且利用它们建立的模型在未知数据上表现性能可以达到最优。

重要性

实验结果取决于获取的数据、使用的特征以及选择的模型,甚至问题的形式和评估精度的客观方法也扮演了一部分。我们需要的是能够很好地描述数据内部结构的好特征。

  • 特征越好,灵活性越强

只要特征选得好,即使是一般的模型(或算法)也能获得很好的性能,因为大多数模型(或算法)在好的数据特征下表现的性能都还不错。好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。

  • 特征越好,构建的模型越简单

有了好的特征,即便你的参数不是最优的,你的模型性能也能仍然会表现的很nice,所以你就不需要花太多的时间去寻找最有参数,这大大的降低了模型的复杂度,使模型趋于简单。

  • 特征越好,模型的性能越出色

特征工程的最终目的就是提升模型的性能。

总结:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限。