上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.5 预测
预测型知识(Prediction)是指由历史的和当前的数据产生的,并能推测未来数据趋势的知识。这类知识可以被认为是以时间为关键属性的关联知识,因此上面介绍的关联知识挖掘方法可以应用到以时间为关键属性的源数据挖掘中。前面介绍分类知识挖掘时曾经提到过:分类通常用来预测对象的类标号。然而,在某些应用中,人们可能希望预测某些遗漏的或不知道的数据值,而不是类标号。当被预测的值是数值数据时,通常称之为预测。也就是说,预测用于预测数据对象的连续取值,如,可以构造一个分类模型来对银行贷款进行风险评估(安全或危险);也可建立一个预测模型以利用顾客收入与职业(参数)预测其可能用于购买计算机设备的支出大小。
例如,表2.3给出了一组年薪数据。其中,X表示大学毕业后工作的年数,而Y是对应的收入。
表2.3 工作年数与年薪关系表
这些数据点如图2.7所示,暗示X和Y之间存在线性关系。我们可以采用某种方法(例如线性回归方法,这将在第6章详细介绍)推出预测模型,从而利用这一模型预测有10年工作经验的大学毕业生的年薪。
图2.7 工作年数与年薪对应的关系图
预测型知识的挖掘可以利用统计学中的回归方法,通过历史数据直接产生连续的对未来数据的预测值;可以借助于经典的统计方法、神经网络和机器学习等技术。无论如何,经典的统计学方法是挖掘预测知识的基础。