Python数据挖掘与机器学习实战》—3.5.2 数据预处理

网友投稿 531 2022-05-28

《Python数据挖掘与机器学习实战》—3.5.2 数据预处理

3.5.2  数据预处理

由于带Adj前缀的数据是除权后的数据,更能反映股票数据特征,所以主要使用的数据特征为调整后的开盘价、最高价、最低价、收盘价和交易额(即Adj.Open、Adj.High、Adj.Low、Adj.Close和Adj.Volume)。

两个数据特征如下:

HL_PCT(股票最高价与最低价变化百分比):

(3-9)

PCT_change(股票收盘价与开盘价的变化百分比):

(3-10)

于是,自变量为:Adj.Close、HL_PCT、PCT_change和Adj.Volume。因变量为:Adj.Close。

最后,对自变量数据进行规范化处理,使之服从正态分布。只需要执行以下语句就可以达到预处理的目的,代码如下:

X = preprocessing.scale(X)

使用Sklearn做线性回归,首先导入相关函数:

from sklearn.linear_model import LinearRegression

建立线性回归模型:

clf = LinearRegression(n_jobs=-1)

进行线性模拟:

clf.fit(X_train, y_train)

使用predict()函数对需要预测的数据进行预测:

forecast_set = clf.predict(X_lately)

模型的评估主要使用精度(accuracy)参数。调用线型模型中的精度评估函数score()。

accuracy = clf.score(X_test, y_test)

机器学习 Python 数据挖掘

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Linux 系统上交换空间的介绍
下一篇:Spark 学习中的一些疑问
相关文章