Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

image.png

image.png

1.项目背景

金融一直是现代社会非常热门的一个研究方向,随着社会的发展,越来越多的数学方法被应用于金融领域的描述中。我们寄希望于用一种更客观地表达来研究金融。而股票市场作为一个看似门槛极低的金融市场,参与者众多,与利益直接挂钩,是金融市场的一个大热研究方向。 

中国股市于 1989 年开始试运行,自此,开始了中国股市近30年的起起伏伏。中国股市虽相较于美国股市还没有很成熟,但是经过30年的发展,也在逐渐向一个成熟的市场发展。截至2019年,沪深A股交易股票已有3589只,如何在其中筛选出有潜力的股票,或者说如何对股票价格进行短期的预测,这在深度学习日趋兴起的背景下,成为了我们想要尝试解决的一个问题。 

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下

编号 

变量名称

描述

1

date

 

2

open

 

3

high

 

4

low

 

5

close

目标变量

6

volume

 

7

Name

 

数据详情如下(部分展示):

image.png

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的tail()方法查看后十行数据:

image.png

关键代码:

image.png

3.2查看AAPL公司股票数据的描述性统计分析

使用Pandas工具的describe()方法AAPL公司的描述性统计分析信息:

image.png

从上图可以看到,AAPL公司股票数据开盘价、最高价、最低价、收盘价、成交量的平均值、标准差、最小值、中位数、最大值。

关键代码:

image.png

3.3查看AAPL公司股票数据的摘要信息

通过Pandas工具的info()方法来查看AAPL公司股票数据的摘要信息:

image.png

通过上图可以看到,总共有6个数据项,1259条数据,数据时间范围为2013到2018年,数据中无缺失值。

关键代码如下:

image.png

4.探索性数据分析

4.1 绘制股票收盘价曲线图

用Pandas工具的plot()方法进行绘图,图形如下:

image.png

通过上图可以看到,4家公司的股票收盘价格基本每年呈上升趋势。

4.2 绘制股票成交量曲线图

image.png

从上图中可以看到,每家公司股票的成交量基本都是在一定的范围内进行波动。

4.3 绘制股票收盘价10天、20天、50天累计曲线图

image.png

从上图中可以看到,APPLE公司股票收盘价10天、20天、50天内累计收盘价呈上升趋势,而APPLE公司股票收盘价比较稳定。

关键代码:

image.png

4.4 绘制股票日收益曲线图

image.png

从上图中可以看到,每家股票的日收益都存在一定的波动,同时也说明了股票有风险、入市需谨慎。

关键代码如下:

image.png

4.5 绘制股票日收益直方图

image.png

从上图中可以看到,4家公司的日收益均集中在-0.05-0.05之间。

关键代码:

image.png

4.6 相关性分析

通过Pandas工具的corr()方法进行相关性分析:

image.png

从上图可以看到,除成交量外其它数据项之间相关性比较高。

5.特征工程

5.1 建立特征数据和标签数据

close为标签数据,除 close之外的为特征数据。关键代码如下:

image.png

5.2 数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

image.png

5.3 数据归一化

通过MinMaxScaler工具进行数据的归一化,把数据缩放到0-1区间,关键代码如下:

image.png

6.构建LSTM回归模型

Hochreiter 等学者(1997)[21]提出了长短时记忆单元(Long Short-Term Memory,LSTM)用于改进传统的循环神经网络模型(RNN),该模型通过门的开关实现时间上的记忆功能,并反之梯度小时,实验结果表明,LSTM 能有效地解决 RNN 训练时的梯度爆炸和梯度消失问题。2005 年,Alex Graves,Jürgen Schmidhuber[22]提出了使用完全的后向传播方式训练 LSTM 模型,使得LSTM 的实现过程更加可靠。2015 年,Chung 等学者提出了简化版本的LSTM,门控反馈 RNN(GF-RNN)通过允许和控制从上部复现层流向下层的信号,使用每对层的全局选通单元,扩展了堆叠多个复现层的现有方法。层之间交换的递归信号基于先前的隐藏状态和当前输入自适应地选通。相比于传统的神经网络模型。LSTM 神经网络模型对于神经组织的认知过程的模拟更为准确。 

6.1建模

编号

模型名称

参数

1

LSTM回归模型

optimizer='adam'

2

loss='mean_squared_error'

3

metrics=['acc']

关键代码如下:

image.png

6.2查看模型信息

通过模型的summary()方法查看模型的信息,如下图所示:

image.png

通过上图可以看到,模型中有LSTM层、Dense层,模型总参数为117619个。

7.模型评估

7.1评估指标及结果

评估指标主要包括可解释方差值、均方误差、R方值等等。

模型名称

指标名称

指标值

测试集

LSTM回归模型

均方误差

2.91

可解释方差值

1.0

R方

1.0

从上表可以看出,R方100%  可解释方差值100%,LSTM回归模型比较优秀,效果非常好。

关键代码如下:

image.png

7.2 真实值与预测值对比图

image.png

从上图可以看出真实值和预测值波动基本一致,模型拟合效果非常棒。

8.结论与展望

综上所述,本文采用了LSTM回归模型,最终证明了我们提出的模型效果良好。可用于日常金融中股票价格的预测。


# 本次机器学习项目实战所需的资料,项目资源如下:
 
# 项目说明:
 
# 获取方式一:
 
# 项目实战合集导航:
 
https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2
 
# 获取方式二:
 
链接:https://pan.baidu.com/s/1KqZQatGhXKBtLBGc8kPbTw 
提取码:l9lk
相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
21天前
|
运维 监控 数据可视化
Python 网络请求架构——统一 SOCKS5 接入与配置管理
通过统一接入端点与标准化认证,集中管理配置、连接策略及监控,实现跨技术栈的一致性网络出口,提升系统稳定性、可维护性与可观测性。
|
4月前
|
机器学习/深度学习 算法 量子技术
GQNN框架:让Python开发者轻松构建量子神经网络
为降低量子神经网络的研发门槛并提升其实用性,本文介绍一个名为GQNN(Generalized Quantum Neural Network)的Python开发框架。
95 4
GQNN框架:让Python开发者轻松构建量子神经网络
|
4月前
|
数据采集 Web App开发 数据可视化
Python爬取闲鱼价格趋势并可视化分析
Python爬取闲鱼价格趋势并可视化分析
|
16天前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
2月前
|
JavaScript Java 大数据
基于python的网络课程在线学习交流系统
本研究聚焦网络课程在线学习交流系统,从社会、技术、教育三方面探讨其发展背景与意义。系统借助Java、Spring Boot、MySQL、Vue等技术实现,融合云计算、大数据与人工智能,推动教育公平与教学模式创新,具有重要理论价值与实践意义。
|
3月前
|
运维 Linux 开发者
Linux系统中使用Python的ping3库进行网络连通性测试
以上步骤展示了如何利用 Python 的 `ping3` 库来检测网络连通性,并且提供了基本错误处理方法以确保程序能够优雅地处理各种意外情形。通过简洁明快、易读易懂、实操性强等特点使得该方法非常适合开发者或系统管理员快速集成至自动化工具链之内进行日常运维任务之需求满足。
187 18
|
4月前
|
JSON 网络安全 数据格式
Python网络请求库requests使用详述
总结来说,`requests`库非常适用于需要快速、简易、可靠进行HTTP请求的应用场景,它的简洁性让开发者避免繁琐的网络代码而专注于交互逻辑本身。通过上述方式,你可以利用 `requests`处理大部分常见的HTTP请求需求。
404 51
|
3月前
|
数据采集 存储 数据可视化
Python网络爬虫在环境保护中的应用:污染源监测数据抓取与分析
在环保领域,数据是决策基础,但分散在多个平台,获取困难。Python网络爬虫技术灵活高效,可自动化抓取空气质量、水质、污染源等数据,实现多平台整合、实时更新、结构化存储与异常预警。本文详解爬虫实战应用,涵盖技术选型、代码实现、反爬策略与数据分析,助力环保数据高效利用。
212 0
|
4月前
|
存储 监控 算法
基于 Python 跳表算法的局域网网络监控软件动态数据索引优化策略研究
局域网网络监控软件需高效处理终端行为数据,跳表作为一种基于概率平衡的动态数据结构,具备高效的插入、删除与查询性能(平均时间复杂度为O(log n)),适用于高频数据写入和随机查询场景。本文深入解析跳表原理,探讨其在局域网监控中的适配性,并提供基于Python的完整实现方案,优化终端会话管理,提升系统响应性能。
114 4
|
6月前
|
调度 Python
探索Python高级并发与网络编程技术。
可以看出,Python的高级并发和网络编程极具挑战,却也饱含乐趣。探索这些技术,你将会发现:它们好比是Python世界的海洋,有穿越风暴的波涛,也有寂静深海的奇妙。开始旅途,探索无尽可能吧!
156 15

推荐镜像

更多