【视频讲解】Python用LSTM长短期记忆网络GARCH对SPX指数金融时间序列波动率滚动预测

全文链接：https://tecdat.cn/?p=37371
原文出处：拓端数据部落公众号
本文融合了多种技术，其中 LSTM（长短期记忆网络）和 GARCH（广义自回归条件异方差）模型尤为关键。LSTM 在处理时间序列数据方面独具优势，能够捕捉长期依赖关系，为金融预测提供强大支持。GARCH 模型则能有效捕捉金融时间序列中的波动聚类现象，提升预测准确性。
通过对这套代码的详细解读和分析，包括对 LSTM 和 GARCH 等关键模型的深入探讨，我们期望为金融研究和实践注入新活力，开辟新思路。

引言

在当今复杂多变的金融市场环境中，深入的数据分析和精准的模型构建对于理解市场动态、预测价格走势以及制定有效的投资策略至关重要。
创新点

融合多种先进模型：综合运用了 GARCH 模型和 LSTM 模型，结合了传统金融模型和深度学习方法的优势，为金融数据的分析和预测提供了更全面和精确的手段。
精细化的特征工程：通过计算对数收益和过去 10 天的波动率等特征，深入挖掘金融数据中的潜在信息，提高了模型的输入质量和预测性能。
灵活的数据处理：包括数据的转置、索引重置和缺失值处理等操作，能够适应不同结构和质量的金融数据，增强了其通用性和实用性。

代码内容与分析
导入所需的库


import pandas as pd
from pandas.plotting import autocorrelation_plot
from pandas_datareader import data
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import math

读取包含金融数据的 CSV 文件


df = pd.read_csv(r'inpv')
print(df.head())
print(df.shape)

在此我们可以看到，我们有 254 列，对应着我们拥有金融数据的 254 个工作日，还有 10 列，它们是我们所拥有的 10 个金融指标。

数据清洗

转置数据框
由于我们处理的是时间序列数据，应当将日期作为一列，因此我们为此使用转置（transpose）函数。


df = df.transpose()

print(df.head())
print(df.shape)

转置操作有助于以更合适的方式组织数据，便于后续的分析。
重置数据框的索引


df = df.reset_index()

print(df.head())

重置索引确保数据的索引具有一致性和准确性。


import pandas as pd
import matplotlib.pyplot as plt

# 加载数据
file_path = '/mnt/data/finaaned.csv'
df = pd.read_csv(file_path)

# 显示数据的前几行以了解其结构
df.head()

股票的开盘价、收盘价、最高价和最低价的趋势图。
交易量的变化趋势图。
技术指标（RSI14、SMA14、EMA14、MACD_sl、MACD_h）的趋势图。

开始绘制图表。



# 重新绘制图表
# 绘制股票的开盘价、收盘价、最高价和最低价的趋势图
plt.figure(figsize=(14, 8))
plt.plot(df['Open'], color=colors[1], label='开盘价')
plt.plot(df['Close'], color=colors[2], label='收盘价')
plt.plot(df['High'], color=colors[3], label='最高价')
plt.plot(df['Low'], color=colors[4], label='最低价')
plt.title('股票价格趋势')
plt.xlabel('日期')
plt.ylabel('价格')
plt.legend()
plt.grid(True)
plt.show()

# 绘制交易量的变化趋势图
plt.figure(figsize=(14, 8))
plt.bar(df.index, df['Volume'], color=colors[5])
plt.title('交易量变化')
plt.xlabel('日期')
plt.ylabel('交易量')
plt.grid(True)
plt.show()

# 绘制技术指标的趋势图
indicators = ['RSI14', 'SMA14', 'EMA14', 'MACD_sl', 'MACD_h']
plt.figure(figsize=(14, 8))
for i, indicator in enumerate(indicators):
    plt.plot(df[indicator], color=colors[i + 6], label=indicator)
plt.title('技术指标趋势')
plt.xlabel('日期')
plt.ylabel('指标值')
plt.legend()
plt.grid(True)
plt.show()

第一个图表显示了股票的开盘价、收盘价、最高价和最低价的趋势。
第二个图表展示了交易量的变化趋势。
第三个图表展示了技术指标（RSI14、SMA14、EMA14、MACD_sl、MACD_h）的趋势。

特征工程

对数特征 - 对数收益


df['Log_Returns'] = np.log(df.Close) - np.log(df.Close.shift(1))

print(df.head())

通过计算对数收益，能够更好地捕捉金融数据的变化特征。

波动率 - 过去 10 天的波动率


df['Previous_10_Day_Volatility'] = df['Log_Returns'].rolling(window = 10).std()

print(df.tail())

波动率的计算对于评估金融资产的风险具有重要意义。

GARCH

针对整个 SPX 数据集的 GARCH 预测

构建用于将数据框拆分为测试和训练数据的新数据框

X = df[df.first_valid_index():df.last_valid_index()- datetime.timedelta(1500)]

使用 GARCH 模型进行滚动预测

GARCH_rolling_predictions = GARCH_model.predict_is(h = len(X) - 50, fit_once = True)

构建用于将数据框拆分为测试和训练数据的新数据框
在多个列上使用 dropna


def list_columns_to_dropna(df, column_list):

    for column in column_list:

        df = df[df[column].notna()]

LSTM

构建 LSTM 模型
在代码中，通过inputLSTM = Input(shTM)语句构建了 LSTM 模型的输入层。这是模型架构的起始步骤，为后续的数据传递和处理奠定了基础。

inputLSTM = Input(shTM)

绘制 LSTM 网络

plot_model(lstm, to_fue, show_layer_names=True)这行代码用于绘制 LSTM 网络的结构。通过可视化模型的层次和连接，有助于更直观地理解模型的内部架构，从而方便对模型进行调试、优化和解释。

plot_model(lstm, to_fue, show_layer_names=True)

拟合 LSTM 模型

hist = lstm.fit(X_train, y_train,batch_s)此语句执行了 LSTM 模型的拟合过程。在这个过程中，模型学习输入数据X_train和对应的目标数据y_train之间的关系，并通过调整模型的参数来最小化预测误差，以达到良好的拟合效果。

hist = lstm.fit(X_train, y_train,batch_s

打印出模型做出的预测

通过for ind, i in enumerate(lstm.predict(X_test)):这一循环结构，对测试集X_test进行预测，并依次获取每个预测结果。这种逐样本的预测方式有助于详细评估模型在新数据上的表现。
printingt, y_tes)这部分代码可能用于打印相关的预测结果和真实值，以便进行对比和分析，从而深入了解模型的性能和准确性。

for ind, i in enumerate(lstm.predict(X_test)):

printingt, y_tes)

LSTM 模型在处理时间序列数据方面具有独特的优势，能够捕捉长期依赖关系。
参考文献
[1] Stanford Paper on LSTM Neural Networks for stock prices volatility prediction. http://cs230.stanford.edu/projects_fall_2019/reports/26254244...

【视频讲解】Python用LSTM长短期记忆网络GARCH对SPX指数金融时间序列波动率滚动预测

引言

数据清洗

特征工程

波动率 - 过去 10 天的波动率

GARCH

针对整个 SPX 数据集的 GARCH 预测

LSTM

绘制 LSTM 网络

拟合 LSTM 模型

打印出模型做出的预测

拓端tecdat

引用和评论

视频讲解|Stata和R语言自助法Bootstrap结合GARCH对sp500收益率数据分析

一文掌握 MCP 上下文协议：从理论到实践

LRU算法，你别跑，我就要吃透你

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略