大数据选股：量化回测筛选最优投资标的

2025-02-08 00:11:46

今日美股网

媒体

关注

获赞

粉丝

喜欢

— 分享 —

摘要：大数据选股：量化回测筛选最优投资标的代码介绍此策略利用大数据分析和机器学习技术，通过回测来筛选出在历史数据中表现最佳的投资标的。以下Python代码展示了如何使用多因子模型（包括财务指标、市场指标等）来构建选股模型，并通过回测验证其有效性。代码及加载方法Pythonimport pandas as pd import&nbsp...

大数据选股：量化回测筛选最优投资标的

代码介绍

以下代码由今日美股网(www.TodayUSStock.com)代码学院提供,此策略利用大数据分析和机器学习技术，通过回测来筛选出在历史数据中表现最佳的投资标的。以下Python代码展示了如何使用多因子模型（包括财务指标、市场指标等）来构建选股模型，并通过回测验证其有效性。

代码及加载方法

Python

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score

# 加载数据
# 假设我们有一个包含多种股票数据的DataFrame 'data'
# 'data'的结构应包含'Date', 'Stock_ID', 'Close', 以及多种财务和市场指标如'PE_Ratio', 'ROE', 'Volatility', 'Volume'等
# 这里仅作为示例，实际使用时需要替换为真实的数据获取方法
data = pd.DataFrame({
    'Date': np.tile(pd.date_range(start='2020-01-01', periods=500), 10),
    'Stock_ID': np.repeat(range(1, 11), 500),
    'Close': np.random.randn(5000).cumsum() + 100,
    'PE_Ratio': np.random.uniform(5, 30, 5000),
    'ROE': np.random.uniform(0, 20, 5000),
    'Volatility': np.random.uniform(0, 1, 5000),
    'Volume': np.random.randint(100000, 1000000, 5000)
})

# 计算收益率作为目标变量
data['Next_Day_Return'] = data.groupby('Stock_ID')['Close'].pct_change().shift(-1)

# 去掉NaN值
data = data.dropna()

# 特征选择
features = ['PE_Ratio', 'ROE', 'Volatility', 'Volume']
target = 'Next_Day_Return'

# 准备特征和目标变量
X = data[features]
y = data[target]

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 数据分割
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 训练随机森林模型
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# 预测
predictions = rf_model.predict(X_test)

# 评估模型
mse = mean_squared_error(y_test, predictions)
r2 = r2_score(y_test, predictions)

print(f"均方误差: {mse}")
print(f"R² 得分: {r2}")

# 特征重要性
feature_importance = pd.DataFrame({'feature': features, 'importance': rf_model.feature_importances_})
print("特征重要性:")
print(feature_importance.sort_values('importance', ascending=False))

# 回测
# 假设我们每个月重新训练模型并选择表现最好的股票
data['Prediction'] = rf_model.predict(scaler.transform(data[features]))
data['Performance_Rank'] = data.groupby('Date')['Prediction'].rank(ascending=False)

# 选择每月前5名的股票
top_stocks = data.sort_values(['Date', 'Performance_Rank']).groupby('Date').head(5)

# 计算策略收益
top_stocks['Strategy_Return'] = top_stocks['Next_Day_Return']
portfolio_return = top_stocks.groupby('Date')['Strategy_Return'].mean()

# 打印策略表现
print("策略平均每日收益:", portfolio_return.mean())
print("策略累计收益:", (1 + portfolio_return).cumprod().iloc[-1] - 1)

# 展示选出的股票
print("选出的股票:")
print(top_stocks[['Date', 'Stock_ID', 'Prediction', 'Performance_Rank']])

加载方法： 将上述代码保存为一个Python文件，例如"Big_Data_Stock_Selection.py"。然后使用Python环境运行此脚本，确保安装了所需的库（pandas, numpy, scikit-learn）。你可以通过命令行运行：

python Big_Data_Stock_Selection.py

参数说明

参数	意义
n_estimators	随机森林中树的数量，影响模型的复杂度和精度
random_state	随机种子，用于保证结果的可复现性
test_size	测试集数据比例，用于验证模型性能
features	用于模型训练的特征列表
target	模型预测的目标变量，这里是下一日的收益率