资产价格预测是金融学类各专业的重要教学内容,而如何运用金融大数据与机器学习方法,从众多指标中提取真正能够解释与预测资产价格的有效指标正成为近几年金融市场研究的热点。将最新的学科研究成果转化为教学内容、并通过基于机器学习的课程实验予以验证,对学生创新精神和实践能力的培养尤为重要。
目前有机器学习功能的资产定价商用系统存在实盘交易中,不仅价格奇高、实验功能受限,而且实验的失败率也高,学生无法体验和验证自己的创造性思维,也无法多次尝试与错误修正。通过运用多种机器学习方法的虚拟仿真实验,解决了实验时间、场地受限问题,学生可以自主反复练习;学生可以体验和验证自己的创造性思维,挑战实验的广度和深度,训练初步科研的思想,提升了实践能力和创新能力;通过多次尝试与错误修正,可以有效训练学生的实验技能,提高未来实盘交易的成功率,实现虚实互补。
基于机器学习的资产定价虚拟仿真实验依托于核心课程,课程实验分成传统实验和虚拟仿真实验两个部分:利用实时行情建模分析等内容通过传统实验进行,运用机器学习算法提取有效指标等内容通过虚拟仿真实验进行,实现虚拟仿真实验与传统实验相结合,充分体现“虚实结合、能实不虚”的特点。
资产价格预测是金融学类各专业的重要教学内容,而如何运用金融大数据与机器学习方法,从众多指标中提取真正能够解释与预测资产价格的有效指标正成为近几年金融市场研究的热点。将最新的学科研究成果转化为教学内容、并通过基于机器学习的课程实验予以验证,对学生创新精神和实践能力的培养尤为重要。
基于机器学习的资产定价虚拟仿真实验依托于核心课程,课程实验分成传统实验和虚拟仿真实验两个部分:利用实时行情建模分析等内容通过传统实验进行,运用机器学习算法提取有效指标等内容通过虚拟仿真实验进行,实现虚拟仿真实验与传统实验相结合,充分体现“虚实结合、能实不虚”的特点。
投资组合分析法是实证资产定价领域被广泛使用的分析方法。该方法在横截面股票收益预测的研究中最为常见。投资组合分析法的实质内容是:先按不同指标对股票进行排序和分组,构建投资组合并持有一定的时期;再在计算投资组合收益的基础上,比较不同投资组合的收益及超额收益是否有显著差异,从而检验不同指标对于横截面股票收益是否产生影响。 实验项目中使用的投资组合分析方法,具体而言,是在每个月的第一个交易日,分别根据上个月公司最新的特征变量进行收益预测,按照预测值的大小从小到大对样本中全体公司进行排序,等分为10组,各组分别构造组合,并构造多空对冲组合。这些组合的持有周期为一个月。到了下个月,重复上述过程构建和持有新的组合。如果最终多空对冲组合能够产生显著收益,则证明使用不同的方法进行排序的预测收益指标能够显著预测横截面股票收益。项目使用的机器学习方法是在个股层面利用公司特征与行业均值共 60 个变量进行训练,最终对未来一期的公司股票收益进行预测。我们分别构造市值加权组合和等权组合,重复上述实验,对结果进行比较。同时,采用计算组合收益(等值加权、市值加权)、夏普比率、超额收益等组合评价方法,比较各组合与市场组合(以市场指数代替)的优劣,以确定不同的方法是否能区分和预测横截面股票收益。
数据可视化是理解数据的内涵、寻找数据蕴藏规律的一种重要手段,同时也是大数据分析的一个重要研究方向。它是资产定价研究和应用的新趋势,是实验项目的重要一环。
数据可视化,既有前期的数据理解,又有后期的建模过程与结果的可视化。采用多种统计图表对每个变量或多个变量进行可视化,或者按照行业、市场等分层对公司数据的综合指标数据进行可视化,有助于对数据的理解,为后续的变量筛选、变形及建模提供基础性信息;建模过程与结果的可视化有助于调整参数和模型评估。
学生通过网络进入虚拟仿真系统,了解实验项目和要求,预先补全所需前期知识。
1. 教师在线上“理论知识”模块共享实验教学的目的、原理、操作步骤、理论背景与评分标准。
2. 学生可通过远程学习方式熟悉实验教学过程,并完成实验教学预习内容、参加预习考核。
3. 学生实验分组,一个教学班可分成若干组,每组 4 人,通过抽签、两两配对。根据选定的实验,分组讨论各投资策略中指标与算法的选择,提交《数据分析及投资策略计划书》。
4. 教师设定机器学习运算训练集的实验场景及投资组合的调整时点。
5. 学生开展探究式学习,透过可视化查看和理解公司特征,选用不同的机器学习方法,不断调整变量集合和机器学习方法的参数,选择最优的变量集、方法和相关参数结果,并通过样本外预测不断调整公司特征的预测权重以及投资组合中的股票权重,整理数据结果并撰写实验报告 与报告展示。
6. 完成实验后,学生可在系统“问答专区”模块针对仿真实验某些环节与老师、同学进行 进一步讨论,巩固实验知识点,对实验教学项目设计进行反馈,实现真实与虚拟环境互动。
1、基于单特征指标的投资组合收益计算与比较
将公司股票按照人工选择出来的某个最重要指标进行排序、分组,计算投资组合收益,记录该重要指标的变化。
2、组合收益主成分回归建模
第一步,使用主成分分析法依次提取各公司特征的最大方差部分。
假设资产收益与公司特征之间存在线性关系:
其中,𝑅代表𝑁𝑇 × 1阶由预期收益组成的矩阵,𝑋为𝑁𝑇 × 𝐶阶由公司特征组成的矩阵(𝐶为140个公司特征变量),𝛿𝐾为𝐶 × 𝐾阶系数矩阵,𝛼𝐾为𝐾 × 1阶系数矩阵。式中,𝑋𝛿𝐾表示经过数据降维后新生成的𝐾个预测因子,即将数据从𝐶个公司特征变量降维到𝐾个指标。
第二步,进行主成分回归,用交叉验证确定最终进行预测回归的主成分数量。
第三步,计算预测回归结果。
3、带惩罚的线性回归建模
当使用的预测变量较多时,简单的回归分析容易产生过度拟合的问题。带惩罚的线性回归通过在回归最小化的损失函数中加入惩罚项,“牺牲”一部分参数估计的无偏性,从而对变量进行适当地选择和赋权。其目标方程可以写为(2)的形式:
其中, 为第 j 个公司特征的系数,𝜆为控制着惩罚方程在目标方程中的所占比重。当𝜆越大时,变量受到的惩罚方程压缩的程度会更深。惩罚方程中𝜆与𝛼的都属于超参数,是在回归前由训练集上交叉验证来确定的。
4、随机森林建模
5、神经网络建模
对于不同层数的节点数,我们可以在试验系统中进行选择,如2到32个节点。当数据样本较小时,运用神经网络模型并不是层数越多预测结果越好;同时,由于金融市场本身各类指标包含不同噪音,因此,当模型层数越多时很可能会放大这类噪音对结果的影响。由于使用交叉验证法确定神经网络模型层数和神经元数量的运算量太大,因此进行了一定程度的简化。最后,项目实验使用了多重随机种子对神经网络模型进行初始化、构建公司特征间的关系,并对不同模型的预测取了平均值。目的是既减少了预测收益的方差,又能更好地通过大量随机实验的方式对模型预测结果进行优化。
1、组合收益
组合收益主要包含用等值加权法和市值加权法构造投资组合,并计算每个投资组合的收益。其中,等值加权法的核心思想就是对投资组合中的每只股票投入的权重相同。因此,用该方法构造的投资组合收益为每只股票收益的算术平均值,具体算法如下式所示。
2、夏普比率
其中,为夏普比率;为组合预期收益;为无风险收益,这里用一年期国债利率代替;为组合的标准差,反应组合的总体风险大小。
3、超额收益
项目的核心要素包括基础数据、机器学习方法以及数据可视化。
1. 基础数据的仿真度
2. 机器学习方法的仿真度
使用机器学习方法仿真投资过程。采用信息技术,利用历史数据开展机器学习,仿真投资者的思维和学习过程,通过不断优化算法,以求得最佳结果。其好处是运用大数据思维,排除人的主观局限性和预设模型的局限性,以保证运算过程的客观性、科学性和准确性。
学生在实验中使用机器学习方法进行资产价格预测时,需要不断试错以得到最优的预测结果。这一过程模拟、仿真了投资实践中对资产价格变动成因的挖掘过程,具有一定的难度。同时,分组对抗的设置让学生在挑战中模拟现实不同基金的业绩比拼,将实验赋予一定的竞赛特征,使得学生更有动力去提升资产价格的预测效率。
3. 数据可视化的仿真度
数据可视化助力学生进一步分析企业特征与资产收益之间的关系。项目的仿真模拟部分还通过立体直方图直观地展现了公司特征、行业特征与股票收益之间的关系。学生可以通过数据可视化的分析,结合后续的机器学习方法,进一步了解公司特征与资产收益的关系。项目通过虚实结合地方式,将这一抽象过程进行了还原,引导和启发学生思考。