2017 11 14 [table title]相关研究 fof ——多元 ... · 从多元线性回归谈起 ......

17
请务必阅读正文之后的信息披露和法律声明 [Table_MainInfo] 金融工程研究 证券研究报告 金融工程专题报告 2017 11 14 [Table_Title] 相关研究 《基于因子剥离的 FOF 择基逻辑系列五 ——债券基金的七因子剥离再探与 FOF 应用》2017.07.17 《基于因子剥离的 FOF 择基逻辑系列四 ——债券基金的风格归因与因子剥离初 探》2017.07.06 《基于因子剥离的 FOF 择基逻辑系列三 ——量化基金的风格识别与 FOF 应用》 2017.05.04 [Table_AuthorInfo] 分析师:冯佳睿 Tel:(021)23219732 Email:[email protected] 证书:S0850512080006 联系人:吕丽颖 Tel:(021)23219745 Email:[email protected] 基于因子剥离的 FOF 择基逻辑系列六 ——多元因子剥离体系的模型优化之特征选择 [Table_Summary] 投资要点: 本文是《抽丝剥茧与 Alpha 提纯——基于因子剥离的 FOF 择基逻辑》系列的第六篇 报告,主要将视角从针对国内市场的因子构建切换回模型优化方法论的探讨,尝试 在多元因子的框架体系下实现更优的因子剥离效果,从而更好地应对主动股基和混 合型基金剖析中的因子体系维度过高以及债基跟踪中的数据过于稀疏等情境。 传统回归方式的潜在问题。 虽然传统回归方案中基于全因子的最小二乘法获得的 是最优线性无偏估计量(BLUE),但因为真实样本空间中的数据缺陷以及实际研 究中对模型稳健性以及模型精简性的注重,传统回归方式往往并非最佳选择。 实践研究中的模型考量。从实践量化研究的角度出发,对一个拟合模型的考量往 往取决于两个维度。首先是模型在跨期之间的预测精度,其次是模型的解释性能 (特指模型能精简地提炼出核心因子的能力) “准”与“确”的权衡。机器学习中将拟合模型可能出现的误差分为两个来源: 因模型无法表示基本数据的复杂度而造成的偏差(bias),及因模型对训练所用的 有限数据过度敏感而造成的方差(variance)。全因子最小二乘估计往往偏差小, 但易出现过度拟合现象从而方差大。 模型优化的两个方向。获取更小的模型误差的路径可以是:牺牲一部分偏差,利 用小部分的偏差提升来博取方差的下降,从而尝试获得可能更可靠的参数估计以 及更优的模型拟合效果。出于该思路,业界使用较多的方法包括特征选择和参数 收缩。 特征选择系列模型。 特征选择的逻辑是倾向于选择较少的和被解释变量相关度 最高的维度,在因子剥离体系中即为:选择与目标基金最为相关的几个因子,并 利用这些维度进行传统的多元线性回归。方法最终落实在如何筛选最优子集,本 文主要介绍特征选择系列模型中的三种方法供投资者参考——遍历拟合法、限维 拟合法以及逐步递归拟合法。 收缩估计系列模型的研究会在本系列的下一篇报告中作进一步探讨。 风险提示:市场系统性风险、政策变动风险、模型误设风险。

Upload: duongnhu

Post on 09-Sep-2018

243 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

请务必阅读正文之后的信息披露和法律声明

[Table_MainInfo]

金融工程研究 证券研究报告

金融工程专题报告 2017 年 11 月 14 日

[Table_Title] 相关研究

[Table_ReportInfo] 《基于因子剥离的 FOF 择基逻辑系列五

——债券基金的七因子剥离再探与 FOF

应用》2017.07.17

《基于因子剥离的 FOF 择基逻辑系列四

——债券基金的风格归因与因子剥离初

探》2017.07.06

《基于因子剥离的 FOF 择基逻辑系列三

——量化基金的风格识别与 FOF 应用》2017.05.04

[Table_AuthorInfo]

分析师:冯佳睿

Tel:(021)23219732

Email:[email protected]

证书:S0850512080006

联系人:吕丽颖

Tel:(021)23219745

Email:[email protected]

基于因子剥离的 FOF 择基逻辑系列六

——多元因子剥离体系的模型优化之特征选择 [Table_Summary] 投资要点:

本文是《抽丝剥茧与 Alpha 提纯——基于因子剥离的 FOF 择基逻辑》系列的第六篇

报告,主要将视角从针对国内市场的因子构建切换回模型优化方法论的探讨,尝试

在多元因子的框架体系下实现更优的因子剥离效果,从而更好地应对主动股基和混

合型基金剖析中的因子体系维度过高以及债基跟踪中的数据过于稀疏等情境。

传统回归方式的潜在问题。虽然传统回归方案中基于全因子的最小二乘法获得的

是最优线性无偏估计量(BLUE),但因为真实样本空间中的数据缺陷以及实际研

究中对模型稳健性以及模型精简性的注重,传统回归方式往往并非最佳选择。

实践研究中的模型考量。从实践量化研究的角度出发,对一个拟合模型的考量往

往取决于两个维度。首先是模型在跨期之间的预测精度,其次是模型的解释性能

(特指模型能精简地提炼出核心因子的能力)。

“准”与“确”的权衡。机器学习中将拟合模型可能出现的误差分为两个来源:

因模型无法表示基本数据的复杂度而造成的偏差(bias),及因模型对训练所用的

有限数据过度敏感而造成的方差(variance)。全因子最小二乘估计往往偏差小,

但易出现过度拟合现象从而方差大。

模型优化的两个方向。获取更小的模型误差的路径可以是:牺牲一部分偏差,利

用小部分的偏差提升来博取方差的下降,从而尝试获得可能更可靠的参数估计以

及更优的模型拟合效果。出于该思路,业界使用较多的方法包括特征选择和参数

收缩。

特征选择系列模型。 特征选择的逻辑是倾向于选择较少的和被解释变量相关度

最高的维度,在因子剥离体系中即为:选择与目标基金最为相关的几个因子,并

利用这些维度进行传统的多元线性回归。方法最终落实在如何筛选最优子集,本

文主要介绍特征选择系列模型中的三种方法供投资者参考——遍历拟合法、限维

拟合法以及逐步递归拟合法。

收缩估计系列模型的研究会在本系列的下一篇报告中作进一步探讨。

风险提示:市场系统性风险、政策变动风险、模型误设风险。

Page 2: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 2

请务必阅读正文之后的信息披露和法律声明

目 录

1. 从多元线性回归谈起.................................................................................................. 5

1.1 传统回归方式的模型假设 ................................................................................ 5

1.2 传统回归方式的潜在问题 ................................................................................ 5

2. “准”与“确”的权衡 ........................................................................................................ 6

2.1 实践研究中的模型考量 .................................................................................... 6

2.2 Bias-Variance Trade-off——偏差-方差均衡 .................................................... 6

2.3 模型优化的两个方向 ....................................................................................... 7

3. 特征选择系列模型与案例实证 ................................................................................... 7

3.1 遍历拟合法 ...................................................................................................... 8

3.2 限维拟合法 ...................................................................................................... 9

3.3 逐步递归拟合法 ............................................................................................. 11

4. 特征选择系列模型的思考与总结 ............................................................................. 12

5. 风险提示 .................................................................................................................. 13

Page 3: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 3

请务必阅读正文之后的信息披露和法律声明

图目录

图 1 实际样本数据拟合模型中的偏差-方差均衡 ......................................................... 7

图 2 股基多元九因子剥离体系 .................................................................................... 8

图 3 基金 A 因子拟合 R2 梯度 .................................................................................... 9

图 4 基金 A 因子拟合 Adj-R2 梯度 ............................................................................. 9

图 5 基金 A 遍历拟合法入选因子 ............................................................................... 9

图 6 基金 A 遍历拟合法因子暴露 ............................................................................... 9

图 7 基金 B 因子拟合 Adj-R2 梯度 ........................................................................... 10

图 8 基金 B 遍历拟合法入选因子 ............................................................................. 10

图 9 基金 B 遍历拟合法因子暴露 ............................................................................. 10

图 10 基金 B 限维拟合法入选因子 ............................................................................. 10

图 11 基金 B 限维拟合法因子暴露 ............................................................................. 10

图 12 基金 B 逐步递归拟合法筛选因子路径 ............................................................... 11

图 13 基金 B 逐步递归拟合法因子暴露变化 ............................................................... 12

图 14 基金 B 逐步递归拟合法入选因子 ...................................................................... 12

图 15 基金 B 逐步递归拟合法因子暴露 ...................................................................... 12

Page 4: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 4

请务必阅读正文之后的信息披露和法律声明

表目录

表 1 特征选择系列模型的因子选择 .......................................................................... 13

Page 5: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 5

请务必阅读正文之后的信息披露和法律声明

本文是《抽丝剥茧与 Alpha 提纯——基于因子剥离的 FOF 择基逻辑》系列的第六

篇报告,主要将视角从针对国内市场的因子构建切换回模型优化方法论的探讨,尝试在

多元因子的框架体系下实现更适合实践分析的因子剥离效果,从而更好地应对主动股基

和混合型基金剖析中的因子体系的维度过高以及债基跟踪中的数据过于稀疏等情境。

本文将从最简单的多元线性回归模型谈起,探讨传统多元回归方案的思路及其潜在

的隐患。随后将引入机器学习中的“准”与“确”的均衡理念,为投资者提供多种不同的模

型优化思路。同时,本文将通过案例的方式实证模型分析的效果。

1. 从多元线性回归谈起

1.1 传统回归方案的模型假设

鉴于因子剥离系列研究均以 FOF 投资作为出发点,假设无法获取基金的详细持仓,

对基金的研究与剖析均只能基于净值分析,故所涉及的模型均处于时间序列归因的框架

内。最简单的模型方案是,获得目标基金的净值数据,换算得基金的时序收益率,同时

构造因子收益率序列,将基金收益率对所有因子收益率进行时间序列的线性回归。

多元线性回归是业内使用最为广泛的计量分析方式之一,其目标是针对被解释变量

y,找到一组向量 X,推测 X 与 y 之间的线性关系,即

其中,获得系数 估计值的常见估计方法是最小二乘法(Ordinary Least Square,

OLS),其思想是使得观测点和估计点的距离的平方和达到最小,这里的“二乘”指的

是用二维空间中的欧式距离来度量观测点与估计点的远近,即

求解上式,可得系数估计的解析解,即

1.2 传统回归方案的潜在问题

传统回归方案中基于全因子的最小二乘法得到的估计量是最优线性无偏估计量

(Best Linear Unbiased Estimators,BLUE),高斯-马尔科夫定理已经证明,在所有的

无偏线性回归方法中,最小二乘法的方差最小。然而,实际的研究实证中,该回归方案

可能并非最为合适的方案,由于从实践角度对模型的考量标准会有所不同。

首先,在实际的研究实证中,我们并非能获取真实模型所基于的完整数据,模型拟

合中所基于的训练样本往往并不充足,典型的案例包括在债基分析体系中,锯齿化的数

据结构导致我们被迫放弃数据的频率以获取数据的平滑;再如,基于股基净值分析时的

净值输入量存在样本敏感性,不同的截取净值的方法会获得截然不同的因子剥离效果。

如若我们能够获得最能够匹配真实模型的净值数据,并在这个数据集合的基础上试图将

误差最小化,此时可以获得真实模型。然而,这样的真实模型虽然存在却无法获得,实

际研究中的目标变更为:基于所能获得的数据去拟合一个模型,试图更加接近真实模型。

Page 6: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 6

请务必阅读正文之后的信息披露和法律声明

再者,当归因时使用的因子过多时,所面临的问题会更为复杂,而这正是我们下一

步做主动股基的因子剥离(多元基本面因子和行业因子的加入)以及混合型基金的因子

剥离(同时囊括股基因子与债基因子)所难以避免的。过高维度的因子剥离体系伴随着

一系列潜在问题:其一,如若数据长度太短,模型可能会因为高维度下自由度过低,不

足以有效估计所有的回归系数,例如,在纳入过多行业因子以后的股基分析体系几乎无

法展开季度以内的有效跟踪;其二,即使是人工构造的因子也会有难以克服的多重共线

性,从而会大幅降低模型的参数估计精度;其三,过多的变量容易引起模型的过度拟合,

在全因子最小二乘法的传统回归中,任何输入的因子均会获得回归系数,成为目标基金

的影响因素。最后,模型在实际使用中因过于复杂而匮乏解释性能,此处的解释性能特

指模型能够精拣出核心变量,剔除冗余因子的能力,从而使得实践中的归因分析更高效。

2. “准”与“确”的权衡

2.1 实践研究中的模型考量

从实践量化研究的角度出发,对一个拟合模型的考量往往取决于两个维度。首先是

模型在跨期之间的预测精度,即模型对新样本的估计值与新样本的实际值之间的偏差。

其不仅取决于模型与真实模型之间的偏差,同时还取决于模型对数据的敏感度。

第二个维度是模型的解释性能,即核心变量的提纯与冗余变量的剔除,从而实现简

化的模型以及直观的解释效果。过高的解释变量个数,虽然可以提升模型的 R2,降低

模型的拟合偏度,但往往引起过拟合现象(Overfitting),进而使得参数的可信度大幅下

降,模型也因为缺乏变量的甄选从而不够精简,解释性能弱。

2.2 Bias-Variance Trade-off——偏差-方差均衡

为解释传统回归方案中在因子个数过多时所引起的过度拟合问题,本文引入机器学

习中的“偏差-方差均衡”的思想。在基于实际样本数据的因子拟合研究中,为探寻更

优的模型搭建,可以将模型可能出现的误差分为两个来源,因模型无法表示基本数据的

复杂度而造成的偏差(Bias),及因模型对训练它所用的有限数据过度敏感而造成的方

差(Variance)。分解表达式如下:

Error = Bias + Variance + Noise

进一步分解为数学表达式,我们试图解释的变量为 Y,因子数据为 X,两者之间的

关系为 ,其中 。模型拟合中尝试用 尽可能地接近 。

Error,预测误差,即预测值与实际值之间的差异;

Bias,偏差,对应于“准”,反映的是模型在样本上的输出与真实值之间的误差,

即模型本身的精准度;其衡量的是模型拟合数据的能力,然而正如前文所述,拟合的数

据并不是整个真实的完整数据集,因而 Bias 越小,拟合能力越强,却潜在有过拟合

(Overfitting)的风险。反之,Bias 越大,拟合能力越弱,意味着模型不够复杂而无法

捕捉内部关系,即欠拟合(Underfitting)。

Variance,方差,对应于“确”,反映的是模型每一次输出结果与模型输出期望之

间的误差,即模型的稳定性;其衡量的是模型泛化(Generalization)的能力,Variance

越小,模型的泛化能力越高,在实际使用中的解释性能越强。模型变量过多,参数过高

Page 7: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 7

请务必阅读正文之后的信息披露和法律声明

时,往往引起过度拟合,Variance 也会逐渐提升,解释性能也相对较弱。

“准”与“确”是因子模型拟合中的取舍与权衡。一般而言,高偏差意味着欠拟合,

而高方差意味着过拟合。传统回归方案(基于全因子的最小二乘法)的估计方式,往往

容易出现偏差小而方差大的问题,因而总误差并不一定是所有模型选择中最低的。

结合实际的基金因子剥离框架,传统回归方案将所有的因子均纳入模型,因子剥离

体系有很大可能过度解读了基金的因子暴露,且将冗余因子纳入模型中,基金管理人并

无该投资意识,因而模型出现过拟合问题。而在欠拟合状态下,因子剥离体系未能准确

地反映出基金的因子暴露,不能抓取与解读基金管理人的核心投资风格,同样有违我们

因子剥离的研究初衷。因而,合适的拟合优度在因子剥离中需要谨慎考虑。

图1 实际样本数据拟合模型中的偏差-方差均衡

欠拟合 过度拟合

Bias

Variance

Error

最佳模型

资料来源:海通证券研究所

2.3 模型优化的两个方向

通过如上分析,在实际因子剥离研究中我们希望尽量在模型的过度拟合与欠拟合寻

找适中点,降低模型的预测误差。从上述公式可见优化的途径有二,其一是降低拟合方

案的偏差,其二是降低拟合方案的方差。高斯-马尔科夫定理已经证明,在无偏的情形

下,最小二乘法的方差是最小的,已经不存在更优的可能,故获取更小的预测误差的路

径只有:牺牲一部分偏差,利用小部分的偏差提升来博取方差的下降,从而获得更可靠

的参数估计以及更优的模型拟合效果。

存在两种不同的方式可以尝试实现这一目的:特征选择和参数收缩1,都有一定的

可能性能在实现偏差上升的同时方差下降,两者分别包括一系列模型。两种优化方向均

存在自身的优势与缺点,因而也存在不同的适用情境。

本篇先介绍特征选择这一方向中的常见模型,而在下一篇系列报告中会进一步介绍

参数收缩中的常见模型以及综合模型,并通过对真实基金的剥离测试展开案例分析。

3. 特征选择系列模型与案例实证

特征选择是第一种尝试通过牺牲偏差来尝试降低方差的思路。当样本数据的维度较

高,多元回归存在着过度拟合数据的风险(Overfitting),特征选择的逻辑是倾向于选择

较少的和被解释变量相关度最高的维度,在因子剥离体系中即为:选择与目标基金最为

相关的几个因子,并利用这些维度进行传统的多元线性回归。

1 Hastie Et Al - The Elements Of Statistical Learning - Data Mining, Inference, And Prediction, 2Ed (Springer, 2009)

Page 8: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 8

请务必阅读正文之后的信息披露和法律声明

特征选择式优化方案不仅能够尝试在牺牲偏差的同时降低方差,其更显著的优点在

于模型精拣变量的能力,与收缩估计系列模型相比它具有更佳的解释性能——通过寻找

最相关的几个特征因子,投资者可以最直观地感受到基金主要暴露于哪几个风格因子。

然而该方法的缺点在于其离散而非连续型的优化流程,容易引起较高的模型敏感度,优

化效果的稳定性较弱,在偏差-方差的均衡中存在较多信息损耗。

特征选择方法最终落实在如何筛选最优子集,下文主要介绍三种方法供投资者参

考。

3.1 遍历拟合法

遍历拟合法(Exhaust Algorithm)的逻辑非常直观,即直接将因子集的所有可能性

均遍历回归,最终的筛选指标使用 Adjusted-R2 最大的一组作为解释因子子集。虽然随

着因子数的增加,模型的 R2 势必会递增,但是 Adjusted-R2 中存在对因子个数的惩罚

机制,在因子个数过多时,其值会降低,故而可以找到最终的因子个数以及具体因子类

别。

作为实证案例,本文构建如下权益基金分析的简易版九因子剥离体系:

图2 股基多元九因子剥离体系

股基因子体系

系统面

市场

风格面

市值

估值

风险面

波动性

流动性

交易面

反转

换手

基本面

盈利

增长

资料来源:海通证券研究所

从权益类基金的投资角度出发,我们从系统面、风格面、技术面、行为面以及基本

面五个方向构建因子:其中系统面即市场因子,刻画权益资产系统面的变化所引起的基

金净值的变化,其选择根据基金的基准而进行调整,例如增强型基金则选取其增强基准

作为系统面因子。风格面中包括两大主要的风格因子,即 Fama-French 三因子模型中

的市值以及估值因子。风险面下包含了股票的波动性和流动性特征,刻画了其蕴含的潜

在价格震荡风险和流动性风险。交易面下主要刻画投资者的交易行为,分别从成交价格

的涨跌幅与交易的活跃度两方面衡量,反映为反转与换手因子。最后,基本面类因子,

主要以财务类因子为主,虽然刻画股票财务面的指标较多,但共线性往往较高,故本文

当前只纳入了盈利以及盈利的差分项——增长,作为基本面类因子的代表。

与之前的简版因子体系相比,九因子体系维度有所增加,因子构建流程中的共线性

优化机制已经不足以在保持因子特征的情况下控制两两因子间的相关性,故试图得到更

优的因子剥离效果则需把重点落到回归模型的优化上。

以基金 A 为例,在九因子剥离体系中遍历全部因子组合可能性,并在 29种因子个

数的情形中选择 R2 最大的一组。下图呈现了随着因子个数的增加,每一种因子个数的

情形下,所能实现的最大 R2(Adj-R2)。图中可见,因子个数从 1 到 9 递增时,模型的

R2 在一直增加,但是模型的 Adj-R2 在因子个数大于 5 以后开始下降。

Page 9: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 9

请务必阅读正文之后的信息披露和法律声明

图3 基金 A 因子拟合 R2 梯度

0.552

0.554

0.556

0.558

0.56

0.562

0.564

0.566

0.568

0.57

0.572

0.574

1 2 3 4 5 6 7 8 9

模型

最大

R2

因子个数

资料来源:Wind,海通证券研究所

图4 基金 A 因子拟合 Adj-R2 梯度

0.554

0.556

0.558

0.56

0.562

0.564

0.566

0.568

1 2 3 4 5 6 7 8 9

模型

最大

Adj-R

2

因子个数

资料来源:Wind,海通证券研究所

遍历拟合法最终选择了因子个数为 5 时的最优因子集合,入选因子为:系统因子、

流动因子、波动因子、换手因子以及反转因子。解释因子的雷达图以及因子暴露的柱状

图绘制如图 5 与图 6。

图5 基金 A 遍历拟合法入选因子

0

1系统因子

市值

估值

反转

换手波动

流动

盈利

增速

入选

资料来源:Wind,海通证券研究所

图6 基金 A 遍历拟合法因子暴露

-0.2 0 0.2 0.4 0.6 0.8 1

系统因子

市值

估值

反转

换手

波动

流动

盈利

增速 因子暴露

资料来源:Wind,海通证券研究所

基金 A 的因子剥离效果呈现出了一类量化类组合管理策略所更为倾向的风格模式,

关注风险面以及投资者行为指标。在系统性因子上,该基金显著的敞口暴露揭示了其相

对而言仓位并不高。在风格类因子上,该基金在大小盘以及成长价值上均较为中性,由

于当前的因子选择是中证 500,如若换为沪深 300,其体现为小市值与成长的因子特征。

该基金较为关注风险面与投资者行为两类技术面指标,而对基本面中的财务指标关注较

少。

3.2 限维拟合法

遍历拟合法的优点体现在其完备性,但同时包括两个缺点:其一是因子个数较多时

其运算速度极慢,操作可行性较低,不适用于大批量基金的扫描。其二,即使运算时间

在容忍范围内,最优 R2 因子组合也并不一定是综合考量中的最优模型。以下图的基金

B 分析图为例,随着因子个数的提升,模型的 Adj-R2 一直在增大, 遍历拟合法最终会

选择将九因子体系中的八个因子加入模型。

然而,Adj-R2 的梯度曲线的斜率在因子增加的前期和后期有显著的不同,在前四

个因子加入时,模型解释度有大幅提升,但在因子个数大于 5 以后,每多加入一个因子,

对模型的改进微乎其微,并非能大幅降低模型的偏差。然而,因为因子个数的增加,一

方面模型的方差可能会增大,整体的预测误差可能有所下降;另一方面,模型的解释性

能随着因子个数的增加逐步下降。故对基金 B 而言,更为合适的因子筛选个数是 4-5 个,

而非 Adj-R2 最高的 9 个。

Page 10: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 10

请务必阅读正文之后的信息披露和法律声明

图7 基金 B 因子拟合 Adj-R2 梯度

0.958

0.96

0.962

0.964

0.966

0.968

0.97

0.972

0.974

1 2 3 4 5 6 7 8 9

模型

最大

Adj-R

2

因子个数

资料来源:海通证券研究所

根据 Adj-R2 的拟合梯度,人为设定筛选因子个数为 5 个,可获得更为干练的归因

效果。遍历模型中边际优化效用并不大的波动、换手、估值三个因子均被剔除。最终该

基金表现为:较高的系统仓位,相对基准倾向于持有偏小市值的股票,对基本面类指标

尤为重视,集中于持有高盈利、高增速的股票。同时,由于该基金规模较高,持有的股

票流动性较高。基金 B 的投资经理较不关注风险面与投资者行为面的技术面指标。

图8 基金 B 遍历拟合法入选因子

0

1系统因子

市值

估值

反转

换手波动

流动

盈利

增速

入选

资料来源:Wind,海通证券研究所

图9 基金 B 遍历拟合法因子暴露

-0.2 0 0.2 0.4 0.6 0.8 1

系统因子

市值

估值

反转

换手

波动

流动

盈利

增速 因子暴露

资料来源:Wind,海通证券研究所

图10 基金 B 限维拟合法入选因子

0

1系统因子

市值

估值

反转

换手波动

流动

盈利

增速

入选

资料来源:Wind,海通证券研究所

图11 基金 B 限维拟合法因子暴露

-0.2 0 0.2 0.4 0.6 0.8 1

系统因子

市值

估值

反转

换手

波动

流动

盈利

增速 因子暴露

资料来源:Wind,海通证券研究所

Page 11: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 11

请务必阅读正文之后的信息披露和法律声明

3.3 逐步递归拟合法

限维拟合法从模型的运算效率和解释性能两个角度都是一种进步,但其缺陷在于具

体选用几个因子难以确定,存在很强的主观性。在上述案例中,我们限定选择 5 个因子

加入模型的结论是根据 Adj-R2 梯度图像进行主观判断,然而该图像的产生其实已经建

立在高成本运算的基础之上,因而限维拟合法从实践角度来看存在主观依赖,甚至依然

是运算低效的。

针对因子筛选个数难以把握的问题,本文引入基于迭代技巧的路径依赖式模型——

逐步递归模型(Stepwise)。其主要思路是在全部的备选因子中按照其对目标基金的作

用大小、显著程度大小或者说贡献大小,从大到小地逐个引入回归模型,而对那些作用

并不显著的因子可能始终不被选择入回归模型。另外,如若本身已经被选入回归模型的

因子,也有可能会在引入了新的因子以后失去显著性,故从模型中剔除。引入一个因子

或从模型中剔除一个因子均作为逐步递归的一步,每一步均进行检验,以保证在引入新

因子前,回归模型只含有对目标基金影响显著的因子,而不显著的因子已被剔除。

偏回归平方和是逐步递归的重要参考指标,其概念是在模型已经含有其他自变量的

基础上,加入一个新的自变量,引起的对于回归模型贡献的增加量,或者删除某个自变

量以后,引起的对于回归模型贡献的减少量。

逐步递归分析的每一步都先要对已引入回归模型的因子计算其偏回归平方和,选一

个偏回归平方和最小的因子, 在预先给定的水平下进行显著性检验。如若显著,则该因

子不必从回归模型中剔除, 这时模型中其它的几个因子也都不需要剔除(因为其它的几

个因子的偏回归平方和都大于最小的一个更不需要剔除)。相反, 如若不显著, 则该因子

要剔除, 然后按偏回归平方和由小到大地依次对模型中其它因子进行检验。由此,将对

影响不显著的因子全部剔除, 保留的都是显著的。接着再对未引入回归模型中的因子分

别计算其偏回归平方和, 并选其中偏回归平方和最大的一个因子, 同样在给定水平下作

显著性检验, 如果显著则将该因子引入回归方程。这一过程一直继续下去, 直到在回归

方程中的因子都不能剔除而又无新因子可以引入时为止, 此时逐步递归过程结束。

显然,逐步递归分析方法总共的步数以及最终选择的因子个数均不确定且无约束,

而是由模型所决定,需要输入的预设值是因子进出的显著性 p 值。下图展示了对基金 B

做逐步递归分析时每一步中模型中所引入的因子情况(进入门槛 p 值为 0.05,退出门槛

p 值为 0.1)。

图12 基金 B 逐步递归拟合法筛选因子路径

0

1

2

3

4

5

6

7

8

Step 1 Step 2 Step 3 Step 4 Step 5 Step 6 Step 7

系统因子 市值 估值 反转 换手 波动 流动 盈利 增速

资料来源:海通证券研究所

模型总共进行了七步,第一步首先选择了对模型边际贡献最大的因子——系统因

子,随后市值、盈利、流动、增速、估值和换手因子依次选入,最终模型停止。该模型

Page 12: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 12

请务必阅读正文之后的信息披露和法律声明

中未出现现有因子退出的情况。同时,每一步中因子暴露变量如下图所示,

图13 基金 B 逐步递归拟合法因子暴露变化

-0.2

0

0.2

0.4

0.6

0.8

1

1.2

Step 1 Step 2 Step 3 Step 4 Step 5 Step 6 Step 7

系统因子 市值 估值 反转 换手

波动 流动 盈利 增速

资料来源:海通证券研究所

最终,逐步递归拟合法的因子剥离效果如下,从左图可见,该模型入选了 7 个因子,

鉴于遍历拟合法的 8 个与限维拟合法的 5 个之间,相对来说较为折中。其最显著的优势

在于高效的运算速度,能够以更高的效率到达前两种方法的模型终点。在主动股基的引

入行业因子的分析框架以及混合基金的股债因子混合的分析框架里,逐步递归拟合法的

高效会更突显其意义。在因子个数大于 15 个以后,遍历拟合法的效率会极低,在实践

意义上可以认为不可行,同时限维拟合法的个数难以确定,逐步递归拟合法是高维度因

子剥离情境的最优选择。

然而,值得留意的是,这种方法的一点不足在于其敏感性较高,不同的初始值设定

所走向的路径结局不尽相同,尤其是在因子相关性较高时,输出结果的敏感性会更高,。

图14 基金 B 逐步递归拟合法入选因子

0

1系统因子

市值

估值

反转

换手波动

流动

盈利

增速

入选

资料来源:Wind,海通证券研究所

图15 基金 B 逐步递归拟合法因子暴露

-0.2 0 0.2 0.4 0.6 0.8 1

系统因子

市值

估值

反转

换手

波动

流动

盈利

增速 因子暴露

资料来源:Wind,海通证券研究所

4. 特征选择系列模型的思考与总结

本篇报告探讨了特征选择视角的三种模型的优化方案:遍历拟合法、限维拟合法以

及逐步递归拟合法。诚然,三种优化方案的出发点都是试图在实践研究中探寻更优的基

金因子剥离模型——即更优的预测精度以及更高的模型解释性能(精简变量的能力)。

而预测精度的度量,可以进一步分解为模型的偏差与方差。特征选择系列模型,均是试

图减少入围模型的因子,尝试牺牲模型的偏差从而换取方差的降低,具有一定的可能性

以提高模型的预测精度。同时,因为因子个数的下降,模型的解释性能获得提升,能够

Page 13: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 13

请务必阅读正文之后的信息披露和法律声明

更直接地抓住主要影响变量。

表 1 特征选择系列模型的因子选择

传统回归模型 遍历拟合法 限维拟合法 逐步递归法

系统因子 1 1 1 1

市值因子 1 1 1 1

估值因子 1 1 0 1

反转因子 1 0 0 0

换手因子 1 1 0 1

波动因子 1 1 0 0

流动因子 1 1 1 1

盈利因子 1 1 1 1

增速因子 1 1 1 1

资料来源:Wind,海通证券研究所

在特征选择类模型中,如若不考虑运算效率,只追求最为合适的优化终点,限维拟

合法是最为合适的选择,具体的筛选因子个数由 Adj-R2 的梯度图所确定。然而,在因

子个数较多时,遍历拟合法以及限维拟合法中的 Adj-R2 梯度图均难以实现,限维拟合

法中的因子个数因此也难以确定,往往只能基于经验判断,主观性较强,故逐步递归法

是更优的选择。

事实上,投资者也可根据逐步递归法的终点模型中的因子个数,作为限维拟合法的

预设维度。同时,还可根据本系列报告第一篇的海外模型中的操作方式,绘制

Alpha/AR-R2 散点图像,分析散点的离散度以评估因子模型的敏感性。以如上案例为例,

逐步递归拟合法最终选择了 7 个因子,可以预设 7 因子进行限维拟合,并通过散点测试

模型敏感度,该种方法可以一定程度上检验逐步递归法中的敏感性较高的问题。

特征选择系列模型只是模型优化中的一种方向,而另一种方向的思路是——收缩估

计。与收缩估计相比,特征选择最显著的优势在于更高的解释性能,投资者可以最为直

观地感受到基金主要暴露于哪几个风格因子。但特征选择系列模型的缺点恰恰也源于

此,因为整体而言,筛选因子子集的方法均属于离散而非连续性的优化流程,容易引起

较高的模型敏感度,优化效果的稳定性不足,因而在偏差-方差的均衡中会引起较多的

信息损耗。

在本系列下一篇报告中,将继续探讨模型优化中的第二种优化方向——收缩估计系

列模型。

5. 风险提示

市场系统性风险、模型误设风险、有效因子变动风险。

Page 14: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 14

请务必阅读正文之后的信息披露和法律声明

信息披露 分析师声明

[Table_Analysts] 冯佳睿 金融工程研究团队

本人具有中国证券业协会授予的证券投资咨询执业资格,以勤勉的职业态度,独立、客观地出具本报告。本报告所采用的数据和信息

均来自市场公开信息,本人不保证该等信息的准确性或完整性。分析逻辑基于作者的职业理解,清晰准确地反映了作者的研究观点,

结论不受任何第三方的授意或影响,特此声明。

法律声明

本报告仅供海通证券股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,

本报告中的信息或所表述的意见并不构成对任何人的投资建议。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致

的任何损失负任何责任。

本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可能

会波动。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。

市场有风险,投资需谨慎。本报告所载的信息、材料及结论只提供特定客户作参考,不构成投资建议,也没有考虑到个别客户特殊的

投资目标、财务状况或需要。客户应考虑本报告中的任何意见或建议是否符合其特定状况。在法律许可的情况下,海通证券及其所属

关联机构可能会持有报告中提到的公司所发行的证券并进行交易,还可能为这些公司提供投资银行服务或其他服务。

本报告仅向特定客户传送,未经海通证券研究所书面授权,本研究报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或

复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。所有本报告中使用的商标、服务标记及标记均为本公

司的商标、服务标记及标记。如欲引用或转载本文内容,务必联络海通证券研究所并获得许可,并需注明出处为海通证券研究所,且

不得对本文进行有悖原意的引用和删改。

根据中国证监会核发的经营证券业务许可,海通证券股份有限公司的经营范围包括证券投资咨询业务。

Page 15: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 15

请务必阅读正文之后的信息披露和法律声明

[Table_PeopleInfo] 海通证券股份有限公司研究所

路 颖 所长

(021)23219403 [email protected]

高道德 副所长

(021)63411586 [email protected]

姜 超 副所长

(021)23212042 [email protected]

江孔亮 副所长

(021)23219422 [email protected]

邓 勇 所长助理

(021)23219404 [email protected]

荀玉根 所长助理

(021)23219658 [email protected]

钟 奇 所长助理

(021)23219962 [email protected]

宏观经济研究团队

姜 超(021)23212042 [email protected]

顾潇啸(021)23219394 [email protected]

于 博(021)23219820 [email protected]

梁中华(021)23154142 [email protected]

联系人

李金柳(021)23219885 [email protected]

宋 潇(021)23154483 [email protected]

陈 兴(021)23214504 [email protected]

金融工程研究团队

高道德(021)63411586 [email protected]

冯佳睿(021)23219732 [email protected]

郑雅斌(021)23219395 [email protected]

罗 蕾(021)23219984 [email protected]

沈泽承(021)23212067 [email protected]

余浩淼(021)23219883 [email protected]

袁林青(021)23212230 [email protected]

联系人

周一洋(021)23219774 [email protected]

姚 石(021)23219443 [email protected]

吕丽颖(021)23219745 [email protected]

张振岗(021)23154386 [email protected]

颜 伟(021)23219914 [email protected]

史霄安 [email protected]

梁 镇(021)23219449 [email protected]

金融产品研究团队

高道德(021)63411586 [email protected]

倪韵婷(021)23219419 [email protected]

陈 瑶(021)23219645 [email protected]

唐洋运(021)23219004 [email protected]

宋家骥(021)23212231 [email protected]

薛 涵 [email protected]

皮 灵(021)23154168 [email protected]

联系人

谈 鑫(021)23219686 [email protected]

王 毅(021)23219819 [email protected]

蔡思圆(021)23219433 [email protected]

徐燕红(021)23219326 [email protected]

庄梓恺 [email protected]

固定收益研究团队

姜 超(021)23212042 [email protected]

周 霞(021)23219807 [email protected]

朱征星(021)23219981 [email protected]

姜珮珊(021)23154121 [email protected]

联系人

杜 佳(021)23154149 [email protected]

李 波 [email protected]

策略研究团队

荀玉根(021)23219658 [email protected]

钟 青(010)56760096 [email protected]

高 上(021)23154132 [email protected]

李 影(021)23154117 [email protected]

联系人

姚 佩(021)23154184 [email protected]

唐一杰 021-23219406 [email protected]

中小市值团队

张 宇(021)23219583 [email protected]

钮宇鸣(021)23219420 [email protected]

刘 宇(021)23219608 [email protected]

孔维娜(021)23219223 [email protected]

潘莹练(021)23154122 [email protected]

联系人

王鸣阳(021)23219356 [email protected]

程碧升(021)23154171 [email protected]

相 姜(021)23219945 [email protected]

政策研究团队

李明亮(021)23219434 [email protected]

陈久红(021)23219393 [email protected]

吴一萍(021)23219387 [email protected]

朱 蕾(021)23219946 [email protected]

周洪荣(021)23219953 [email protected]

王 旭(021)23219396 [email protected]

石油化工行业

邓 勇(021)23219404 [email protected]

朱军军(021)23154143 [email protected]

毛建平(021)23154134 [email protected]

联系人

胡 歆(021)23154505 hx11853

医药行业

余文心(0755)82780398 [email protected]

郑 琴(021)23219808 [email protected]

孙 建(021)23154170 [email protected]

师成平(010)50949927 [email protected]

联系人

贺文斌(010)68067998 [email protected]

刘 浩(010)56760098 [email protected]

吴佳栓 01056760092 [email protected]

汽车行业

邓 学(0755)23963569 [email protected]

杜 威 0755-82900463 [email protected]

谢亚彤(021)23154145 [email protected]

王 猛(021)23154017 [email protected]

公用事业

张一弛(021)23219402 [email protected]

张 磊(021)23212001 [email protected]

赵树理(021)23219748 [email protected]

联系人

陈佳彬(021)23154509 [email protected]

傅逸帆(021)23154398 [email protected]

批发和零售贸易行业

汪立亭(021)23219399 [email protected]

王 晴(021)23154116 [email protected]

李宏科(021)23154125 [email protected]

联系人

史 岳(021)23154135 [email protected]

互联网及传媒

钟 奇(021)23219962 [email protected]

郝艳辉(010)58067906 [email protected]

许樱之 [email protected]

孙小雯(021)23154120 [email protected]

刘 欣(010)58067933 [email protected]

联系人

强超廷(021)23154129 [email protected]

毛云聪(010)58067907 [email protected]

唐 宇(021)23219389 [email protected]

陈星光 [email protected]

有色金属行业

施 毅(021)23219480 [email protected]

联系人

杨 娜(021)23154135 [email protected]

李姝醒(021)23219401 [email protected]

陈晓航(021)23154392 [email protected]

李 骥(021)23154513 [email protected]

房地产行业

涂力磊(021)23219747 [email protected]

谢 盐(021)23219436 [email protected]

联系人

杨 凡(021)23219812 [email protected]

金 晶(021)23154128 [email protected]

Page 16: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 16

请务必阅读正文之后的信息披露和法律声明

电子行业

陈 平(021)23219646 [email protected]

联系人

谢 磊(021)23212214 [email protected]

张天闻 [email protected]

尹 苓(021)23154119 [email protected]

石 坚 010-58067942 [email protected]

煤炭行业

吴 杰(021)23154113 [email protected]

李 淼(010)58067998 [email protected]

戴元灿(021)23154146 [email protected]

电力设备及新能源行业

房 青(021)23219692 [email protected]

徐柏乔(021)32319171 [email protected]

张向伟(021)23154141 [email protected]

曾 彪(021)23154148 [email protected]

基础化工行业

刘 威(0755)82764281 [email protected]

刘 强(021)23219733 [email protected]

刘海荣(021)23154130 [email protected]

联系人

张翠翠 [email protected]

李 智 021-23219392 [email protected]

计算机行业

郑宏达(021)23219392 [email protected]

谢春生(021)23154123 [email protected]

鲁 立 [email protected]

黄竞晶(021)23154131 [email protected]

杨 林(021)23154174 [email protected]

联系人

洪 琳(021)23154137 [email protected]

通信行业

朱劲松(010)50949926 [email protected]

余伟民(010)50949926 [email protected]

联系人

庄 宇(010)50949926 [email protected]

张峥青 [email protected]

非银行金融行业

孙 婷(010)50949926 [email protected]

何 婷(021)23219634 [email protected]

联系人

夏昌盛(010)56760090 [email protected]

李芳洲(021)23154127 [email protected]

交通运输行业

虞 楠(021)23219382 [email protected]

张 杨(021)23219442 [email protected]

联系人

李 丹 021-23154401 [email protected]

纺织服装行业

梁 希(021)23219407 [email protected]

于旭辉(021)23219411 [email protected]

联系人

马 榕(021)23219431 [email protected]

建筑建材行业

邱友锋(021)23219415 [email protected]

冯晨阳(021)23212081 [email protected]

钱佳佳(021)23212081 [email protected]

机械行业

佘炜超(021)23219816 [email protected]

耿 耘(021)23219814 [email protected]

杨 震(021)23154124 [email protected]

沈伟杰(021)23219963 [email protected]

钢铁行业

刘彦奇(021)23219391 [email protected]

联系人

刘 璇(021)23219197 [email protected]

周慧琳(021)23154399 [email protected]

建筑工程行业

杜市伟 [email protected]

毕春晖(021)23154114 [email protected]

农林牧渔行业

丁 频(021)23219405 [email protected]

陈雪丽(021)23219164 [email protected]

陈 阳(010)50949923 [email protected]

联系人

关 慧(021)23219448 [email protected]

夏 越(021)23212041 [email protected]

食品饮料行业

闻宏伟(010)58067941 [email protected]

成 珊(021)23212207 [email protected]

军工行业

徐志国(010)50949921 [email protected]

刘 磊(010)50949922 [email protected]

蒋 俊(021)23154170 [email protected]

张恒晅 [email protected]

联系人

张宇轩 [email protected]

银行行业

林媛媛(0755)23962186 [email protected]

联系人

谭敏沂 [email protected]

社会服务行业

李铁生(010)58067934 [email protected]

联系人

陈扬扬(021)23219671 [email protected]

顾熹闽 021-23154388 [email protected]

家电行业

陈子仪(021)23219244 [email protected]

联系人

李 阳 [email protected]

朱默辰 [email protected]

刘 璐 [email protected]

造纸轻工行业

曾 知(021)23219810 [email protected]

赵 洋(021)23154126 [email protected]

衣桢永 [email protected]

研究所销售团队

Page 17: 2017 11 14 [Table Title]相关研究 FOF ——多元 ... · 从多元线性回归谈起 ... ols),其思想是使得观测点和估计点的距离的平方和达到最小

金融工程研究 金融工程专题报告 17

请务必阅读正文之后的信息披露和法律声明

深广地区销售团队

蔡铁清(0755)82775962 [email protected]

伏财勇(0755)23607963 [email protected]

辜丽娟(0755)83253022 [email protected]

刘晶晶(0755)83255933 [email protected]

王雅清(0755)83254133 [email protected]

饶 伟(0755)82775282 [email protected]

欧阳梦楚(0755)23617160

[email protected]

巩柏含 [email protected]

宗 亮 [email protected]

上海地区销售团队

胡雪梅(021)23219385 [email protected]

朱 健(021)23219592 [email protected]

季唯佳(021)23219384 [email protected]

黄 毓(021)23219410 [email protected]

漆冠男(021)23219281 [email protected]

胡宇欣(021)23154192 [email protected]

黄 诚(021)23219397 [email protected]

蒋 炯 [email protected]

毛文英(021)23219373 [email protected]

马晓男 [email protected]

杨祎昕(021)23212268 [email protected]

方烨晨(021)23154220 [email protected]

慈晓聪 021-23219989 [email protected]

王朝领 [email protected]

张思宇 [email protected]

北京地区销售团队

殷怡琦(010)58067988 [email protected]

吴 尹 [email protected]

陆铂锡 [email protected]

张丽萱(010)58067931 [email protected]

陈铮茹 [email protected]

杨羽莎(010)58067977 [email protected]

杜 飞 [email protected]

海通证券股份有限公司研究所 地址:上海市黄浦区广东路 689 号海通证券大厦 9 楼 电话:(021)23219000 传真:(021)23219392 网址:www.htsec.com