CHE2: 预测中国股票风险
摘要: CHE2 模型用于预测中国大陆股票组合的风险, 即由 A 股与 B 股组成的投资组合. 模型利用日度数据, 因此可以及时应对中国市场风格的快速变化.
一, 引言
中国的股票市场近年来发展非常迅速, 因此, 不论是个人投资者还是机构投资者都非常积极地投身其中, 希望从中国经济增长红利中分得一杯羹. 与其它新兴市场相似, 伴随着潜在的巨大收益的自然是相匹配的市场风险, 所以中国股票市场收益率的波动性非常之高.
想要去找出中国股票市场风险的特征, 并且量化它是很困难的. 首先, 市场风险水平不仅处于高位, 而且波动相当大; 其次, 市场的监管理念不断更新, 市场容量不断扩张, 导致市场环境也不断地变化. 几乎每年中国股票市场都会发行很多新股票, 例如, 2005 年上海交易所和深圳交易所中共有大约 1,400 支股票, 而在十年前, 这个数字大概要缩水 2/3. 这种爆炸式的扩张方式正是我们总结市场规律和模式的难点所在, 更不用说去对市场风险做出预测了.
那么究竟有什么方法可以摆平这些难点呢? 利用相对高频的数据可以算是解决方案之一, 即对历史日度数据进行分析. 日度数据提供的信息量大约是月度数据的 20 倍, 足以使我们及时掌握市场变化的动态.
因此, 基于日度数据, MSCI Barra 公司开发出了一套新的中国股票市场的风险模型, 叫做 CHE2.CHE2 的前一代产品叫做 CHE1,CHE1 中的数据频率是月度, 相较于 CHE2 则无法更加快速, 有效地对市场风格变化做出判断.
除了上述数据频率的区别外, CHE2 与 CHE1 所覆盖的股票池也有不同之处. 如何去定义 "中国股票市场" 究竟包含哪些股票板块从来都是非常有争议的, 关键点在于, 香港的 H 股应不应该与中国大陆的 A 股和 B 股一起被划入中国股票市场. 尽管有一些在中国内地运营的公司在香港上市(H 股与红筹股), 但是大多数大陆的公司还是在上海和深圳交易所上市. 从建模的角度, 对于这些运营与上市地点分别在内陆和香港的公司, 还是很有必要对它们单独建立模型. 因此, 尽管 CHE1 把 H 股囊括在股票池中, CHE2 的股票池还是仅限于 A 股与 B 股.
本文下面将着眼于 CHE2 模型的建立, 并将其与 CHE1 模型作出细致的对比. 第二章将简略地介绍股票风险的因子模型, 以确保后续章节中内容更易于读者接受. 第三章将对 CHE2 的股票池作更细化的解析, 同时描述了 CHE2 中用于预测的数据. CHE2 模型的因子们揭示了股票间共通的特征, 这些因子被分成两类: 行业因子与风格因子. 行业因子用于描述股票所处行业对风险的影响, 第四章中将会阐述模型中行业分类的原理. 风格因子用于描述股票间行业因素以外的共同风险因子的来源, 第五章中将会阐述 CHE2 中风格因子的选取. 第六章将阐明如何将日度因子收益用于风险预测. 第七章的主题是特殊风险预测, 特殊风险是风险中与共同风格因子无关的部分, 随股票的不同而不同, 而且是可以被分散的. 第八章将展示模型的表现情况. 第九章将指导 CHE1 模型的现使用者如何转变去使用 CHE2. 最后一章会对全文进行回顾和总结.
二, CHE2 因子模型
1. 为什么需要建立因子模型?
股票组合的风险取决于组合股票间的相关性. 从数学上来说, 如果组合的风险被定义为组合收益率的 (年化) 标准差, 则股票收益率的协方差矩阵包含了衡量风险的所有信息, 即组合风险为:
其中是股票权重的列向量. 例如, 如果组合持有第五支股票的总额占总组合的 2%, 则. 如果组合中没有某只股票, 那么这支股票对应的权重则为零.
预测股票组合风险的一个非常困难的问题是: 股票间相关关系需要非常大量的数才可以被完整描述. 假如市场中已经发行了支股票, 那么这个市场所有股票的协方差矩阵就是一个的对称矩阵. 比如在一个有 1,000 支股票的市场中, 想要预测风险就必须同时预测任意两只股票间的相关性, 也就是说大概需要预测五百万个数. 再进一步, 如果想基于日度历史数据来做预测, 那么这个风险模型必须至少有这 1,000 支股票的超过 500 个交易日的数据才可以. 事实上, 如果希望做出较为准确的预测, 那么最好用超过 10 年的数据, 但是在多变的中国股票市场中, 这显然是不可行的. 所以, 如果希望得到良好的预测效果, 如何更加有效的利用数据是关键.
另一方面, 且不说数据是不是可以被有效利用, 对数据不加判断就强行使用是更加危险的事情. 意外事故很容易曲解原始的历史风险, 例如, 如果过去某时刻, 在一家公司报告了良好的业绩的同时, 另一家公司恰好遭遇丑闻, 这一时间上的巧合会使我们在后来分析历史数据时发现两家公司的股票是可以对冲的, 但事实却是这仅仅是历史的巧合而已.
2. 因子模型
通过一些相对数量较少的共同因子来分解收益率, 因子模型都可以很好地解决对于上节所说的两点, 即如何有效利用数据和如何有效减少历史事故的影响. 因子的收益率, 通过风险暴露与个股收益率关联. 因子模型通过下面方程的形式将股票收益率分解:
这个方程将的收益率列向量 r 分解为两个部分: 一是共同因子部分, 它是 N×M 的风险暴露矩阵与的因子收益率列向量的乘积, 二是特殊收益部分. 在理想情况下, 如果因子模型表现优秀的话, 那么一只股票的特殊收益将会与其它股票的特殊收益在统计上独立, 因此组合的总体特殊风险可以会被分散化, 增加组合的股票数量可以降低特殊风险. 同时要通过控制组合中个股因子的风险暴露来对冲因子风险.
因子模型对风险的预测为:
上式中将组合的协方差矩阵重新分解为共同因子风险和特殊风险两个部分, 其中共同因子风险包含共同因子收益率协方差矩阵的预测值, 特殊风险包含特殊收益率协方差矩阵的预测值. 是的矩阵, 体积相比于所有股票的协方差矩阵来说小了很多, 而则是对角矩阵(如果我们忽略同一公司发行的不同股票间的关系的话), 只有个非零项需要估计. 因此, 整体而言, 需要预测估计变量的数目在因子模型中急剧减少, 可以很有效地评估横截面上股票间的相关性.
3. 风险模型的因子
在市场中, 相似的股票有一些共通的特征, 以致于经常会有相似的收益率, 模型中的因子们正体现了这些特征, 其中一个最基本的特征就是行业. 比如说, 相比于其它行业股票来说, 一个 IT 公司的股票肯定要与同行的股票更相似, 从而有更接近的收益率. 反映在模型中, 我们可以给所有的 IT 公司股票赋予一个 IT 行业因子的暴露, 其它行业的股票则有, 但其所在行业的行业因子暴露为 1. 在因子协方差矩阵 F 中会体现行业与行业之间的关系.
类似的, 例如估值 (如 PB 或 PE) 或者规模 (如股票市值或总资产) 这些特征也可以作为股票相似性的划分条件. 与行业因子不同的是, 这些因子被称为风险因子.
4. 因子回归
为了估计因子协方差矩阵 F, 因子的历史收益率是必须的, 从历史值中我们可以得到因子间的统计关系. 方法则是用历史上股票的收益率对各因子作多元回归.
用于回归的一篮子股票叫作估计股票池. 在 CHE2 模型中, 估计股票池由所有 A 股的股票组成, 并剔除上市不满一个月的股票和最近 12 个月中 "被 ST" 的股票. 历史上 CHE2 模型的估计股票如表 1 所示:
表 1
因子的回归可以找出对股票收益率解释力最强的因子, 从数学上说, 即选出最小比加权平均误差最小的因子:
此式对所有股票遍历求和. 回归中的权重股票流通市值的平方根, 这样可以保证体量越大的公司对因子模型的影响越大, 也可以保证因子收益率不被几只市值非常之高的股票的特殊收益所过分影响.
在这里对 "市值" 一词作出特别注释: 在本文中, 名词 "市值" 总是指上市公司总市值中可交易的部分, 即流通市值. 原因是国有上市企业的大部分股权由政府所有, 使得我们很难分析公司整体.
5. 稀疏行业修正
尽管在上一节中, 我们用流通市值平方根加权的方法作回归, 但在一些股票数量较少的行业中, 如此处理权重还是不甚理想. 换句话说, 在一个行业中, 对因子收益率有贡献的有效股票数量可能非常少. 在这里, 我们用简单的贝叶斯先验方法来进行稀疏行业的修正.
在 CHE2 中, 在有需要的情况下, 应该进行稀疏行业修正. 我们设一个行业中的 "有效" 上市公司数量为
上式是对行业内的所有上市公司求和. 其中
是行业中所有股票回归权重之和. 如果一个行业包含的股票数量小于 5, 那么应在行业中加一个代理股票, 它的收益率与市场基准的收益率相同, 权重为
此代理股票没有非零风险因子暴露. 在一个行业还没有一只股票的时候, 这个行业的因子收益率则与市场收益率一致. 这样一来稀疏行业修正达成了减少特定股票对行业因子收益率的影响的目的.
6.B 股与 B 股次级回归
CHE2 模型的估计股票池只包含 A 股, 因此还没有为 B 股的两个风险因子建立模型. 这两个 B 股的风险因子分别为 BUNIV 和 BSZSE, 其中 BUNIV 用于区别股票是 B 股还是 A 股, BSZSE 用于区别股票是否是深圳交易所的 B 股, 这两个因子的估计模型为次级回归. 首先,
其它模型的股票的收益率减去其因子收益率生成残差项, A 股模型的残差项即为特殊收益率. 而 B 股模型则是在首级回归完成后, 再以残差项作为因变量进行第二次回归, 权重与首级回归相同. B 股的次级回归的估计股票池由所有 B 股组成, 但也要删去上市不足一月的新股和近 12 月内 "被 ST" 的股票. 残差项对 BUNIV 和 BSZSE 回归后的残差项即为 B 股的特殊收益率.
来源: http://blog.sina.com.cn/s/blog_e84ac6190102xcw1.html