一、简介
《量化投资——策略与技术(典藏版)》是国内少有的有关量化投资策略的著作。《量化投资——策略与技术(典藏版)》用60 多个案例介绍了量化投资的各个方面的内容,主要分为策略篇与理论篇两部分。策略篇主要包括:量化选股、量化择时、股指期货套利、商品期货套利、统计套利、期权套利、算法交易和资产配置等。理论篇主要包括:人工智能、数据挖掘、小波分析、支持向量机、分形理论、随机过程及IT 技术等。最后介绍了作者开发的D-Alpha量化对冲交易系统,该系统全球市场验证显示具有长期稳健的收益率。附录是作者开创性的理论“策略组合模型”,探讨了策略的定义、组合、杠杆、资金容量和资金分配等关键问题。
《量化投资——策略与技术(典藏版)》适合基金经理、产品经理、证券分析师、投资总监及有志于从事金融投资的各界人士阅读。
二、读书笔记
策略篇
第一章 量化投资概念
量化投资就是利用计算机技术并且采用一定的数学模型去践行投资理念,实现投资策略的过程。量化投资的优势在于: 纪律性、系统性、及时性、准确性和分散化量化投资的历史可以追溯到 20 世纪 50年代,最近十年得到了飞速发展,量化投资基金的数量增加值也远远超过了传统投资基金。在国内量化投资基金则是从 2009 年刚刚起步,正处于朝阳阶段。
量化投资的主要内容包括: 量化选股、量化择时、股指期货套利、商品期货套利统计套利、期权套利、算法交易、ETF/LOF 套利、高频交易等。
量化投资的基础理论知识包括: 人工智能、数据挖掘、小波分析、支持向量机分形理论和随机过程。量化投资需要的 技术包括:数据库、数据仓库、面向对多编程等。
量化投资策略从本质上讲是寻找较大概率获胜的机会。那么量化投资必然会观察市场的规律,试图寻找各个因素与未来股票收益之间的关系,并寻找较为成功,即大概率成功的规律。
要从大概率上获取较好的收益,量化投资模型需要着重考虑对资产未来收益看法的估计和辨别,而且主要包括对个股的看法、行业的看法等估计的准确性。对资产未来收益的看法既可以是绝对的收益水平,也可以是相对的收益水平(或称之为 Alpha)。对于共同基金而言,对后者即 Alpha 的估计和预测可能需求更多,量化模型也主要是在寻找最佳的Alpha 模型。
在确定投资品种后,量化投资策略需要考虑具体的交易策略和风险控制策略等方面。有较好的交易策略才能最大程度地降低交易成本(包括佣金、税费及冲击成本等),而通常交易成本对业绩的表现也有重要的影响。交易策略主要解决的问题是冲击成本的问题,假设一只基金买某只股票的成本是 5%,而收益率却达不到这个水平,那么这个投资策略和方法就不可行一一虽然对资产未来收益看法的预测模型很好。
量化投资需要综合考虑资产的鉴别(个股选择、行业配置、资产配置等)、交易(包括择时)和风控(包括对风险收益的平衡等) 等方面因素,寻找到成功概率最大的投资组合,达到收益最大化。
第二章 量化选股
本章中基本面选股介绍了多因子模型、风格轮动模型和行业轮动模型。市场行为选股介绍了资金流模型、动量反转模型、一致预期模型、趋势追踪模型和筹码选股模型。
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。多因子模型相对来说比较稳定,因为在不同市场条件下,总有一些因子会发挥作用。
风格轮动模型是利用市场的风格特征进行投资,比如有时候市场偏好小盘股,有时候偏好大盘股,如果是风格转换的初期介入,则可以获得较大的超额收益。
行业轮动与风格轮动类似,由于经济周期的原因,总有一些行业先启动,有的行业跟随。在经济周期过程中,依次对这些轮动的行业进行配置,则比买入持有策略有更好的效果。
资金流选股的基本思想是利用资金的流向来判断股票的涨跌,如果资金流入,则股票应该会上涨,如果资金流出,则股票应该下跌。所以将资金流入流出的情况编成指标,则可以利用该指标来判断在未来一段时间股票的涨跌情况了。
动量反转模型是指股票的强弱变化情况,过去一段时间强的股票,在未来一段时间继续保持强势,过去一段时间弱的股票,在未来一段时间继续弱势,这叫做动量效应。过去一段时间强的股票在未来一段时间会走弱,过去一段时间弱势的股票在未来一段时间会走强,这叫做反转效应。如果判定动量效应会持续,则应该买入强势股,如果判断会出现反转效应,则应该买入弱势股。
一致预期是指市场上的投资者可能会对某些信息产生一致的看法,比如大多数分析师看好某一个股票,可能这个股票在未来一段时间会上涨;如果大多数分析师看空某一个股票,可能这个股票在未来一段时间会下跌。一致预期策略就是利用大多数分析师的看法来进行股票的买入卖出操作。
趋势追踪是属于图形交易的一种,就是当股价出现上涨趋势的时候,则追涨买入:如果出现下跌趋势的时候,则杀跌卖出,本质上是一种追涨杀跌策略。判断趋势的指标有很多种,包括MA、EMA、MACD 等,其中最简单也是最有效的是均线策略。
筹码选股是另外一种市场行为策略,基本思想是,如果主力资金要拉升一支股票会慢慢收集筹码,如果主力资金要卖出一支股票,则会慢慢分派筹码,所以根据筹码的分布和变动情况,就可以预测股票的未来是上涨还是下跌。
有关量化选股业绩评价要从两个方面来考虑,一个是收益率,一个是风险指数,只是收益率高的策略并不能成为最好的策略,应该综合考虑收益率和风险情况才能判断一个选股策略的好坏。量化选股需要考虑的是在承担多大的风险情况下的收益率情况。
第三章 量化****择时
量化择时就是利用数量化的方法,通过对各种宏观微观指标的量化分析,试图找到影响大盘走势的关键信息,并且对未来走势进行预测。本章一共介绍了 8 种量化择时方法,分别是趋势择时、市场情绪择时、有效资金模型、牛熊线、Hurst 指数、SVM分类、SWARCH模型及异常指标模型
趋势择时的基本思想来自于技术分析,技术分析认为趋势存在延续性,因此只要找到趋势方向,跟随操作即可。趋势择时的主要指标有 MA、MACD、DMA 等,本章讨论了普通均线和自适应均线的择时策略。
市场情绪择时就是利用投资者的热情程度来判断大势方向,当情绪热烈,积极)市时,大盘可能会继续涨:当投资者情绪低迷、不断撤出市场的时候,大盘可能继续下跌。
有效资金模型和选股模型中的资金流模型类似,其是通过判断推动大盘上涨或者下跌的有效资金来判断走势,因为在顶部和底部时资金效果具有额外的推动力
牛熊线择时的思想就是将大盘的走势划分为两根线,一根为牛线,一根为熊线在牛熊线之间时大盘不具备方向性,如果突破牛线,则可以认为是一波大的上涨趋势的到来:如果突破熊线,则可以认为是一波大的下跌趋势到来
Hurst 指数是分形理论在趋势判断中的应用,分形市场理论认为,资本市场是由大量具有不同投资期限的投资者组成的,且信息对不同投资者的交易周期有着不同的影响。利用 Hurst 指数可以将市场的转折点判断出来,从而实现择时。
SVM 是一种分类技术,具有效率高、推广性能好的优点,SVM择时就是利用SVM技术进行大盘趋势的模式识别,将大盘区分为几个明显的模式,从而找出其中的特征,然后利用历史数据学习的模型来预测未来的趋势。
SWARCH 模型是海通证券开发的一种利用宏观经济指标来判断大盘的策略,该模型主要刻画了货币供应量 M2 和大盘走势之间的关系,揭示我国证券市场指数变化与货币供应量之间的相关关系。
异常指标择时主要处理一些特殊情况下的择时,例如,在大盘出现顶点或者低点的时候,有些指标容易出现异常数据,这段介绍了市场噪声、行业集中度和兴登堡凶兆3 个策略。
第四章 股指期货套利
股指期货套利是指利用股指期货市场存在的不合理价格,同时参与股指期货与股票现货市场交易,或者同时进行不同期限、不同(但相近》类别股票指数合约交易以赚取差价的行为。股指期货套利分为期现套利、跨期套利、跨市套利和跨品种套利本章主要阐述期现套利和跨期套利这两种最主流的方式。
期现套利,即股指期货与股指现货之间的套利,是利用期货合约与其对应的现货指数之间的定价偏差进行的套利交易,属于无风险套利。即在买入(卖出)某个月份的股指期货合约的同时卖出(买入)相同价值的标的指数的现货股票组合,并在未来某个时间对两笔头寸同时进行平仓的一种套利交易方式。
(1) 期现套利主要涉及的内容包括定价模型、指数复制、冲击成本、保证金管理这几个部分。跨期套利主要涉及均衡价差判定、套利策略等
①定价模型主要是计算以现货为基础所对应的股指期货市值大小,在扣除所有的成本之后,如果股指期货和现货之间的差距为正,则意味着存在正向套利空间,反向套利的原理也是一样的。
②指数复制是指利用各种方式来构建一个能够尽可能拟合指数的现货组合,包括完全复制和抽样复制这两种。当复制目标是最小化复制差异时(即跟踪误差最小化),称之为被动复制;当复制目标是最大化信息比率时,称之为增强复制。
③冲击成本的全称是价格冲击成本。国际上通常用它来衡量股市的流动性。它也可称为流动性成本,是指一定数量的委托(订单)迅速成交时对价格的影响,因此是一个包含即时性和合理价格两方面要素的指标。
④期现套利中保证金管理具有很重要的作用。在市场出现剧烈波动的时候,尤其是大幅度上涨的行情中,如果保证金覆盖不足,就可能出现爆仓情况。所以,在建仓初始,就需要进行保证金覆盖的测算,使得初始保证金能够在较大的概率下覆盖整个套利期间内的波动。
(2) 跨期套利是指利用两个不同交割月的股指期货合约之间的价差进行的套利交易。一般来说,相同标的指数的股指期货在市场上会有不同交割月的若干合约同时交易。由于同时交易的不同交割月合约均是基于同一标的指数的,所以,在市场预期相对稳定的情况下,不同交割日期合约间的价差应该是稳定的,一旦价差发生了变化,就会产生跨期套利机会
跨期套利的核心在于计算均衡价差,因为不同合约间价差会收敛并趋向于均衡价差,这就是同一标的指数的不同交割月股指期货合约之间存在着的一种平价关系,即远月合约的价值应该是近月合约价值按照远期利率进行复利后加上一个均衡价差。
跨期套利的主要机会包括程序化跨期套利、事件性跨期套利、新合约上市首日套利、老合约退市前几日套利等。
第五章 商品期货套利
商品期货套利主要有期现套利、跨期套利、跨市场套利和跨品种套利 4 种
(1) 期现套利,是利用同一种商品在期货市场与现货市场之间的不合理价差进的套利行为。当期货价格与现货价格之间出现不合理的基差时,套利者通过构建现与期货的套利资产组合,以期望基差在未来回归合理的价值区间并获取套利利润的投资行为。
(2) 跨期套利正是通过观察期货各合约价差的波动,以赚取差价为目的,在期货品种的不同合约月份建立数量相等、方向相反的交易部位,并以对冲或割方式结束交易的一种操作方式。正向市场时,价差为负,表现为远月升水,反向市场时,价差为正,表现为近月升水。一般来说,价差《绝对值) 由持有成本(或持仓费)构成,即指为拥有或保留某种仓单或头寸而支付的仓储费、保险费和利息等费用
(3) 跨市场套利是指在不同市场之间进行的套利交易行为。当同一期货商品合约在两个或者更多市场进行交易时,由于区域间的地理差别等因素,各商品合约存在一定的固有价差关系。但是,由于两个市场的供求影响因素、市场环境及交规则等方面不完全一致,价格的传导存在滞后甚至失真的情况,因此固有价差水会出现偏离。跨市场套利正是利用市场失衡时机,在某个市场买入(或卖出)某一交割月份某种商品合约的同时,在另一个市场卖出 (或买入)同一交割月份的同种商品合约,以对冲或交割方式结束交易的一种操作方式。这种套利可以在现货市场与期货市场上进行,也可以在异地交易所之间进行,其中也包括国内交易所与国外交易所之间。
(4) 跨品种套利是指利用两种不同的,但相互关联的商品之间的合约价格差异进行套利交易,即买入某一交割月份某种商品合约,同时卖出另一相同交割月份相互关联的商品合约,以期在有利时机同时将这两个合约对冲平仓获利。跨品种套利的核心策略是寻找两种或多种不同但具有一定相关性的商品间的相对稳定关系(差值、比值或其他),在其脱离正常轨道时采取相关反向操作以获取利润。根据套利商品之间的关系,跨品种套利可分为相关商品套利和产业链跨品种套利两
种类型。需要说明的是,套利仍是一种投机行为,只要套头没有全部对冲,就存在着风险.这就对套头的正确处理提出了较高的要求。对于套利投机也要像单向投机那样用变化的、动态的眼光去对待,而千万不可用静态的、固定的及僵化的眼光去对待,否则,所谓风险较小的套利也会以损失较大而告终。
第六章 统计套利
有别于无风险套利,统计套利是利用证券价格的历史统计规律进行套利的,是一种风险套利,其风险在于这种历史统计规律在未来一段时间内是否继续存在。
统计套利的主要思路是先找出相关性最好的若干对投资品种(股票或者期货等)再找出每一对投资品种的长期均衡关系(协整关系),当某一对品种的价差(协整方程的残差)偏离到一定程度时开始建仓一一买进被相对低估的品种、卖空被相对高估
的品种,等到价差回归均衡时获利了结即可。统计套利的主要内容包括股票配对交易、股指对冲、融券对冲和外汇对冲交易股票配对交易在方法上可以分为两类,一类是利用股票的收益率序列建模,目标是在组合的B值等于零的前提下实现 Alpha 收益,称为B中性策略;另一类是利用股票的价格序列的协整关系建模,称为协整策略。
股指对冲交易是指利用不同的国家、地区、行业的指数相关性,同时买入、卖一对指数期货的交易方式。在经济全球化时代,国家、地区、行业经济的联系越来越紧密,而代表这些国家、地区、行业的公司之间的关联程度也越来越大,这就使得系统性的风险会造成一荣俱荣,一损俱损的局面。因此进行指数间的对冲交易是一种低风险、高收益的投资方式。
融券对冲就是利用融券进行做空交易的同时,买入现货做多,从而规避系统性风险的一种交易方式,主要包括股票一融券对冲、可转债一融券对冲、股指期货一融券对冲和封闭式投资组合一融券对冲这几种方式。
外汇对冲是指在外汇市场上,同时做多做空两个货币对的交易方式,由于主要经济体时间的经济关联性很强,使得一些货币之间出现同涨同跌现象,给对冲交易提供了可能。其主要包括利差套利和货币对冲两种。
第七章 期权****套利
期权的优点在于收益无限的同时风险损失有限,因此在很多时候,利用期权来取代期货进行做空、套利交易,会比单纯利用期货套利具有更小的风险和更高的收益率。
利用期权的各种组合,有多种套利方法,包括股票——期权套利、转换套利、跨式套利、宽跨式套利、蝶式套利和飞鹰式套利等.
(1) 股票和期权的套利组合有两种:一种是做多股票的同时买入认沽权证;另外-种是做空股票的同时买入认购权证,分别用多头套利和空头套利来表示。
(2) 转换套利是指在买入看跌期权、卖出看涨期权的同时,买入相关期货合约的交易。其中看涨期权和看跌期权的执行价格和到期日是相同的,相关期货合约的交割月份与期权合约的到期月份也是相同的。
(3) 跨式套利,也叫马鞍式期权、骑墙组合、等量同价对敲期权、双向期权、底部跨式期权,是指以相同的执行价格同时买进或卖出不同种类的期权。跨式套利包括买入跨式套利和卖出跨式套利两种。
(4) 宽跨式套利也叫做异价对敲或勒束式期权组合,是投资者同时买进或卖出相同标的物、相同到期日,但不同执行价格的看涨期权和看跌期权。根据投资者买卖方向的不同,宽跨式套利可以分为买入宽跨式套利与卖出宽跨式套利。
(5) 蝶式套利是利用同时买进和卖出同一商品、同一到期月份,但不同敲定价格的看涨或看跌期权合约进行套利。蝶式套利由两个买卖方向相反,共有一个相同并居中的执行价格的套利交易所组成。
(6) 飞鹰式套利,也叫秃鹰式套利,是指分别卖出(买进)两种不同执行价格的期权,同时分别买进(卖出)较低与较高执行价格的期权。所有的期权都有相同的类型、标的合约与到期日,执行价格的间距相等。
第八章 算法交易
根据各个算法交易中算法的主动程度不同,可以把算法交易分为被动型算法交易、主动型算法交易、综合型算法交易三大类。
(1) 被动型算法交易除利用历史数据估计交易模型的关键参数外,不会根据市场的状况主动选择交易的时机与交易的数量,而是按照一个既定的交易方针进行交易该策略的核心是减少滑价(目标价与实际成交均价的差)。被动型算法交易最成熟,使用也最为广泛,如在国际市场上使用最多的成交量加权平均价格(VWAP)、时间加权平均价格(TWAP)等都属于被动型算法交易。
(2) 主动型算法交易也叫机会型算法交易。这类交易算法根据市场的状况做出实时的决策,判断是否交易、交易的数量、交易的价格等。主动型交易算法除了努力减少滑价以外,把关注的重点逐渐转向了价格趋势预测上。如判断市场价格在向有不利于交易员的方向运动时,就推迟交易的进行,反之加快交易的速度。当市场价格存在较强的均值回归现象时,必须迅速抓住每一次有利于自己的偏移。
(3) 综合型算法交易是前两者的结合。即包含既定的交易目标,具体实施交易的过程中也会对是否交易进行一定的判断。这类算法常见的方式是先把交易指令拆开,分布到若干个时间段内,每个时间段内具体如何交易由主动型交易算法进行判断。两者结合可以达到单独一种算法所无法达到的效果。
VWAP 策略是最常用的交易策略之一,具有简单易操作等特点,基本思想就是让自己的交易量提交比例与市场成交量比例尽可能匹配,在减少对市场冲击的同时,获得市场成交均价的交易价格。
标准的 VWAP 策略是一种静态策略,即在交易开始之前,利用已有信息确定提交策略,交易开始之后按照此策略进行交易,而不考虑交易期间的信息。
改进型的 VWAP 策略的基本原理是: 在市场价格高于市场均价的时候,根据市场价格的走势,不同程度地减少提交量,在保证高价位的低提交量的同时,能够防止出现价格的持续上涨而提交量过度向后聚集;在市场价格低于市场均价的时候,根据市场价格的走势,不同程度地增加提交量,在保证低价位的高提交量的同时,能够防止价格的持续走低而提交量过度提前完成。
第九章 另类套利策略
封闭式基金套利的根源在于折价交易。封闭式基金的长期折价是国际上普遍存在的现象,一般认为这是对投资组合代理问题、流动性问题和信息浑浊问题所要求的补偿。封闭式基金套利的基本原理是根据折价率,买入高折价基金,同时卖出低折价基金,从而实现稳健的阿尔法收益。
ETF 套利是指利用 ETF 在一级市场和二级市场的价格差来进行套利的交易。由于 ETF 同时在两个市场上交易,它具有实际交易价格和资产净值双重属性。在实际交易过程中,由于供求关系等因素,两者可能会出现较大偏差,投资者可以买入便宜的一方,等待两者的靠拢,赚取中间的差价,实现 ETF 套利。
LOF 采用交易所交易和场外代销机构申购、赎回同时进行的交易机制,这种交易机制为投资者带来了全新的套利模式——跨市场套利:当二级市场价格高于投资组合净资产的幅度超过手续费时,投资者就可以从投资组合公司申购 LOF 投资组合份额,再在二级市场上卖出:当二级市场价格低于投资组合净资产时,投资者就可以先在二级市场买入投资组合份额,再到投资组合公司办理赎回业务完成套利过程。
所谓高频交易,是投资银行、对冲基金和专业交易公司利用高速计算机进行程序化证券交易的投资策略的总称。高频交易主要包括流动性回扣交易、猎物算法交易、自动做市商和程序化交易等策略。
理论篇
第十章 人工智能
(1) 机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要应用于归纳、综合,而不是演绎。
(2) 自动推理是按某种策略由已知判断推出另一判断的思维过程,其中已知判断是指包括已掌握的、与求解问题有关的知识及关于问题的已知事实;推理的结论是指由已知判断推出新判断;推理由程序实现,称为推理机。
(3) 专家系统是一个具有大量的专门知识与经验的程序系统,它应用人工智能技术和计算机技术,根据某领域一个或多个专家提供的知识和经验,进行推理和判断,模拟人类专家的决策过程,以便解决那些需要人类专家处理的复杂问题.
(4) 模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程是信息科学和人工智能的重要组成部分。模式识别又常称为模式分类,从处理问题的性质和解决问题的方法等角度,可将模式识别分为有监督的分类和无监督的分类两种。
(5) 人工神经网络又称神经网络或连接模型,它是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
(6) 遗传算法:一组随机产生的初始解,称为群体,群体中的每个个体是问题的一个解,称为染色体,这些染色体在后续迭代中不断进化,称为遗传。遗传算法主要通过交叉、变异、选择运算实现,交叉或变异运算生成下一代染色体,称为后代。染色体的好坏用适应度来衡量,根据适应度的大小从上一代和后代中选择一定数量的个体,作为下一代群体,再继续进化,这样经过若干代之后,算法收敛于最好的染色体,它很可能就是问题的最优解或次优解。
**第十一章 **数据挖掘
数据挖掘主要有分类模型、关联模型、顺序模型、聚类模型等
(1) 分类模型的主要功能是根据金融数据的属性将数据分派到不同的组中。在实际应用过程中,分类模型可以分析分组中数据的各种属性,并找出数据的属性模型,确定哪些数据模型属于哪些组,这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
(2) 关联模型主要描述了一组数据项目的密切度或关系。关系或规则总是用一些最小置信度级别来描述的,置信度级别度量了关联规则的强度。
(3) 顺序模型主要用于分析数据中的某类与时间相关的数据,并发现某一时间段内数据的相关处理模型。
(4) 聚类模型即按照某种相近程度度量方法将用户数据分成互不相同的一些分组。聚类即一系列相近数据组成的分组的集合,每一个分组中的数据相近,不同分组之间的数据相差较大。
数据挖掘的主要方法有:神经网络、决策树、联机分析处理、数据可视化等。
数据挖掘在量化投资中主要有利用聚类技术进行股市规律挖掘,以及基于关联规则的板块轮动等。
把通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息称为模式,把模式所属的类别或同一类中模式的总体称为模式类。利用聚类技术进行股市规律研究,就是将股市走势分成不同的模式,从而可以进行相应的交易策略。
在股价波动的过程中,整个市场并不是经常性地普涨普跌,而是呈现出板块轮动涨跌不一的状况。利用关联规则技术,发现股票板块的运动规律及其相互的联动关系就可以在轮动点上进行相应的调仓,从而获得超额收益。
第十二章 小波分析
小波变化的主要内容包括:连续小波变换、小波变化的离散化、多分辨分析与Mallat 算法。
连续小波变换的性质有:线性、平移不变性、伸缩共变性和冗余性
由于连续小波变换存在冗余,因而有必要搞清楚,为了重构信号,需针对变换域的变量进行离散化,以消除变换中的冗余。
Mallat 使用多分辨分析的概念统一了各种具体小波基的构造方法,并由此提出了现今广泛使用的 Mallat 快速小波分解和重构算法,它在小波分析中的地位与快速傅里叶变换在傅里叶分析中的地位相当。
二维小波分解与重构算法,利用其可分离特性,在算法实现时分别由对行进行维小波变换,然后对按行变换后的数据按列进行一维小波变换来完成。
小波变换在量化投资中的案例主要有小波去噪和金融时序数据预测。
但是金融时间序列本身具有非平稳、非线性和信噪比高的特点,采用传统的去噪处理方法往往存在诸多缺陷。而小波理论是根据时频局部化的要求而发展起来的,具有自适应和数学显微镜性质,特别适合非平稳、非线性信号的处理。
采用小波进行金融时序数据预测的原理如下:首先使用 Mallat 算法对数据进行分解,对分解后的数据进行平滑处理;然后进行重构,而重构之后的数据就成为近似意义的平稳时间序列,这样就得到了原始数据的近似信号:最后利用预测模型进行时间序列预测,例如常用的有 AR、MA、ARMA 等。
第十三章 支持向量机
支持向量机这些特点是其他学习算法(如人工神经网络)所不及的。对于分类向题,单层前向网络可解决线性分类问题,多层前向网络可解决非线性分类问题。但这些网络仅仅能够解决问题,并不能保证得到的分类器是最优的;而基于统计学习理论的支持向量机方法能够从理论上实现对不同类别间的最优分类,通过寻找最坏的向量,即支持向量,达到最好的泛化能力。
SVM 总的来说可以分为线性 SVM 和非线性SVM 两类。线性SVM 是以样本间的欧氏距离大小为依据来决定划分的结构的。非线性的 SVM 中以卷积核函数代替内积后,相当于定义了一种广义的距离,以这种广义距离作为划分依据
模糊支持向量机有两种理解:一种是针对多定义样本或漏分样本进行模糊后处理:另一种是在训练过程中引入模糊因子作用。
SVM 在量化投资中的应用主要是进行金融时序数列的预测。根据基于支持向量机的时间序列预测模型,先由训练样本对模型进行训练和完备,然后将时间序列数据进行预测并输出预测结果。
本章介绍的第一个案例是一种基于最小二乘法的支持向量机的复杂金融数据时间序列预测方法,大大提高了求解问题的速度和收敛精度。相比于神经网络预测方法,该方法在大批量金融数据时间序列预测的训练时间、训练次数和预测误差上都有了明显提高,对复杂金融时间序列具有较好的预测效果
第二个案例是利用 SVM 进行大盘拐点判断,由于使用单一技术指标对股价反转点进行预测存在较大的误差,所以使用多个技术指标组合进行相互验证就显得特别必要。SVM 由于采用了结构风险最小化原则,能够较好地解决小样本非线性和高维数问题,因此通过构造一个包含多个技术指标组合的反转点判断向量,并使用 SVM 对技术指标组合向量进行数据挖掘,可以得到更加准确的股价反转点预测模型。
第十四章 分形理论
几种典型的分形包括:三分康托集、Koch 曲线、Julia 集等。分形的维数是重要概念,主要有拓扑维数、Hausdorff 维数、容量维数和相似维数。
分形有很多不同的实现算法,但是具体哪种算法更有效、更实用则要针对不同的情况。分形的描述常用的方法有 L 系统和 IFS 系统两种,从它们所绘制出的分形来说,L 系统要比 IFS 系统简单。L 系统只是简单的字符串的迭代,而IFS 系统在这方面要复杂得多,如 Julia 集等。
分形理论在量化投资应用中,主要是利用分形分布来预测走势的规律。研究表明股市走势满足下面两个法则: (1)每个单位时间内的股票价格变动分布,服从特性指数D≈1.7 的对称稳定分布;(2)单位时间不论取多大或多小,其分布也是相似的。也就是说,适当地改变尺度,就可成为同样的分布。
多重分形理论通过一个标度范围来描述复杂系统的局部特征,能够得到许多被简单分形方法所忽略的信息,被认为是迄今为止最为全面的描述价格波动特征的模型。
多重分形理论一个重要的应用就是 Hurst 指数,Hurst 指数和相应的时间序列分为3 种类型:当H= 0.5 时,时间序列是随机游走的,序列中不同时间的值是随机的和不相关的,即现在不会影响将来;当 0 ≤H≤ 05 时,这是一种反持久性的时间序列,常被称为“均值回复”。如果一个序列在前个一时期是向上走的,那么它在下一个时期多半是向下走,反之亦然。这种反持久性的强度依赖于 H离零有多近,越接近于零,这种时间序列就具有比随机序列更强的突变性或易变性;当0.5≤H≤1时,表明序列具有持续性,存在长期记忆性的特征。即前一个时期序列是向上 (下)走的,那下一个时期将多半继续是向上(下)走的,趋势增强行为的强度或持久性随H接近于1而增加。
第十五章 随机过程
随机过程 (Stochastic Process)是一连串随机事件动态关系的定量描述。随机过程论与其他数学分支如位势论、微分方程、力学及复变函数论等有密切的联系,是自然科学、工程科学及社会科学各领域研究随机现象的重要工具。随机过程论目前已得到广泛应用,在诸如天气预报、统计物理、天体物理、运筹决策经济数学、安全科学、人口理论、可靠性及计算机科学等很多领域都要经常用到随机过程的理论来建立数学模型。
常见的随机过程包括:独立增量过程、泊松过程、维纳过程、正态过程、马尔可夫(Markov)过程等。
在量化投资中,主要采用马尔可夫过程来对股市大盘进行预测,马尔可夫链理论预测的对象是一个随机变化的动态系统,其预测是根据状态之间的转移概率来推测系统未来的发展,转移概率反映了各种随机因素的影响程度,因而马尔可夫链比较适合随机波动性较大的预测问题,但是马尔可夫链要求状态无后效性,且要具有平稳过程等特点。如果灰色 GM(1,1)模型对数据进行拟合,找出其变化趋势,则可以弥补马尔可夫预测的局限性,而在灰色预测基础上进行马尔可夫预测,又可弥补灰色预测对随机波动性较大的数据序列准确度低的不足,因此将二者结合起来将大大提高对股市的预测精度。
第十六章 IT技术
量化投资离不开 IT 技术,无论是基础的数据库和数据仓库,还是在策略分析及后验中,都需要IT 系统的支持,在程序化交易中也是利用软件代码进行自动化交易,所以本章给出了一些有关 IT 技术的概要介绍,主要是与量化投资直接相关的一些技术,包括数据仓库、编程语言等。
数据仓库是近年来兴起的一种新的数据库应用,各大数据库厂商纷纷宣布产品支持数据仓库并提出一整套用以建立和使用数据仓库的产品,如INFORMIXGONGSIDF公司的数据仓库解决方案、Oracle 公司的数据仓库解决方案和 Sybase 公司的交互式数据仓库解决方案等。
国际上许多重要的学术会议,如超大型数据库国际会议(VLDB)、数据工程国际会议(Data Engineering)等,都出现了专门研究数据仓库(Data Warehousing,DW)联机分析处理(On-Line Analytical Processing,OLAP)、数据挖掘(Data Mining,DM)的论文。
对我国许多企业而言,在建立或发展自己的信息系统时常常被这样的问题困扰为什么要在原有的数据库上建立数据仓库,数据仓库能否代替传统的数据库,怎样建立数据仓库,等等。
第十七章 主要数据与工具
本章概要介绍与量化投资有关的主要数据与工具,这里以国内的应用环境为主,侧重介绍能在国内资本市场 (包括证券、期货 ) 进行交易的主要第三方数据与应用商提供的数据与平台。
多因子模型建立的基础就是相似的产品应该有相似的定价。表现在股票上,就是长期来看,除去噪声,相似的股票应该有相似的回报。对于股票而言,相似特质体现在可量化的公共因子上,如市场信息 (价格、成交量、动量)、基本面(市盈率、市净率、市值) 和其他因素 (利率变化、流通性、所属行业)。
多元因子模型的最核心的贡献就是精确地确定和量化这些公共因子,并且定量地描述公共因子和个股或组合收益之间的关系。
第十八章 对冲交易系统:D-Alpha
在真实的交易中,需要将各种策略和理论算法整合起来,发挥各种策略的优势,提高收益率的同时降低风险。
D-Alpha量化对冲交易系统采用了多种选股、择时、套利、程序化交易策略,整合而成的实用性交易平台。
三、小结
策略组合模型(SCM)
SCM模型从另外一个角度探讨资产管理的问题,得出了和CAPM模型不一样的结论:
(1) 证明了一个道理“主动管理是可行的”,因为市场上确实存在一种“低风险/高收益”的策略,虽然它的资金容量不大。传统的 CAMP 和有效市场假说都认为无法通过主动管理来战胜市场,但是笔者认为,这个结论只适合大多数的普通投资者,但是确实由于信息不对称的原因,有一些优秀的策略是可以战胜市场的,当然这种策略所能占据的市场规模是较小的。
(2) 阐述了“赚大钱靠杠杆”的道理,文中通过一个公式证明了,策略的最大回撤越小,所能放大的理论杠杆就越大,从而杠杆后的收益率就越大。同时说明了传统的 CAPM 模型中说的“风险越小、收益越小”的说法是不完备的,正确的说法应该是“风险越小,收益率越小,绝对收益越大”
(3) 阐述了“应该积极的主动控制风险,而不是将风险选择权交给投资者”的道理。根据 CAPM 模型和有效市场假说,过去 40 年资本管理行业被动投资大行其道,这其实是管理人主动交出风险控制权,由投资者根据自己的偏好自行选择相关的被动管理产品。例如风险偏好低的,可以选择大盘指数 ETF,风险偏好高的,可以选择小盘 ETF。但是无论哪种,风险选择权都在投资者手里。笔者认为,作为一个积极的管理人,应该主动控制风险,并且通过对风险的严格控制,放大杠杆来获得更高的绝对收益。