岳书凝邵波王健 摘要:目前我国的量化投资发展迅猛,其中最为热门的便是多因子模型策略。如今已经有不少成功的量化研究是以多因子选股模型为基础,基于打分法构建的模型策略,以实际的应用验证了其可行性。但是多数的多因子模型仍是以投资组合理论为指导进行构建的,而本文考虑到我国国情以及A股的实际情况,则创新性地从市场实际的历史表现数据出发,结合时下最新兴的大数据分析,利用FPGrowth算法发掘多种因子数据表现与收益的关联规则,反向选择出最优因子和最优权重,构建更加针对市场特征的实用型投资策略。 关键词:FPGrowth关联规则算法;多因子打分法模型;因子选择;赋权 尽管从20世纪90年代到现在,我国证券市场日益趋于完善,国内外众多学者提供了很多理论上近乎完美的投资模型,但是在我国目前市场尚无法满足这些模型的严格假设条件下,这些在国外运用成熟的量化投资模型在中国市场上并不定完全有效,真正能应用于实践的并不多。而要想在A股市场上获取成功有效的持续的超额收益,就需要从我国市场的实际情况出发,探索真正符合A股市场的本土化的投资模型。因此,本文将使用FPGrowth关联规则算法研究如何选择有效因子以及如何分配多因子权重,构建一个真正的符合中国A股市场特征的个性化多因子选股模型,构建在我国资本市场上可获得超额收益的投资策略。 一、算法描述和多因子模型 (一)FPGrowth关联规则算法 FPtree的构建,也就是将数据集进行压缩,是一种紧凑的数据结构,与计算机学科中的树结构相似。不同的是FPtree通过链接(link)连接相似的元素,在条件FPtree的基础上进行频繁项集的递归挖掘,频繁模式由条件模式基中去除小于支持度计数的前缀路径组成。此外FPGrowth算法将数据集压缩到FPtree中,从而大大地减少了扫描数据库的次数,以及存储大量候选集的开销。 图1FPtree的实例 (二)多因子模型构建 1。候选因子库的创建 本文考虑到因子指标的普遍性、数据可得性以及区别度等标准,选择并获取如下数据类型并根据FPGrowth算法的原理加以分组分类 表1(时间区间:六个月): 2。数据汇总及预处理 由于各个描述性因子所衡量的单位不同,导致因子数值范围差异较大,因此在进行因子分析之前,必须对其进行标准化,本文将数据进行minmax标准化处理,即是通过对原始数据的线性变换,按照比例缩放,使之落入一个小的特定区间,如〔1,1〕,由此才能进一步导入算法来分析数据。公式近似为: x(xxmean)(xmaxxmin) 3。FPGrowth算法的实现 本文运用Java构造FPtree,创建FPtree的具体步骤如下: 本文运用Java构造FPtree,创建FPtree的具体步骤如下: 首先创建FPtree的根结点,标记为NULL。 对于数据集中的每个事务执行以下操作:对事务中的频繁项按照频繁1项集L中的顺序进行排序,排序后的频繁项表记为IPPI,其中p是第一个元素,而P是剩余元素的表。调用insert。tree{〔pPI〕}。 具体的执行过程如下:如果T有子女N使得Nitemnamep。itemname,则N的计数增加1;否则创建一个新结点N,将其计数设置为1,链接到它的父结点T,并且通过结点链结构将其链接到具有相同itemname的结点。如果P非空,递归地调用insertree(P,N)。 按照支持度递减的顺序建立一一个项头表,这样一颗完整的频繁模式数就构造完成。注:本文根據投资需求,只针对性的获取以A组数据(涨跌幅)为表头,与其他因子的关联度。即排除无关的关联度分析,只得到体现各因子与收益率关系的FPtree。4。经典多因子打分法模型改进考虑到市场的多变性和不同的因子特性,本文将等权重打分改进为赋权打分。经典的多因子打分法模型实质是计算综合因子(得分)即因子标准化后等权重求和的选股过程。本文则根据因子暴露与收益率之间的关系,兼顾因子的偏好方向,成比例地形成投资组合。弥补了经典打分法因权重不定带来的不稳定性。 二、应用与检验 (一)赋权多因子模型的构建 从wind金融终端数据库导出沪深300个股票六个月前(2019。05)的候选数据,将其标准化处理后导入FPGrowth算法进行挖掘,支持度设为50,调仓频率(每月调仓一次)。 得如下结果: 表2算法挖掘的上跌幅与各因子指标结果 关于该结果的解释分析: 1。在支持度下,不存在与A1、A4关联的因子,因此在该时间段多数股票涨跌幅适中,无频繁大涨大跌。 2。由于A2为跌幅分组,所以不列入买点分析范围内。 3。通过计算得出,A3关联占比呈现近似于3:0:2:1。5。即不选择C所代表的因子,且得出因子权重。 在同花顺mindgo平台上,利用多因子打分法策略,加入赋权进行模拟操作。 设定最大持股数(30只)、初始金额(10,000,000元) (二)模型回测结果分析 1。模型回测结果 图2收益曲线 图3权重和等权重收益率对比 2。回测结果分析 在回测期内,改进后的FPGrowth算法赋权多因子模型收益率为9。49,收益率均超过基准收益和等权重模型,且各项指标的表现较于等权重模型均更为优化,可认为改良后模型因子选择及赋权有效,具有更强的盈利能力和普适性。 三、结论和存在的问题 本文通多运用FPGrowth算法,探究指标变化与收益率的直接关系,个性化的挑选最合适的有效因子;同时验证了且采用多因子选股模型时,选取的有效因子权重也不是固定不变的。本文模型可以针对不同的板块、周期、市场的实际情况和宏观经济状况进行不断的更新和调整,以保证其持续有效性,有针对性地获取更个性化的投资收益。同时在模型构建的过程中,也发现了一些日后可进行优化的问题。 由于数据的可得性和计算量限制,只能选取部分指标,今后可以考虑加入更全面的技术指标,如KDJ、BOLL等。考虑到程序运行量较大,数据选取时间范围较小,只能针对短线投资,后续可针对长期庞大数据量改进算法。受到FPgrouth算法的局限性,数据只能进行离散处理,因此不能对数据进行连续性的分析。 四、展望 本文所述可以为量化投资提供一个新的思路,与以往基于经验判断定性选择模型中的因子等权重分配不同,而是运用大数据分析,从市场表现出发,反向思考,创新性的改进经典的多因子打分法策略。该策略除了能够更深程度的运用于量化选股,还可以针对个股特性及其所处在的周期一对一分析,使投资者对于所选中的优质股有更精准的操作。同时基于FPGrowth关联规则算法的多因子打分法选择及赋权改进,還可以扩展向宏观经济分析等其他金融领域,可以实时、准确、多维度、智能化的为政府和研究机构的政策制定、经济分析提供有力的数据支持。甚至可以应用至商业、医疗、教育、农业等其他领域。 参考文献: 〔1〕朱涛。基于FPgrowth关联规则挖掘算法的研究与应用〔D〕。南昌大学,2010(01)07。 〔2〕刘艺。张海涛。刘奇燕。石硕。基于分解数据库的FPgrowth算法关联规则研究〔J〕。计算机与数字工程,2018(07)13061416。 〔3〕苗苗。多因子选股模型在投资组合管理中的应用研究〔D〕。南京审计大学,2018(05):17。 〔4〕杨世林。基于聚宽量化投资平台的股票多因子策略应用杨世林〔D〕。浙江大学,2018(06)。 〔5〕林文强。加性风险模型下量化投资策略及其实现〔J〕科技经济导刊,2019,27(10)46。 〔6〕黄东宾。有效因子综合偏好强度与CVaR整合优化模型〔J〕运筹与管理,2019,03(3)2430。 〔7〕赵子铭。基于有效因子复合检验法的多因子选股策略〔N〕广州航海学院学报,2019,09(3)7478。 通讯作者:邵波(1980),男,杭州,讲师,博士,微生物量化金融研究,量化金融大数据挖掘。