金融工程高智威|智能化选基系列之六：如何用AI选出持续跑赢市场的基金？

　　机器学习选基背景概述

　　本篇报告是国金证券金融工程团队智能化选基系列的第六篇，在本篇报告中，我们将机器学习方法应用到了基金研究中。量化选基主要从基础特征、业绩动量、持有人结构、交易特征等角度进行因子构建，目前普遍的方法是对因子进行等权合成。然而，此方法难以捕捉因子之间的非线性关系，还面临合成时的多重共线性问题，在不同的市场环境下，选基因子难以长期有效。随着基金数量和规模的激增，使用机器学习进行基金优选前景日益广阔。近些年，机器学习选基在学术界亦有着丰富的研究成果。

　　机器学习模型进行量化选基

　　我们基于文献中提出的表现突出的因子，结合团队智能化选基系列报告构建出来的优秀因子，从六因子模型、业绩动量、基金基础特征、资金流、交易动机、财务报表等多角度进行因子构建。

　　在模型选择和标签构建上，由于树模型相对于神经网络模型更适合处理规模不大的数据，并且泛化能力更强，我们使用随机森林、XGBoost和LightGBM模型来预测基金在下个月跑赢偏股混合型基金指数的概率，并最终进行等权合成为机器学习选基因子；若基金的月度收益率能够战胜基准，则记录为1，反之则为0。我们结合因子在样本内的特征重要性和线性表现构建了22个机器学习基础因子。三大机器学习模型构建出的因子表明了基金在下个月能够战胜偏股混合型基金指数的概率。

　　在具体训练上，采用滚动学习和5折交叉验证的方式，为避免偶然性，模型因子为取5个随机种子平均后的结果，单次滚动时样本内合计时长为94个月，样本外时长为3个月。整体来看，模型训练集、验证集和测试集占比大约为75%、20%和5%

　　基于机器学习模型的AI智选基金组合构建

　　为了对比和线性模型的表现，我们将22个因子进行等权线性合成，并在样本外做了因子检验，发现因子IC相较于合成前未有明显增强，与机器学习因子相比未见明显优势。从多头超额净值表现来看，机器学习因子稳定性优于线性因子。

　　我们将上述三大机器学习模型因子进行等权合成，合成后的AI智选基金因子IC均值为3.03%，t统计量为1.27，多空Sharpe比率为0.83，多空最大回撤率为10.33%、多头年化超额收益率为4.82%。合成后的因子分位数组合比单个机器学习因子单调性更好。从策略表现上看，随机森林、XGBoost和LightGBM三大机器学习模型选基策略在每一个完整年度（19-23年）都可以获得正的超额收益。总体而言，XGBoost和LightGBM模型的年化收益率更好，最大回撤率更低，使用合成后的AI智选基金因子构建策略，发现策略超额净值稳定，跑赢基准显著。

　　机器学习模型的因子因为用类似的逻辑得出，模型架构相似，故而相关性较高，与线性模型相关性多在0.75以下。

　　AI智选基金组合自2019年2月至2024年4月，获得14.35%的年化收益率，相对于偏股混合型基金指数获得了5.54%的年化超额收益率，信息比率达到1.02，超额净值最大回撤率仅有6.59%。策略月度平均双边换手率为35.43%。分年度来看，AI智选基金因子每一完整年度都可以稳定战胜偏股混合型基金指数，在过去5年里除了2021年以外都可以明显战胜线性因子，在市场回调下表现优异。超额收益相对单一机器学习模型更加稳定。

　　风险提示

　　以上结果通过历史数据统计、建模和测算完成，历史规律不代表未来；在市场环境发生变化时，模型存在失效的风险；策略依据一定的假设通过历史回测数据得到，当交易成本或其他条件改变时，可能导致策略收益下降甚至出现亏损。基金相关信息及数据仅作为基金研究使用，不作为募集材料或者宣传材料。

同花顺-圈子