“在日內以及1個交易日的時間尺度上,不論是中證500還是滬深300的價格走勢均不為隨機游走且走勢強自相關,也就是說在中高頻這個頻段上,市場尚未達到弱有效、價格本身存在規律性,所以中高頻的量化模式識別仍具有盈利空間?!?/span>

 

“不管是中證500期貨還是滬深300期貨,機器學習策略的夏普均顯著高于隨機信號策略,說明機器學習可以有效的從歷史數據中學到量價規律?!?/span>

 

“我們的優化主要在三個方向。第一,在因子構造層面引入了北上數據,第二,在機器學習層面引入了LSTM模型,第三,我們把策略從時間序列維度拓寬到了橫截面維度?!?/span>

 

“量化選股和主動投資的目的是一致的,都是希望找到基本面優質的公司,并把錢投向這些公司。只是在價值發現的過程中,量化模型會更頻繁地尋找市場中的價值洼地,并不斷對自身交易進行糾錯,因此導致的一個結果是量化的交易頻率會高于主動?!?/span>

 

10月中旬以來市場呈現低波動的震蕩格局,整體市場環境對股指策略較為不利,但我們預計當指數的波動率恢復時,策略也將恢復其凈值彈性?!?/span>

 

以上是朱雀基金量化組組長章曉玨1218日在朱雀基金“贏在終局”2022年度策略會上發表的觀點。以下是我們整理的演講實錄。

 

大家好,我是朱雀基金專戶投資部投資經理章曉玨。

 

在前兩年的策略會上,我們向大家介紹了什么是CTA策略、我們的CTA投資理念以及對策略的一些優化方案。這里請允許我再花兩分鐘時間,再和大家簡單介紹下CTA策略。

 

我們今天所要講的量化CTA,其實就是通過量化的手段來建立交易模型,然后由模型給出期貨標的價格走勢的漲跌判斷,從而在期貨上進行做多、做空或多空雙向的操作。最終的目的是賺取絕對收益。目前CTA的投資范圍主要在股指期貨、大宗商品期貨和國債期貨三大類。在投資策略上,我們主要利用機器學習來做模式識別從而給出價格預測。

 

模式識別CTA介紹

 

那首先什么是基于模式識別的CTA?這里展示了一個簡單的例子。假設當前我們站在2021820日的收盤時刻,我們如何來決策后續是在中證500上做多還是做空?

 

對于量化投資經理來說,我們的判斷是建立在對歷史數據的回看上的,我們認為歷史可以重演,所以一個思路就是,我們可以從歷史數據中尋找和當前價格走勢相似的歷史片段,并且根據這些歷史片段此后的指數走勢,來判斷當前指數的未來走勢。

 

這里我們以價格走勢之間的歐氏距離來衡量歷史片段與當前走勢的相似度。通過數據挖掘,我們發現12年的1212號、13年的14號和今年的32號等交易日的日內走勢和今天非常接近。找到了相似的歷史片段后,我們就可以統計這些歷史片段后續指數的漲跌分布。從下圖中我們可以看到,在所有走勢和今天接近的交易日里面,有63%的交易日在第二天是上漲的,也就是說站在當下,明天上漲的概率大于50%,我們可以發出開多的交易指令。

                                             章1.png

注:日內模式匹配度最高的10%樣本未來一日走勢統計

 

 

當然這只是一個簡化的例子,我們想要說明的是模式匹配型CTA的核心在于從歷史數據中去發掘大概率會發生的量價規律,再在實盤的時候根據市場的變化來進行規律的匹配,從而從歷史數據中獲得對未來的啟示。

 

前面的例子里我們只是以價格走勢這一個維度來定義市場特征,實際上我們在實盤中會從價格、波動率、趨勢性、盤口掛單情況等多個維度來定義所謂的“模式”,每一個維度都是一個可以刻畫當前市場特征的因子。之后我們會用機器學習模型來從歷史數據中學習不同的市場特征下未來的漲跌規律,從而把多維的特征矩陣壓縮成一個對后市的漲跌概率預測。

 

模式識別CTA的盈利前提

 

在前面的例子里,模式識別型CTA要想盈利其實隱含了兩個串聯的先決條件,第一是價格的時間序列本身要存在一定規律,第二是機器學習模型要能夠從歷史數據中挖掘出有效的規律,而不僅僅是在過度擬合。接下來,我們分別來回答這兩個問題。

 

首先第一個問題,價格的時間序列里真的存在規律嗎?弱有效市場假說認為當前的證券價格已經反應了所有歷史信息,所以價格未來的走勢接近隨機游走,無法通過歷史數據被預測。但實際上是否真的是這樣?

 

這里我們測算了寬基指數在日內不同頻率以及在1天、2天一直到10天的隨機性和自相關性。表格的第一行和第二行展示了隨機性檢驗的結果,其中第二行的p值越小,則說明價格走勢越不具有隨機性。第三行和第四行展示了自相關性檢驗的結果,同樣第四行的p值越小,就說明價格走勢的自相關性越強。

 

章2.png

來源:朱雀基金,天軟科技

 

我們可以看到在日內以及1個交易日的時間尺度上,不論是中證500還是滬深300的價格走勢均不為隨機游走且走勢強自相關,也就是說在中高頻這個頻段上,市場尚未達到弱有效、價格本身存在規律性,所以中高頻的量化模式識別仍具有盈利空間。但是如果我們把持倉周期拉長到2天以上,則市場的有效性得到了大幅的提升,這主要歸功于主動研究員對上市公司基本面的深入研究糾正了長周期上的錯誤定價。

 

接下來我們再來看一下商品上的情況。這里我們挑選了一些代表性品種。我們可以看到商品期貨價格在日內具有較強規律性,同時在3~5天持倉期上也有一定弱規律?;谏鲜鼋Y果,我們認為在日內及隔夜頻率上,市場尚未達到弱有效,價格走勢仍具有規律性。

 

章3.png

來源:朱雀基金,天軟科技

 

其次第二個問題,機器學習能有效地學到價格規律嗎?這里我們用蒙特卡洛模擬法來生成隨機信號作為對照組,其中用于產生隨機信號的概率分布和實盤機器學習策略的信號分布保持一致,并且模擬策略在信號生成后采用和實盤策略一樣的交易邏輯,如此模擬1萬次來測試在隨機信號下CTA策略的夏普情況。

 

下面兩個圖中的灰色柱狀圖是這1萬個隨機模擬策略的夏普分布,紅線是我們實盤機器學習子策略的夏普,我們可以看到,不管是中證500期貨還是滬深300期貨,機器學習策略的夏普均顯著高于隨機信號策略,說明機器學習可以有效的從歷史數據中學到量價規律。

 

章4.png

來源:朱雀基金

 

CTA優化之路

 

到這里我們已經論證了價格模式存在規律,并且用機器學習可以從歷史數據中找到規律,所以我們的模式識別策略是具有盈利基礎的。

     

今年我們的優化主要在三個方向。第一,在因子構造層面引入了北上數據,第二,在機器學習層面引入了LSTM模型,第三,我們把策略從時間序列維度拓寬到了橫截面維度。后面我們會具體展開來講這三個方向。

 

章5.png 

首先,我們認為相比于因子算法上的優化,一個好的數據源是可以提供更多的alpha的,這也是為什么我們在今年引入了分鐘級別的滬深港通數據。

 

近幾年北上資金已經成為了A股市場中一股不可忽視的力量,這一方面是由北上資金本身的資金體量決定的,近幾年北上占兩市成交額的比例持續提升,另一方面,由于北上資金往往被認為是“聰明錢”,所以一些投資者會選擇跟隨北上資金進行交易,而這又會強化北上資金的風格偏好,進一步放大北上資金的影響。同時分鐘級別的北上資金流數據可以幫助我們更加精細地刻畫北上資金的交易行為及風格偏好,是對原有實盤因子庫的一個有效補充。

 

下面這張圖展示了加入北上資金流因子前后股指策略的夏普變化,我們可以看到在2019年之前,由于北上資金成交占比較低,因此北上因子對策略沒有明顯的信息增益,但在2019年之后,加入北上資金流因子每年都可以顯著地提升策略夏普。

 批注 2021-12-29 161214.png

來源:朱雀基金,萬得

 

我們的第二個優化是引入了循環神經網絡,它最大的特點是保留了金融數據的時間序列特性。這里展示了一種常用的循環神經網絡,LSTM模型的結構。大家可以把它想象成一條時間的河流,在LSTM網絡中過去一段時間的市場特征信息是按從早到晚的順序依次從左向右流動的。最早的特征信息最先進入網絡,在進入下一個神經元后,來自上一時刻的部分信息會經過“遺忘門”被舍棄,同時下一時刻的市場特征信息被注入,并在經過“記憶門”后和上一時刻的信息匯合,一同流向下一個神經元。所以在LSTM中,信息流是按照時間順序從左向右流動的,來自不同時刻的特征信息會在不同節點逐步匯入信息的洪流,最終在讀取了過去窗口期所有時刻的信息后,模型會輸出預測結果。

 

我們之所以會希望保留金融數據的時間序列特性,是因為價格的走勢是路徑依賴的。舉個例子,價格在底部上漲和在頂部上漲時對未來走勢的影響是不同的,底部上漲預示著新一輪行情的開始,而頂部上漲時可能已經到了趨勢的末尾。普通的前向神經網絡只能看到最近時點的市場特征;而LSTM的視野則更為寬廣,它會從左向右完整地讀取過去一段時間的市場演化過程,也就是說它不僅能看到價格在上漲,還能區分當前是在底部還是頂部。另外,LSTM模型在不同時點的參數是共享的,因此相比于前向神經網絡,LSTM的參數更少,更能避免過度擬合。最后,LSTM模型很好的解決了梯度衰減的問題,使模型可以捕獲更早時點的市場特征。

 

u 價格走勢路徑依賴,而LSTM可以保留金融數據的時間序列特征

u 不同節點參數共享,更好地避免過度擬合

 

章7.png

 

u 解決了梯度衰減問題,可以捕獲更早時點的市場特征

章8.png

來源:朱雀基金收集

 

最后,我們在原有的時間序列策略外,開發了全新的商品截面策略,兩者的盈利核心有所不同。時間序列策略試圖預測每個品種在未來一段時間的絕對漲跌,并通過買漲賣跌獲取收益。在時間序列框架下,每個品種的交易信號都是互相獨立的,因此我們可能同時在某一大類品種上做多或做空,并通過品種間的相對波動率來控制倉位。

 

而截面策略試圖預測多個品種在未來一段時間走勢的相對強弱,通過買強賣弱來獲得收益,此時我們在所有品種上的多頭總持倉始終等于空頭持倉,也就是說沒有凈頭寸的暴露。這樣即使處于所有品種單邊上行或下行的極端行情中,買強賣弱的操作也可以捕捉到強勢品種和弱勢品種間漲跌幅的差異,從而給策略帶來收益。

 

章9.png

來源:朱雀基金收集

 

 

值得一提的是,我們的截面策略同時用到了基本面和量價因子,這樣雙管齊下可以使策略既符合產業鏈供需邏輯,又能捕捉到市場中的不合理定價。另外,截面策略的優勢也在于它的多空持倉更為均衡。當商品價格受調控或其他事件性沖擊而突然轉向的時候,各品種的走勢往往趨同,此時時序策略較高的裸多或裸空敞口可能帶來較大回撤。而截面策略多空持倉更為均衡,在極端行情下表現更為穩健。最后由于時序和截面策略有不同的收益風險特征,引入截面策略也能很好的起到分散化作用。

 

量化產品對市場的影響幾何

     

近幾年量化基金已經發展到了萬億規模,這會給市場帶來什么影響?我們認為當前量化交易占全市場的成交量的比例大約在20%左右,在給市場提供流動性的同時,量化交易也在迅速提高市場的有效性。

 

這里我們想要澄清的一點是,量化并不會擾亂市場。實際上,量化選股和主動投資的目的是一致的,都是希望找到基本面優質的公司,并把錢投向這些公司。只是在價值發現的過程中,量化模型會更頻繁地尋找市場中的價值洼地,并不斷對自身交易進行糾錯,因此導致的一個結果是量化的交易頻率會高于主動。但交易本身不是量化的目的,它只是反應了量化不斷尋找并糾正錯誤定價的過程。實際上,因為量化策略整體是理性的,因此在大部分情況下量化交易平抑了市場波動,并提高了市場的有效性。

 

最后,9月以來量化產品均出現了不同程度的回撤,指增產品的回撤一方面是受500指數beta的拖累,另一方面是由于近期市場風格快速切換,同時指增產品賴以獲取收益的盈利、成長等因子發生反向,給超額收益帶來壓力。我們的CTA也在近期出現回撤,但實際上我們的策略在商品上很好地規避了本輪煤價腰斬,我們的回撤主要由股指策略導致。10月中旬以來市場呈現低波動的震蕩格局,整體市場環境對股指策略較為不利,但我們預計當指數的波動率恢復時,策略也將恢復其凈值彈性。

 

 

注:本文件非基金宣傳推介材料,僅作為本公司旗下基金的客戶服務事項之一。

本文件所提供之任何信息僅供閱讀者參考,既不構成未來本公司管理之基金進行投資決策之必然依據,亦不構成對閱讀者或投資者的任何實質性投資建議或承諾。本公司并不保證本文件所載文字及數據的準確性及完整性,也不對因此導致的任何第三方投資后果承擔法律責任。

本文所載的意見僅為本文出具日的觀點和判斷,在不同時期,朱雀基金可能會發出與本文所載不一致的意見。本文未經朱雀基金書面許可,任何機構和個人不得以任何形式轉發、翻版、復制、刊登、發表或引用。