行情數(shù)據(jù)方面,分為歷史行情部分,以及實時行情部分,如果采用自己進行獲取處理加工的方式,難度不小,第一需要考慮獲取到的數(shù)據(jù)格式是否可以直接進行調(diào)用,不必要進行加工存儲?
量化交易從哪里獲取數(shù)據(jù)
我們做量化是為了進行規(guī)律與歷史價格之間的關系研究,所以,我們進行行情數(shù)獲取后,一般都是先進行行情數(shù)據(jù)的存儲,為之后的研究行為給鋪路。
存儲的數(shù)據(jù),首先要進行包含完整性,是否有錯誤等,需要進行數(shù)據(jù)質(zhì)量的檢查,而且還會根據(jù)自身策略的運算規(guī)則需要進行特定數(shù)據(jù)的運算合成,比如某個時間級別如30秒鐘,1分鐘,等等級別數(shù)據(jù)的合成。也包含某些特色數(shù)據(jù)的合成,如因子類數(shù)據(jù),
其實量化交易最難的一部分也在這里,如果你不了解就會很難,
而且,量化交易的數(shù)據(jù)使用是有兩個層面的。
一個是研究層面,
這個部分一般采用歷史行情數(shù)據(jù)就可以了,除去TICK級、秒級、分鐘、小時、日線等級別基礎數(shù)據(jù)之外,一些數(shù)據(jù)服務商還提供特別數(shù)據(jù),比如因子數(shù)據(jù),輿情類數(shù)據(jù)、還有一些特別用處的場外數(shù)據(jù)等等,還有一些盤口訂單流類型的策略需求較為特珠的歷史逐筆行情數(shù)據(jù)等等,
研究層面的數(shù)據(jù)大多可以通過一些免費API或者向數(shù)據(jù)服務商進行付費獲取,我甚至有在某寶看到售賣,但不知質(zhì)量如何,想來如果僅僅是做研究之用,歷史部分的數(shù)據(jù)應該不會差到哪里去,實在不行可以多買幾份不同服務商的數(shù)據(jù)進行校對。
另一個是實盤層面,
這個層面的數(shù)據(jù)指的是實時行情數(shù)據(jù),包含標的的實時價格、成交量、盤口訂單委托方向、數(shù)量等等。實盤層面的行情數(shù)據(jù)獲取,幾乎已經(jīng)國內(nèi)有行情分發(fā)資質(zhì)的一些數(shù)據(jù)服務商給壟斷了,如WIND,通聯(lián),Choise等等。這種數(shù)據(jù)比較在乎質(zhì)量以及響應速度,因為模型的最終指令信號是會過由這部分數(shù)據(jù)進行計算判定的。所以容不得失誤。
學姐可以把當時上岸的備考規(guī)劃給你。少走1個月的彎路,同時我把備考的資料分享給大家,都是課程的內(nèi)部資料,大家需要的可以戳下面卡片領取↓↓↓

本質(zhì)上來說,數(shù)據(jù)質(zhì)量的好壞,在于你獲取數(shù)據(jù)來源的是否更靠近交易所一手數(shù)據(jù)來源,因為所有的數(shù)據(jù),不論是實時行情部分還是歷史行情部分,最初都是由交易所進行發(fā)布的,當然一些數(shù)據(jù)服務商比較用心,將這部分數(shù)據(jù)進行了存儲加工了,在得到交易所和監(jiān)管部門授權的背景下,進行了售賣與行情分發(fā)。
劃重點講,如果你比較關注在意數(shù)據(jù)的質(zhì)量,那就應該盡量向高一級分發(fā)資質(zhì)的數(shù)據(jù)服務商進行購買,如果不是挺在意,那獲取的渠道就是多種多樣了,知乎上很多的數(shù)據(jù)服務部商喜歡打廣告,有很多的傳送門的,只需要一搜便出現(xiàn)了。但不一定是你想用的,不要急著繳納他們昂貴的年費,認真的停下來思考下,我的策略是否已經(jīng)定型了,獲取的數(shù)據(jù)層面是否還需要有大的變動,去決定是否購買,畢竟數(shù)萬每年的價格,也不少。
交易所行情數(shù)據(jù)的分發(fā),也是公開對外報價的,我記得不錯的話,以股票行情舉例,上交所和深交所的價格,5年前大致是在100萬/每年,不知時今的報價如何。
所以建議還是根據(jù)自身策略的需要,進行數(shù)據(jù)的獲取收集與存儲,
其實我們進行量化交易,不外乎會通過兩種形式進行研究、實盤交易。
第一種,采用三方量化平臺,一般是使用三方量化平臺封裝的數(shù)據(jù)API,通過獲取數(shù)據(jù)的函數(shù)直接進行數(shù)據(jù)的調(diào)用,當然各個三方量化平臺的數(shù)據(jù)質(zhì)量參差不齊,推薦老牌量化平臺機構,股票可以推薦恒生,迅投系列的券商PB量化軟件。期貨可以采用文化與交易開拓者或者金字塔之類的三方量化軟件服務商,當然新生代的聚寬之類的web端的量化平臺也是不錯的,
第二種,使用python語言環(huán)境或其它語言進行開發(fā)研究。這種的話,相對來說就比較麻煩一些,所有的數(shù)據(jù)首先要到處尋找可用的API進行數(shù)據(jù)的實時接收,不論是通過規(guī)范的API接口,或是通過爬蟲(不建議)技術進行獲取,獲取到數(shù)據(jù)的第一時間,一般都會對該部分數(shù)據(jù)進行格式調(diào)整或是本地化存儲的。
雖然之后的使用會更靈活,但無形之中會加大量化交易研究或交易環(huán)節(jié)過程中的人員以及精力支出。如果是較為高頻一點的策略,我建議關注的點首先是數(shù)據(jù)質(zhì)量上,比如精準度,響應延時,其次才是策略本身的算法之類,研究的過程是有先后的。
兩種形式相比較,前者更適用于個人研究,不具備時間、精力、金錢的個人玩家,后者更適用于團隊分工合作形式的專業(yè)機構,如果拿開店舉例,前者類似于開一家加盟店,優(yōu)點是什么基本該有東西都有人給你準備好了,缺點就是不靈活,不生動。后者就是個體商鋪,更煩心,但優(yōu)點就是更自由,更有施展你天馬行空想法的可能性。
順帶說一句,不論哪種數(shù)據(jù)獲取形式,扎實的程序、數(shù)據(jù)庫知識,以及對金融證券交易基礎知識是必備的。不要想著我以前就是一程序員,立馬轉(zhuǎn)型成量化交易員是否具備這種可能性,我認為是很難的。
最后講一下,一些其它市場的數(shù)據(jù)獲取,
比如美股,美股市場的量化交易數(shù)據(jù),其實國外放得比較開,很多數(shù)據(jù)也是免費的,所在的券商一般者會提供相應的數(shù)據(jù)API,比如盈透、老虎證券這種美股券商都是有的,如果你只是用來做個研究什么的,也可以找新浪要去(新浪是初學者大多愛好在這里BA),但精細化的數(shù)據(jù)加工成本確實挺多的,一般也會收費,具體多少你可以咨詢一下你所在的券商客戶MM。
期權數(shù)據(jù),這種也是由交易所原初提供的,軟件與行情數(shù)據(jù)服務商進行分發(fā),像上面提到的的WIND這些一定是有的,一些三方期權平臺也是有可能會打包售賣的,比如真格量化平臺。
總的來說,數(shù)據(jù)的獲取來源多種多樣,大神有實力的一般自己動手豐衣足食,努力學習期的朋友一般喜歡借用力量,不管選擇哪種方式,都得先參考自已的量化交易策略,需要用到什么,考慮清楚后,決定用什么,總有一款適合你。
高頓教育
精彩內(nèi)容已結(jié)束,欲知更多CQF考試相關內(nèi)容,請移步【報考指南】欄目!一鍵輕松GET最新CQF報名流程、考試內(nèi)容、證書獲取全面信息!CQF(量化金融分析師)考證新征程,高頓教育CQF陪您一起走過!