吉野貴晶のクオンツトピックス

No.12
モメンタム&BPR&ROEを入力データとした機械学習モデルの構築と検証

2019年07月31日号

投資工学開発室
吉野 貴晶

金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。

投資工学開発室
髙野 幸太

ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。

AI/機械学習によるモメンタム効果の改良

  • 連載形式でAI(人工知能)と投資手法の関係性を紹介。
  • 引き続き、クオンツ手法の一つであるモメンタムが今回のテーマ。

最近、AI(人工知能、以下AI)に関連するニュースが増えています。投資の分野でも研究開発が盛んに行われており、実際に投資手法として利用可能な段階まで進展しています。本レポートでは、AIと投資手法の関係性をご紹介したいと思います。

前回レポートから引き続き、「クオンツとAI/機械学習の融合」をテーマにします。

投資の世界には従来からクオンツという職種が存在します。具体的には、統計解析等の数学的手法を用いて、マーケットの分析や投資戦略の構築をするのが主な仕事になります。今まで、以下のレポートでモメンタム効果への機械学習の応用可能性を検証してきました。今まではシンプルなインプットのみ、具体的にはモメンタムファクター1系列のみを扱っていましたが、今回は入力データ(以下特徴量)を増やします。

今回のレポートでは、特徴量の選定、予測分位毎のリターンシミュレーション、機械学習モデルにおける特徴量寄与度とその解釈まで掲載します。

(ご参考)モメンタム関連の過去レポート

ドメイン知識による入力データ(特徴量)の決定

1. 特徴量の選定

シンプルな問題として扱うために、今までは中期モメンタムリターンの1系列のみを機械学習モデルへの入力データとしていました。このような1系列のみで将来のリターンの説明力が高いモデルが出来れば良いのですが、実際のマーケットは複雑であり、様々な要因がお互いに相互作用しながらリターンを形成していきます。レポートのテーマでもあるモメンタム効果を主軸に扱う上で、そのモメンタム効果を特徴づけたりエンハンストする可能性のある入力データを増やした方が、モデルの効用も改善する可能性があります。

さて、追加の入力データは何にすれば良いでしょうか?

機械学習においては、大量のデータを入れてモデルに学習させれば良い結果がでるはず、と考える向きも見られます。しかし、現実世界では、全く意味の無い、または著しく効果が少ないデータも少なからず存在します。有名な言葉に、「Garbage In Garbage Out」という言い回しがあります。これは、無意味(ごみ)なデータを入力すると、得られる結果は無意味(ごみ)なものになる、という事を表現しています。

では、特徴量はどうやって選択すれば良いでしょうか?現実的には、機械学習を適用しようとする領域の専門家の知見(ドメイン知識)に頼る方が、より良い結果に到達しやすい、と言えるかと思います。今回は、マーケットに携わる先人の研究や、経験則に基づきたいと思います。

結論から言いますと、今回は以下の3系統を特徴量とします。なお、いずれも100分位値化します。

入力データ(3系列)

  • 中期モメンタム
  • BPR(PBRの逆数)
  • ROE

出力データは、月次でのリバランスを想定し、以下の1系統とします。

予測データ(1系列)

  • 翌月リターン(3分位値)

図1. モデルとデータの流れ


何を入力データ(特徴量)にするか

2. 各特徴量とモメンタム効果の関係性

今回は中期モメンタムリターンに加えて、BPR(PBRの逆数)とROEをインプットとします。BPRとROEですが、経験則的に以下の事象が起こることが知られています。

  • 低BPR(高PBR)銘柄はモメンタム効果が示現しやすい
  • 高ROE銘柄はモメンタム効果が示現しやすい

実際に確認してみます。

(検証条件)

  • 対象は東証1部(TOPIX銘柄)とし、その中で必要データが取得できる銘柄群とします。
  • 3×3分位での分析とします。先にBPRまたはROEで3分位化後、さらに各分位を中期モメンタムリターン値で3分位に分割します。
  • spreadはスプレッドリターンであり、上位1/3予想と下位1/3予想との累積リターン差

図2はBPRと中期モメンタムの3×3分析の結果になります。先の説明通り、低BPR(高PBR)銘柄はモメンタム効果が示現しやすい、と言えるかと思います。

図2. BPRと中期モメンタムの3×3分析(累積リターン)

低位BPRグループ


中位BPRグループ


高位BPRグループ


図3はROEと中期モメンタムの3×3分析の結果になります。こちらも、先の説明通り、 高ROE銘柄ではモメンタム効果が示現しやすい、と言えるかと思います。このように、モメンタム効果をエンハンスト出来る可能性があるこの2系統(BPR、ROE)を、今回は中期モメンタムと共に入力データに採用したいと思います。

図3. ROEと中期モメンタムの3×3分析(累積リターン)

低位ROEグループ


中位ROEグループ


高位ROEグループ


モデルの決定

3. 機械学習を使うべきか?

直線的な関係性、または3×3分析で説明できる関係性のみであるならば、この分析結果をそのまま市場に適用するモデルを作った方が説明性から考えても良いと思います。一方で、線形では無く、ある程度複雑な関係性を相互作用で持っている場合は、非線形型の機械学習モデルに分があります。今回は、このような相互作用の関係性がある程度入り組んでいると仮定して、機械学習モデルを適用します。

図4. 対象入力値と翌月リターンの関係性

  • 厳密には多項式で表現可能だが、便宜的に非線形の例として表示

4. バギング決定木の導入

今回は、前々回に引き続き、バギング決定木を導入します。

5. 学習期間とWalk forward Test

より実際のモデル検証に近づけるために、 Walk forward Test 方式を採用します。これは、毎月モデルを再学習して、翌月の予測値を作ることを時系列方向に繰り返していきます。毎月最新のモデルになるという意味で、実務で使われやすい手法です。また、重要な変数として、過去どれくらいの期間のデータを学習に使うのか?という点があります。例えば、手に入る過去データは常に全て学習期間に使うという手法もあります。これは感覚的に分かりやすいかと思います。一方、過去Xヶ月分のみを学習期間に使うという方法もあります。これは、ある程度の期間でマーケットの状態が変わっていくとの前提に立っています。
まとめると図5の関係性です。今回は、過去36か月を学習期間に使い、Walk forward Test 方式を導入します。なお、この36か月というのは、筆者の経験に基づくものであり、必ずしも正しくは無いかもしれませんが、以降はこの仮定で進めます。

図5. Walk forward Test


  • 1
  • 2

次へ

吉野貴晶のクオンツトピックス一覧へ

「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点

当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。

【当資料に関する留意点】

  • 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
  • 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
  • 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
  • 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
  • 投資する有価証券の価格の変動等により損失を生じるおそれがあります。