吉野貴晶のクオンツトピックス

No.10
クオンツとAI/機械学習の融合(AI/機械学習によるモメンタム強化)2

2019年04月01日号

投資工学開発室
吉野 貴晶

金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。

投資工学開発室
髙野 幸太

ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。

データにおけるトライ&エラー

3.結果の改善に向けた試行錯誤(データ編)

先述の決定木モデルでは、分類正答率こそベースラインから超えているものの、その分類予測値を利用した銘柄群のリターン累積は明らかに失敗と言える結果でした。ここからは改善方法を考えたいと思います。

3_1.入力データの加工(特徴量エンジニアリング)

機械学習において、モデルに併せてデータに様々な加工処理を施す作業は非常に重要であり、特徴量エンジニアリングと呼ばれています。本レポートでも、入力データの加工が結果に与える影響を確認したいと思います。色々な手法が考えられますが、今回は3パターン試してみます。(1)入力データを標準化(z-score normalization)、(2)正規化(Min-Max normalization)、(3)離散化、の三つです。さらに、上記3つの手法を実施する上で、全てのデータに対して同時に加工するパターンと、毎月毎月加工を実施していくパターンを考えます。

図8.入力データ加工のイメージ

モデルにおけるトライ&エラー

4.結果の改善に向けた試行錯誤(モデル編)

入力データの加工だけではなく、モデルにも改良を加えてみます。他のAI/機械学習系モデルでも言えますが、決定木のマイナスな特徴として、そもそも決定木は過剰適合しやすい、という点があります。そこで、過剰適合への対策として、Baggingを導入します。

4_1.Bagging

今回はBaggingという方法を導入します。具体的には、学習モデル(弱学習器)を複数作成して、そのモデルたちの多数決で予測値を決定します。複数作るために、学習データから復元抽出して学習用データセットを作成、このデータセットでモデルを一つ作成します。この抽出処理をN回繰り返して複数のモデルを生成します。今回は、データセットの抽出条件を50%、作成するモデルの数を100個とします。

図9.Baggingの適用

AI/機械学習で結果を向上(エンハンスト)できるか?

5.改良結果

データの加工及びBagging導入後の結果を見てみましょう。データ加工無しに比べて、入力データに対して一括で正規化と標準化を加えた場合は幾分改善してはいますが、モメンタムポートフォリオの累積リターンはマイナスまたはゼロ近傍です。違う改良が必要なようです。

図10.入力データ一括加工処理のパフォーマンス結果

次は各月毎にデータ加工処理を施した結果になります。以前のグラフと比べると、明らかに結果が改善しています。特に毎月離散化処理が良さそうです。

図11.入力データ毎月加工処理のパフォーマンス結果

離散化に関しては、図13においてモメンタムポートフォリオベースでバギング無しとも比較検討していますが、bagging有りの方が効果が優っています。

これまでの結果から分かることは、「データの加工処理は毎月処理が良い」、「正規化、標準化、離散化なら離散化が良い」、「Bagging有り無しなら有りの方が良い」となります。毎月処理かつ離散化かつBagging有りの結果は、AI/機械学習を何も使っていないシンプルな中期モメンタムモデル(図12)と比べると、累積リターンが改善しています。よって、機械学習によるエンハンスと効果はありそうだ、と言えるかと思います。

図12.(前回レポートの再掲)リーマンショック後期間での検証

図13.Bagging有り無しにおけるパフォーマンスの比較(モメンタムポートフォリオ部分)

時系列金融データにおける分散の不安定性

6.データを毎月加工処理することのメリットとは?

複数のパターンを検証しましたが、大まかに言える事の一つとしては、月次でデータ加工を施すと総じて結果が改善する、と言う事かと思います。これは、金融時系列データにおいて毎月の分散が一定ではない点に起因している可能性があります。以下の図を見ると分かるように、12ヶ月リターン(1ヶ月スキップ)の毎月のばらつき(ここでは標準偏差)は一定ではありません。値自体の最大値、最小値も安定しませんが、中でも最大値は月によって大幅なばらつきがあります。これは、株価の性質上、下落する場合には株価が0近傍までしか行きませんが、上昇する場合には青天井になるためです。このように、説明変数に分散のばらつきがある一方、教師データの予測ラベルである1ヶ月先リターンは、毎月毎月3分位化の処理を実施しています。この差異が機械学習モデルの学習を難しくしていた、と推測されます。

  • 個別銘柄の12ヶ月リターン(1ヵ月スキップ)に対して、毎月マーケット平均リターンを控除しているため、理論上最小値は-100%を下回る場合がある。

図14.入力データの特徴の時系列推移

7.今後の展開

次回以降も、引き続きモメンタム効果に焦点を当てた分析を継続します。投資手法としてのモメンタム効果において、他の様々な要因、例えばサイズ、マーケットの方向感、バリュー等の他の代表的指標が、モメンタム効果と関連性があると言われています。これらの要因とモメンタム効果の関連性を確認することで、機械学習モデルに利用する新たな特徴量(入力データ)の作成を目指します。この特徴量にモデル改良を加えて、AI/機械学習を活用したモメンタム効果の強化(エンハンスト)を目指します。
(筆者の都合でテーマが変わる場合があります。)

  • 1
  • 2

前へ

吉野貴晶のクオンツトピックス一覧へ

「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点

当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。

【当資料に関する留意点】

  • 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
  • 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
  • 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
  • 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
  • 投資する有価証券の価格の変動等により損失を生じるおそれがあります。