吉野貴晶のクオンツトピックス

No.11
画像認識(CNN)を用いたモメンタム効果のパス情報の取り込み2

2019年05月29日号

投資工学開発室
吉野 貴晶

金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。

投資工学開発室
髙野 幸太

ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。

グラフ化とクロスセクション分析

手順5:グラフ化

図7.最終的なグラフ(実際には四角枠も無い)

今回は画像認識処理を取り扱うので相対指数値を画像化します。手順4で作成した相対指数値情報を、png形式の画像に変換します。この際、指数値は折れ線グラフを採用しました。また、縦軸の上下限の取り方ですが、今回は手順4で作成した相対指数値の、クロスセクション方向での最大値と最小値を算出し、基準である1からの乖離が大きい方を採用しました。この値を上下限に適用することで、中心が基準かつ始点の値である1.0となるようにしています。また、通常のグラフには横軸、縦軸やラベル、グラフタイトル等がありますが、それらは全て非表示とし、純粋に折れ線グラフのみが表示される状態にしています。なお、ピクセル数は縦20×横20としています。折れ線グラフは単色ですが、情報としてはRGBを持たせています。

手順6:クロスセクション(月次)で画像データを作成

上記の手順1~手順6を毎月繰り返すことで、画像データを収集しています。最終的には、約35万枚の画像データを準備しました。

※(参考)クロスセクション分析とは?

今回は一般的にクオンツ分析で活用されるクロスセクション分析をします。ある一時点における、銘柄間の関係性(相対感等)を分析する作業です。図8をご覧ください。縦軸方向にデータを眺めるのが、クロスセクション分析です。例えば、2019年3月時点における、全銘柄のモメンタムファクター値の関係性を分析する、ということになります。また、ある銘柄における、2019年3月と2019年2月の値の比較をする、という作業は時系列分析となります。今回の分析では、各時点における累積リターン値を相対化したチャート画像になっています。後で出てきますが、この画像データを過去10年間分学習させますが、この過程では時点間での比較作業は入っていませんので、時系列の変化を扱っている訳ではありません。

図8.分析手法

手順7:出力データの準備

こちらは機械学習モデルによる学習させたい情報、言い換えると予測させたい情報になります。手順1で取得した13か月目の月次リターンが対象になりますが、今回は分類モデルを作成します。そこで、毎月、月次リターンについて、上位1/3はラベル3、中位1/3はラベル2、下位1/3はラベル1となるように加工しています。こちらのデータの外れ値処理は実施していません。

画像認識モデルの概要

3. 機械学習モデルの作成

今回は画像認識のためのモデルとして、CNN(畳み込みニューラルネットワーク)モデルを利用します。モデルの概要は以下であり、今回はあまり複雑にならないシンプルな構成を採用しています。

図9.CNNモデルの概要

4. シミュレーション結果

2000年2月から2010年1月の10年間を学習期間とします。この期間における画像枚数は約17万枚です。この学習済みモデルで評価するのは、2010年2月から2019年3月の10年間になります。この期間の画像枚数は約18万枚です。

なお、乱数による結果の再現性については、乱数シードは固定せず、代わりに10回試行しています。後述の正答率及びリターン値は、毎月における各試行の中央値を採用しています。以下が予測されるラベルの正答率推移になります。3分位ラベルの数はほぼ均等なので、ベースの正答率は33.3%となります。時系列で推移を見ると、概ね33.3%は超えているかと思います。

図10.全体の正答率の時系列推移

では、ラベル別の正答率を見てみましょう。図11を見てみると、傾向として中位ラベルは当てられていますが、下位と上位予想、特に上位予想ラベルの正答率は低位にとどまっています。

ラベルの正答率単体は芳しくありませんでしたが、一方で投資としての効果を測定する上で重要である、リターン値はどうでしょうか?予測期間における、各ラベル予想銘柄のリターンを累積した結果が図12になります。各ラベルにおける銘柄のウェイトは等ウェイトとしています。まず、結果から分かることは、上位1/3予想銘柄の累積リターンがプラスであることから、どうやら画像認識はモメンタム効果の強化(エンハンスト)策として一定の効果があるかもしれません。正答率は低かったことから、あまり上昇銘柄を当てられているわけではないですが、大きく上昇する銘柄は当てられている可能性があります。ただし、2014年の上旬をピークに、そこからは緩やかにマイナスの収益になっています。これは、計測期間において、2014年上旬までは今回の学習期間のデータで表現可能だったが、2014年上旬以降は何らかの構造の変化があった可能性が考えられます(あくまで推測です)。

図11.各ラベルの予想正答率

図12.各予想ラベル銘柄の平均累積リターン

今後のレポートテーマ

5. 改良方針

先ほどの結果を改良するにはどうしたら良いでしょうか?いろいろな手法が考えられますが、データに手を加えないのであれば、学習期間を毎月ローリングしていく方法が考えられます。例えば、学習期間を5年と決めて、毎月モデルを直近5年で再学習し、予測値を作成していくことが考えられます(Walk Forward方式)。また、データに手を加えるのであれば、月次の折れ線をより粒度の高い情報、例えば日次に変えること等が考えられます。

または、昨今の画像認識技術で良く活用される、転移学習を活用するのも手です。これは、ほかのデータセットで学習させたモデルを応用する手法です。大規模データで事前に学習されたモデルが既に様々な所から提供されています。このモデルをそのまま使うか、一部再学習(ファインチューニング)するのも有効な可能性があります。

6. 今後の展開

次回以降も、引き続きモメンタム効果に焦点を当てた分析を継続します。まだ決まっていませんが、1.今回の画像認識モデルの改良を試みる、2.サイズやバリュー等とモメンタム効果の関連性を確認して、機械学習モデルに利用する新たな特徴量(入力データ)の作成を目指す、などを予定しています。
(筆者の都合でテーマが変わる場合があります。)

  • 1
  • 2

前へ

吉野貴晶のクオンツトピックス一覧へ

「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点

当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。

【当資料に関する留意点】

  • 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
  • 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
  • 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
  • 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
  • 投資する有価証券の価格の変動等により損失を生じるおそれがあります。