吉野貴晶のクオンツトピックス
No.7
AIによるテキスト情報の解析(経済テキストの指数化)
2018年11月12日号
投資工学開発室
吉野 貴晶
金融情報誌「日経ヴェリタス」アナリストランキングのクオンツ部門で16年連続で1位を獲得。ビックデータやAI(人工知能)を使った運用モデルの開発から、身の回りの意外なデータを使った経済や株価予測まで、幅広く計量手法を駆使した分析や予測を行う。
投資工学開発室
髙野 幸太
ニッセイアセット入社後、ファンドのリスク管理、マクロリサーチ及びアセットアロケーション業務に従事。17年4月より投資工学開発室において、主に計量的手法やAIを応用した新たな投資戦略の開発を担当する。
政府発表の経済テキストを指数化する
- 連載形式でAI(人工知能)と投資手法の関係性を紹介。
- 極性辞書を利用して経済テキストを実際に指数化します。
最近、AI(人工知能、以下AI )に関連するニュースが増えています。投資の分野でも研究開発が盛んに行われており、実際に投資手法として利用可能な段階まで進展しています。本レポートでは、AIと投資手法の関係性をご紹介したいと思います。
今回のテーマは経済テキストの指数化です。実例として、月例経済報告を細分化して指数化します。
1. 前回レポートまでの復習
まずは前回のレポートに続き、テキスト情報の利用についてです。前回は、景気ウォッチャー調査を元データとして、文章の指数化を実施しするために必要な極性辞書を作成しました。今回は、この極性辞書を利用して、手順4に該当する経済テキストデータの指数化をご紹介します。
図1.テキストデータの活用アプローチ
- テキストデータを取得
- テキストデータを綺麗な状態に整形
- AIが読み取れるようにデータを加工(数値情報に変換)
- 単語または文章単位でスコア化(AI)
- 算出したスコアと投資対象との関連性を確認(スコアとTOPIXとの関係 等)
- 実際に投資してリターン獲得
図2.今までの作業の振り返りと今回のテーマ
景気ウォッチャー調査(景気判断理由集)データ確認 |
吉野貴晶のクオンツトピックスNo5. AIによるテキスト情報の解析(テキストデータ前処理編) |
テキストデータ前処理 |
|
ニューラルネットモデル構築 |
吉野貴晶のクオンツトピックスNo6. AIによるテキスト情報の解析(極性辞書の作成編) |
極性辞書の獲得 |
|
実際の経済テキストデータを指数化 | 本レポートのテーマ |
月例経済報告とは?
2.月例経済報告
今回は月例経済報告の文章を指数化します。月例経済報告とは、毎月、政府が発表する報告書です。政府による景気への見解が文章で示される資料になります。
2-1. データの分類確認
月例経済報告のデータとしての特徴を確認します。図3は、データの特性を切り口に、データ領域(どのデータを使うか)とAIモデル(どのような結果を目指すか)をマッピングしたものです。今回のデータはテキスト情報なので非構造化データであり、左側に該当します。上下の軸であるマーケットデータとファンダメンタルデータの観点では、切り口にも依りますがマーケットデータ寄りといえるかと思います。結果、図3では左上部分に分類されます。極性辞書を作成する際に利用した景気ウォッチャーの景気判断理由集も同じ領域なので、辞書作成からテキストの評価まで領域の一貫性は保たれているといえます。
2-2. 文章構成
月例経済報告の文章構成を見てみましょう。まず1ページ目である表紙には、もっとも重要な景気全体の基調判断と先行き(見通し)が記載されます。これが政府の景気全体に対する見解になります。2ページ目には、前回の月例経済報告との比較および変更箇所が記載されます。どこが変更されたかを把握する上で便利です。3ページ目以降では、景気の基調判断において重要な各構成要素についての記載が続きます。この部分を読むと、政府がどの指標を見つつ景気の状況を判断しているかを垣間見ることができます。
極性辞書を使って経済テキストを指数化する
3. 月例経済報告指数を作る
前処理済みのテキストデータを利用して、月例経済報告から指数を作成します。
3_1. 先行研究
景気ウォッチャーを利用してモデルを作成し、月例経済報告をスコア化する試みには先行事例[参考文献 4]があります。この事例では、LSTMというAI手法を利用し、毎月の月例経済報告に一つのスコアを付与しています。一方、本レポートでは、結果が直感的に分かりやすいという理由から、前回レポートで作成した極性辞書を利用して文章の指数化を試みます。また、表紙に記載される景気全体の基調判断に加え、その構成項目毎についてもスコア化を実施することで、一つの月例経済報告から複数のスコアを作成し、時系列データにすることを目指します。
3_2. 極性辞書を使って指数化「極性辞書指数」
極性辞書に存在する単語が月例経済報告の文章中にある場合、該当する極性値を代入していきます。辞書に無い単語は全て0点とします。最後に文章中の極性値を足し上げれば、その文章の指数値が得られます。2_2 の文章構成にあるように、基調判断に係る項目を全てスコア化しました。(結果は後述)
3_3. 比較対象として「人間判断指数」の作成
極性辞書指数について、どの程度妥当なのか検証するために比較対象を準備します。比較対象としては、人の感覚を利用します。具体的には、ある月の文章が前月の文章に対してポジティブかネガティブかを人に判断させます。起点の月をゼロとして、前月対比でポジティブならプラス1、ネガティブならマイナス1を前月までの累積値に加えることで指数値を作成します。これを便宜上「人間判断指数」と呼ぶことにしたいと思います。なお、現状判断部分については、月例経済報告が発表されるたびにニュース等で上方修正か下方修正かが報道されています。今回は現状判断は出来る限り報道から政府の基調判断を追って指数化し、明確に発表されなかった月は、筆者の判断で埋めています。なお、月例経済報告における政府の基調判断の変化を利用した累積指数作成の先行研究には[参考文献 5]があります。
吉野貴晶のクオンツトピックス
関連記事
- 2022年03月15日号
- 仮想レバレッジNASDAQを用いたFIREシミュレーション part1
- 2022年02月15日号
- “マジックフォーミュラ”を使った銘柄選別効果
- 2022年01月13日号
- 外国人投資家の売買動向の季節性
- 2021年12月22日号
- PBRとROEの関係から株価水準を考える
- 2021年12月15日号
- 非ユークリッド距離空間の見える化
「吉野貴晶のクオンツトピックス」ご利用にあたっての留意点
当資料は、市場環境に関する情報の提供を目的として、ニッセイアセットマネジメントが作成したものであり、特定の有価証券等の勧誘を目的とするものではありません。
【当資料に関する留意点】
- 当資料は、信頼できると考えられる情報に基づいて作成しておりますが、情報の正確性、完全性を保証するものではありません。
- 当資料のグラフ・数値等はあくまでも過去の実績であり、将来の投資収益を示唆あるいは保証するものではありません。また税金・手数料等を考慮しておりませんので、実質的な投資成果を示すものではありません。
- 当資料のいかなる内容も、将来の市場環境の変動等を保証するものではありません。
- 手数料や報酬等の種類ごとの金額及びその合計額については、具体的な商品を勧誘するものではないので、表示することができません。
- 投資する有価証券の価格の変動等により損失を生じるおそれがあります。