2020年10月1日の株価

データ

Rで個別銘柄の過去データ分析をしようと思ったら

自分の中で株式投資の機運が高まってきたので、少々個別銘柄の株価データの分析でもしてみようと思い、証券会社のツールから4銘柄ほどのCSVデータをダウンロードしました。

私が使っているのは楽天証券なのですが、楽天証券は「MARKET SPEED Ⅱ(マーケット スピード2)」というツールを無料で提供しておりまして、以前から手元のパソコンにインストールはしてあったのですが、今回初めてじっくりと触ってみました。

データのダウンロードはとても簡単で、各銘柄を検索した後に、ダウンロードしたいデータの期間を選択してボタンを押すだけです。
なお、このデータは各銘柄ごとに、いわゆる四本値(始値・終値・高値・安値)の他にも、出来高や売買代金、またいくつかの期間の移動平均株価データも持っていて、全部で21列あります。

このデータをRで「read.csv」関数でインポートするわけですが、最初は単純に「plot」関数でグラフを描く程度だったので気付かなかったのですが、このデータを少々加工してみようとしたときに、なぜかエラーになってしまい分析ができませんでした。

使用したかったのは「終値」なのですが、どうやらこのデータ型が「数値(Numeric)」ではなく「文字列(Character)」とRで判断されて読み込まれてしまっているようでした。

なんとかこの列だけでも数値に変換しようと、ネット検索をして四苦八苦していたのですが、ふとそもそもの元データを見てみようと思い、CSVを開いて確認してみると、2020年10月1日のデータが「NA」(このデータではハイフン(-)」になっていることに気づきました。最初は、この銘柄が合併でもしたのかなと思っていたのですが、ダウンロードした4銘柄すべて2020年10月1日の株価が欠損していました。ここに至って、やっと「そういえば去年、大規模なシステム障害が東証であったなー」と思いだし、ニュースを検索してみました。

2020年10月1日は東証の取引が終日停止

東証、情報開示に遅れ 投資家への説明も不足

東京証券取引所が1日、取引情報を配信するシステムで障害を起こし、初めて株式売買を終日停止した。東証は過去にもトラブルを起こしたことがあるが、今回は情報開示が遅れ、個人投資家らへの説明が不足した面がある。初動段階での危機管理を問う声が強まる可能性がある。

https://www.nikkei.com/article/DGXMZO64506240R01C20A0EE8000/

出来事自体は知っていましたが、詳しく見ておりませんでした。この影響は現時点(2021年4月)でも尾を引いているようですね。さらに昨年末には東証の社長が引責辞任していたとはまったく知りませんでした。

「終日売買停止」という言葉だけ聞いても、特にピンと来なかったのですが、いざ自分がデータに触れてみると、結構この問題は大きいということに気づきました。終日売買がされていないので、当然ながら2020年10月1日の株価は「ない」ということになると思うのですが、果たして実務的にはどのような処理をするのだろうか?とか気になるところです。

例えばですが、ベンチマークや特定の指標に追随するインデックスファンド(パッシブ・ファンド)は、その処理によってはトラッキング・エラーが非常に大きくなってしまうというようなこともあり得るのではないでしょうか。

欠損データの処理をしました

ということで、いずれにせよ2020年10月1日の欠損データについては何らかの処理をしないと分析ができないのですが、少々検索してみると、証券業界の処理としては、大きく2つ、

  • 前日9月30日のデータを10月1日のデータとする
  • 10月1日自体を営業日とせず、9月30日の次営業日は10月2日とする

というようなものがあるようでした。

とりあえず、私個人のデータにおいては、2020年10月1日の株価は前日の2020年9月30日の株価をコピー&ペーストしました。この処理後のデータを取り込んだところ無事に分析できました!

前職で少しだけ投資信託のデータに関わっていましたが、こういう「データ・クレンジング」というのでしょうか、データを調える作業においては、非常に繊細な取り扱いが重要になってくるようですね。

コメント

タイトルとURLをコピーしました