김두두의 블로그
초간단 나스닥과 다우로 코스피 예측하기 본문
오늘은 할 일도 없겠다...(사실 매우 많음) 나스닥과 다우로 코스피를 예측해보았다.
당연히 이 두개로 예측될 일은 없을 거고 매우 기초적인 방법만 사용하였다.
첫번째로는 데이터를 다운 받았다.
https://kr.investing.com/indices/nasdaq-composite-historical-data
나스닥종합지수 선물 과거 가격 데이터 - Investing.com
NASDAQ Composite에 대한 무료 과거 데이터를 받으세요.
kr.investing.com
인베스팅 닷컴에서 나스닥, 다우, 코스피 과거내역을 2020/03/01부터 현재까지 다운받았다.
2020년 3월 1일 부터 다운받은 이유는 큰 데이터보다 먼저 작은데이터로 돌리려는게 목적이기도 했고, 코로나 이후가 아무래도 낫지 않을까 싶어 그랬다.
다운받았더니 r이 날짜를 인식하지 못해서 엑셀 작업을 해줬다. vlookup으로 날짜 같은 것끼리 모아둬서 전체 데이터를 합쳐두었다
물론 vlookup 사용한지 1년돼서 다 까먹어서 엑셀 공부하느라 30분 넘게 걸렸다...컴활 공부를 시작해야할 것 같은 생각이
난 복잡한 분석말고 아주 단순한 분석을 원했기 때문에 단순한 가정인 "다우와 나스닥의 종가는 다음날 한국 코스피지수 시작가에 영향을 미칠 것이다"를 전제로 두 독립변수만 가지고 예측하였다.
날짜도 원래는 다음날 처리를 해줘야 하는데...그냥 다우랑 나스닥을 하루씩 뒤로 미뤘다.
(모든 분석이 그렇듯이 데이터 처리하는데 시간이 오래든다..이렇게 간단한 내용인데도. 컴활 공부를 해야겠다)
data<-read.csv('kospi3.csv',na='#N/A')
그렇게 엑셀로 노가다 해서 만든 데이터를 넣어줍니다.
엑셀에서 결측치는 #N/A이기 때문에 na='#N/A'를 넣어준다. 요즘은 colab을 이용하는 시간이 좀 있었는데 결측치 처리는 파이썬이 더 쉬운 것 같다. 그 외에는 R이 훨씬 편하다. R최고
#결측치 제거
df <- na.omit(data)
model<-lm(kospi_open~dow_close+nasdaq_close,data=df)
summary(model)
그리고 이렇게 회귀분석 모델 돌리면 끝!
결과는 (-6.511e+02)+(5.652e-02*다우존스 지수)+(1.370e-01*나스닥 지수)=코스피 지수
의 간편한 식이 나왔다.
96%정도 맞춘다고 한다. 어제걸로 확인해보니 100이 차이났다.
10정도만 차이나게 예측해보고 싶어서 앞으로 더 정교하게 해볼 생각이다.
그래서 2008년 부터 데이터를 다시 받았다. 다음엔 다른 지수들도 합쳐서 생각해봐야겠다.
--
지금 다른 지수도 합쳐봤는데 지금까지는 저 둘로 한게 제일 나았다 ㅡㅡ
내 예측이 0.0001%는 맞았을지도..
내일 이어서 해야겠다