BQML로 게임사 주가 예측하기

개요 데이터로 BQML을 통해서 주가 예측을 해보자 넥슨, 컴투스, 넷마블, nc 소프트의 주가를 예측 5년동안 데이터로 학습하고 넥슨 게임사의 2023-03월달의 주가 예측을 시행함 데이터 흐름: API 크롤링 → 빅쿼리, 빅쿼리ML → Looker Studio 목적 5년치 주가 데이터를 활용힌 넥슨 게임즈의 주가 등락 예측과 경쟁 3사와의 비교 BQM

Data AnalysisModel

2023-03-11

K-Means Clustering(2)

개요 이전 포스팅에 이어 Big Query ML에서 K-Means Clustering에서 k값을 결정하는 방법을 알아보자 이 포스팅 하단부에 대한 설명 Elbow Method 사용하고자 하는 클러스터 범위를 지정한다. 각 클러스터를 WCSS방법으로 계산을 합니다. WCSS값과 클러스터 K 갯수에 대한 커브선을 그립니다. 뾰족하게 구부러진 부분이나 특

Data Platform/BaseGCP

2023-03-08

BQML을 이용한 게임유저 경향 모델링

개요 빅쿼리 ML을 사용하여 다양한 머신러닝 모델을 돌리기 GA4와 빅쿼리 연동 시 추출되는 데이터들을 정제해서 머신러닝 훈련데이터로 만들기 각 모델의 평가, 파라미터들을 알아보고 조정해보기 목표 앱 설치 후 첫 24시간 동안의 사용자 활동을 기반으로 하는 “Flood It!” 데이터 세트를 사용하여 다양한 분류 모델을 시도하여 이탈 성향(1) 또는 이탈

Data Platform/BaseGCP

2023-03-06

로지스틱 회귀 모델 평가시 나오는 용어들 정리

개요 이전 포스트의 5단계에서 ML 모델을 평가할때 나왔던 지표들에 대한 소개 바이너리 로지스틱 회귀 모델을 사용했을 때 모델의 성능을 평가하는 지표들을 소개 알아야 할 개념True/False & Positive/Negative 임계값(Threshold) 로지스틱 회귀 값을 이진 카테고리에 매핑하려면 분류 임계값(결정 임계값)

Data AnalysisBasic

2023-02-24

Basic ML Process

Basic ML Process 이 포스트에서는 필자가 생각한 기본 프로세스를 소개 한다. 머신러닝을 접해보지 않은 사람들에게 대략적인 개념을 보여주는 포스트 이다. 자세한 내용은 추후 추가 예정 가설 수립 → 데이터 확인 및 전처리 → 모델 학습/ 모델 검증 → 예측하기 → 결과 확인 가설 수립(회귀/분류 여부 확인) → 잠재

2022

Data AnalysisBasic

2022-11-20

Probability Distribution Function & Probability Density Function

확률 분포 함수와 확률 밀도 함수확률 분포 함수(probability distribution function)와 확률 밀도 함수(probability density function)는 확률 변수의 분포 즉, 확률 분포를 수학적으로 정의하기 위한 수식이다. 연속 확률 분포우선 확률 밀도 함수에 대해 먼저 알아보자. 확률 밀도 함수를 이해하면 확률 분포 함수를

Data AnalysisBasic

2022-11-11

Difference between Normal Distribution & Standard Normal Distribution

정규분표와 표준정규분포함수의 차이본 포스팅에서는 정규분포(Normal distribution)와 표준 정규 분포(Standard normal distribution)에 대해 다루도록 한다. 정규 분포의 확률밀도 함수와 예상치(평균), 분산 그리고 증명에 대해 다루며 표준정규분포에 대해서는 확률밀도함수, 누적분포함수, 그리고 표준정규분포를 이용한 정규분포의

Data AnalysisBasic

2022-09-20

임계치 조절

< 분류에서 사용하는 성능지표 > 1. Confusion Matrix 분류에서 가장 많이 사용되는 오분류표이다. 행렬의 배치는 그리는 사람에 따라 달라질 수 있으며, Scikit learn에 기반한 confusion matrix는 다음과 같다. FP: 예측은 참이나 실제는 거짓, 제 1종 오류FN: 실제는 참이나 예측은 거짓, 제 2종 오류 정

Data AnalysisBasic

2022-09-16

Grid Search CV

Grid search finds the optimal parameters; each model has its own parameters, and it compares which combination yields the best score. This time, we will see a combination of two parameters and use de

Data AnalysisModel

2022-09-15

Ensemble Model

1. Ensemble Model어떠한 한 현상에 대한 답을 얻는다고 가정해보자, 많은 경우에 한 명의 전문가보다 여려 명의 일반인들의 의견이 더 나은 경우가 있다. 위 예제와 비슷하게, 하나의 좋은 모형(회귀,분류)으로부터 예측을 하는 것보다 여러 개의 모형으로부터 예측을 수집하는 것이 더 좋은 예측을 할 수 있다. 이러한 여러 개의 모형을 앙상블이라고

Tag: ML Analysis