K-Means Clustering(2)
개요 이전 포스팅에 이어 Big Query ML에서 K-Means Clustering에서 k값을 결정하는 방법을 알아보자 이 포스팅 하단부에 대한 설명 Elbow Method 사용하고자 하는 클러스터 범위를 지정한다. 각 클러스터를 WCSS방법으로 계산을 합니다. WCSS값과 클러스터 K 갯수에 대한 커브선을 그립니다. 뾰족하게 구부러진 부분이나 특
개요 이전 포스팅에 이어 Big Query ML에서 K-Means Clustering에서 k값을 결정하는 방법을 알아보자 이 포스팅 하단부에 대한 설명 Elbow Method 사용하고자 하는 클러스터 범위를 지정한다. 각 클러스터를 WCSS방법으로 계산을 합니다. WCSS값과 클러스터 K 갯수에 대한 커브선을 그립니다. 뾰족하게 구부러진 부분이나 특
개요 K means clustering을 빅쿼리 ML(BQML)을 사용하여 고객을 세분화 하기 GA360의 데이터를 빅쿼리에 적재해 ML학습하기 파이썬을 사용하여 빅쿼리와 연동하고 관련 그래프 시각화하기 목표 구글 브랜드 상품을 판매하는 실제 이커머스 스토어인 구글 머천다이스 스토어의 난독화된 GA360 12개월(2016년 8월~2017년 8월)의 데이터
gcp내에 있는 예제들을 실행 시킬때면 주피터 노트북으로 gcp를 사용할때 사용자를 인증해야 하는 이슈가 생김 1Error google.auth.exceptions.DefaultCredentialsError: Could not automatically determine credentials. Please set GOOGLE_APPLICATION_CRE
개요 빅쿼리 ML을 사용하여 다양한 머신러닝 모델을 돌리기 GA4와 빅쿼리 연동 시 추출되는 데이터들을 정제해서 머신러닝 훈련데이터로 만들기 각 모델의 평가, 파라미터들을 알아보고 조정해보기 목표 앱 설치 후 첫 24시간 동안의 사용자 활동을 기반으로 하는 “Flood It!” 데이터 세트를 사용하여 다양한 분류 모델을 시도하여 이탈 성향(1) 또는 이탈
개요 이전 포스트의 5단계에서 ML 모델을 평가할때 나왔던 지표들에 대한 소개 바이너리 로지스틱 회귀 모델을 사용했을 때 모델의 성능을 평가하는 지표들을 소개 알아야 할 개념True/False & Positive/Negative 임계값(Threshold) 로지스틱 회귀 값을 이진 카테고리에 매핑하려면 분류 임계값(결정 임계값)
요약 Kaggle 데이터 다운로드 GCP에 데이터 세트 만들고 서비스 계정 생성하기 Python-BigQuery 연결 후 데이터 조회 데이터 적재 하기 Kaggle 데이터 다운로드 kaggle을 설치한다 1!pip install kaggle kaggle의 key를 받아온다 123!mkdir ~/.kaggle!echo '{&quo
개요 GCP - Looker Studio 연결해서 대시보드 작성하기 bigquery-public-data.ml_datasets.census_adult_income 데이터 사용 목표 대시보드로 데이터를 시각화 하여 인사이트를 도출해본다. 개인의 연간 소등이 50,000달러 이상인지 예측하기 를 위해 지표들의 상관관계를 확인해본다. public-datase
개인 연간 소득이 5만 달러 이상인지 예측하기개요 GCP에서 BQML 사용하기 BQML의 로지스틱 회귀 모델 유형으로 supervised learning을 지원하는 기능 사용 바이너리/멀티 로지스틱 회귀 모형을 사용하면 값이 두/여러 범주 중 하나에 속할지 예측할 수 있다. 데이터를 둘 이상의 범주로 분류하려는 문제 bigquery-p
bash 파일로 hexo, git 명령어 자동화 필자가 블로그글을 작성하는데 hexo, git 명령어 자동화의 필요성을 느껴 이 글을 작성한다. mac에서 자동화 하는 경우 윈도우와 달리 batch 파일이 아니라 bash 파일로 실행해야 한다. 우선 메모장에 자동화를 원하는 코드를 작성한다. bash 파일 작성시에는 #!/bin/bash 를 꼭 작성해주어야
Basic ML Process 이 포스트에서는 필자가 생각한 기본 프로세스를 소개 한다. 머신러닝을 접해보지 않은 사람들에게 대략적인 개념을 보여주는 포스트 이다. 자세한 내용은 추후 추가 예정 가설 수립 → 데이터 확인 및 전처리 → 모델 학습/ 모델 검증 → 예측하기 → 결과 확인 가설 수립(회귀/분류 여부 확인) → 잠재