Python으로 kaggle 데이터 GCP에 적재
요약 Kaggle 데이터 다운로드 GCP에 데이터 세트 만들고 서비스 계정 생성하기 Python-BigQuery 연결 후 데이터 조회 데이터 적재 하기 Kaggle 데이터 다운로드 kaggle을 설치한다 1!pip install kaggle kaggle의 key를 받아온다 123!mkdir ~/.kaggle!echo '{&quo
요약 Kaggle 데이터 다운로드 GCP에 데이터 세트 만들고 서비스 계정 생성하기 Python-BigQuery 연결 후 데이터 조회 데이터 적재 하기 Kaggle 데이터 다운로드 kaggle을 설치한다 1!pip install kaggle kaggle의 key를 받아온다 123!mkdir ~/.kaggle!echo '{&quo
데이터 합치기 https://yganalyst.github.io/data_handling/Pd_12/ https://seong6496.tistory.com/122 https://datascienceschool.net/01 python/04.06 데이터프레임 합성.html https://hyunmin1906.tistory.com/1
< 분류에서 사용하는 성능지표 > 1. Confusion Matrix 분류에서 가장 많이 사용되는 오분류표이다. 행렬의 배치는 그리는 사람에 따라 달라질 수 있으며, Scikit learn에 기반한 confusion matrix는 다음과 같다. FP: 예측은 참이나 실제는 거짓, 제 1종 오류FN: 실제는 참이나 예측은 거짓, 제 2종 오류 정
Grid search finds the optimal parameters; each model has its own parameters, and it compares which combination yields the best score. This time, we will see a combination of two parameters and use de
1. Ensemble Model어떠한 한 현상에 대한 답을 얻는다고 가정해보자, 많은 경우에 한 명의 전문가보다 여려 명의 일반인들의 의견이 더 나은 경우가 있다. 위 예제와 비슷하게, 하나의 좋은 모형(회귀,분류)으로부터 예측을 하는 것보다 여러 개의 모형으로부터 예측을 수집하는 것이 더 좋은 예측을 할 수 있다. 이러한 여러 개의 모형을 앙상블이라고
1. 의사결정트리 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 알고리즘입니다. 조금 더 쉽게 하자면 if else를 자동으로 찾아내 예측을 위한 규칙을 만드는 알고리즘입니다. 하지만 Decision Tree에서 많은 규칙이 있다는 것은 분류 방식이 복잡해진다는 것이고이는 과적합(Overfitting)으로 이어지기 쉽습니
1. What is Density-Based Spatial Clustering of Applications with Noise DBSCAN (Density-based spatial clustering of applications with noise) uses density-based clustering among clustering algorithms.
1. K-Means It can be used for easy, concise, and large data. If the number of features becomes too large with distance-based algorithms, the performance of clustering is degraded. Therefore, in some c
1. What is GMM It is one of several models applying the Expectation Maximum (EM) algorithm. What is EM algorithm? EM algorithm is basically an algorithm mainly used for Unsupervised learning. It is al
1. What is K-means Clustering The K-Means clustering algorithm does not automatically identify and group the number of clusters by looking at the data. The number of clusters should be specified and t