GCP - Looker Studio 연결하여 대시보드 작성

개요

  • GCP - Looker Studio 연결해서 대시보드 작성하기
  • bigquery-public-data.ml_datasets.census_adult_income 데이터 사용

목표

  • 대시보드로 데이터를 시각화 하여 인사이트를 도출해본다.
  • 개인의 연간 소등이 50,000달러 이상인지 예측하기 를 위해 지표들의 상관관계를 확인해본다.

public-dataset 가져오기

데이터 확인 및 EDA

  • Looker Studio를 사용하여 데이터를 확인하고 EDA를 하는 방법
    • 전체 데이터 가져와서 차트 만들기
    • Big Query를 사용하여 SQL로 데이터를 정제한 후 Looker Studio에 SQL로 차트 만들기

전체 데이터를 가져와서 차트 만들기

  • Big Query를 사용할 필요가 없다.

  • 버튼으로 간단하게 조작이 가능하다.

  • 지표당 간단한 합계, 평균, 집계, 최솟값, 최대값, 중앙값, 표준편차, 분산 까지의 연산은 버튼식으로 수정할수 있으며, 함수 또한 필드추가의 항목으로 만드는 것이 가능하다.

  • GCP에 데이터 세트가 업로드 되어 있다면, Looker Studio를 바로 열어서 데이터 추가 버튼을 누른다.

  • Big Query를 누르고 GCP 데이터 세트를 찾는다. public data set을 사용하는 경우라면 공개 데이터 집합으로 들어가야 한다.

  • 추가 버튼을 누르면 화면 왼쪽에 데이터 세트의 이름과 그 안의 스키마 정보들이 뜬다.

  • 원하는 대시보드를 만들기 위해 차트나 표를 추가하여 자유롭게 대시보드를 구성하면 된다.

  • 예시: https://lookerstudio.google.com/reporting/10e2c716-6289-4e07-a2de-da6cdac415b6

Big Query를 사용하여 SQL로 데이터를 정제한 후 Looker Studio에 SQL로 차트 만들기

  • 표에 있는 지표를 가공하여 보고 싶을때 유용하다.

  • 버튼으로 조작하는 것보다 더 많은 지표 표현이 가능하다.

  • 유지 보수의 어려움이 있다.

  • 사용할 데이터의 지표들을 확인해보면 아래처럼 나타낼 수 있다.

    • age(나이): 개인의 나이를 연단위로 나타냅니다
    • workclass(노동 계급): 개인의 고용형태
      • Private, ?, Local-gov , Self-emp-inc, Federal-gov, State-gov, Self-emp-not-inc, Never-worked, Witout-pay
    • functional_weight: 일련의 관측결과를 바탕으로 인구조사국이 부여하는 개인의 가중치
    • education: 개인의 최종학력
    • education_num: 교육수준을 숫자로 범주화 하여 열거 합니다. 숫자가 높을수록 개인의 교육수준이 높습니다.
      • 11: Assoc_voc: 전문학교 준학사
      • 13: Bachelors: 학사
      • 9: HS-grad: 고등학교 졸업
    • marital_status: 개인의 결혼 여부 입니다.
      • Married-civ-spouseDivorcedNever-marriedSeparatedWidowedMarried-spouse-absentMarried-AF-spouse
    • occupation: 개인의 직업입니다.
    • relationship: 가정 내 각 개인의 관계입니다.
      • WifeOwn-childHusbandNot-in-familyOther-relativeUnmarried
    • race: 인종을 나타냅니다
      • WhiteAsian-Pac-Islander, Amer-Indian-EskimoBlackOther
    • sex: 개인의 성별입니다.
      • Female, Male
    • capital_gain: 개인의 자본 이익을 미국 달러로 표기 합니다.
    • capital_loss: 개인의 자본 손실을 미국 달러로 표기 합니다.
    • hours_per_week: 주당 근무시간입니다.
    • native_country: 개인의 출신 국가 입니다.
      • ?,Cambodia,Canada,China,Columbia,Cuba,Dominican-Republic,Ecuador,El-Salvador,England,France,Germany,Greece,Guatemala,Haiti,Holand-Netherlands,Honduras,Hong,Hungary,India,Iran,Ireland,Italy,Jamaica,Japan,Laos,Mexico,Nicaragua,Outlying-US(Guam-USVI-etc),Peru,Philippines,Poland,Portugal,Puerto-Rico,Scotland,South,Taiwan,Thailand,Trinadad&Tobago,United-States,Vietnam,Yugoslavia
    • income_bracket: 개인의 연간 소득이 미화 50,000달러가 넘는지 여부를 나타냅니다
  • 예측을 위한 가설들을 세운다

    • 예시: native_country를 기준으로 평균 주당 근무시간과 개인의 자본 현황의 평균을 보고 싶다.
      • 이러한 데이터는 Looker studio의 기능으로 조회가 불가능하다. → GCP Big Query로 조회하기
  • 실행 쿼리

    1
    2
    3
    4
    5
    6
    SELECT DISTINCT native_country,
    AVG(hours_per_week) as avg_hours_per_week,
    AVG(capital_gain - capital_loss) as avg_capital
    FROM `bigquery-public-data.ml_datasets.census_adult_income`
    GROUP BY 1
    ORDER BY 1

  • 위 데이터를 Looker Studio로 옮겨서 그래프를 작성해 보자

  • 데이터 추가 → 빅쿼리 → 맞춤 검색어 → 프로젝트를 선택한 후 SQL을 입력해 준다.

    • 시간 데이터가 있을 때는 기간 매개변수 사용 설정을 체크 하면 기간 컨트롤에 대한 부분을 조작할 수 있다. → 하지만 이 데이터에는 기간에 대한 내용은 없으니 추후 작성하는 것으로 한다.

  • 데이터를 추가 하고 차트를 추가하면 대시보드가 완성 된다.


Share