일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 캐글
- PCA
- 컨설팅펌
- 데이터시각화
- 빅데이터
- 파이썬
- 다중회귀분석
- 인공지능
- K-Digital Training
- BCG
- 로지스틱회귀분석
- AI부트캠프
- RA
- 맥킨지
- 컴퓨터공학
- 부트캠프
- 선형대수학
- 디지털트레이닝
- Ai
- 웜업
- t-test
- 웹스크래핑
- 국비지원교육
- 주성분분석
- 데이터사이언스
- 코랩
- 기계학습
- 비전공자
- 컨설팅
- 코드스테이츠
- Today
- Total
목록주성분분석 (3)
94년생 스피노자

K-평균 군집화는 저번에 올린 주성분 분석과 같이 쓰기가 좋다. K-평균 군집화로 그룹을 분류 주성분 분석으로 차원을 축소해 시각화 0. K-평균 군집화 기초 K-평균 군집화는 전체 데이터를 K개의 그룹으로 나눈다. 주어진 조건이 없다면 K개로 그룹을 나누는 방법은 무한히 많다. 따라서 K-평균 군집화에는 다음과 같은 기준이 주어진다. 각 그룹의 중심과 개별 데이터 간의 거리가 최대한 짧게 하라 위 기준 덕분에 K-평균 군집화의 결과 조밀하게 모여있는 그룹을 얻을 수 있다. 1. 데이터 불러오기 이번 예시에서는 Kaggle에서 데이터를 가져왔다. https://www.kaggle.com/uciml/breast-cancer-wisconsin-data Breast Cancer Wisconsin (Diagno..

주성분 분석은 다차원 데이터를 분류하기 위해 사용된다. 다차원 데이터는 변수를 여러개 가진 데이터를 의미한다. 예시로는 seaborn 패키지에 있는 'penguins' 데이터를 활용할 것이다. 0. 필요 패키지 불러오기 import matplotlib.pyplot as plt import pandas as pd import numpy as np import seaborn as sns from sklearn.decomposition import PCA from sklearn.preprocessing import StandardScaler, Normalizer from sklearn.pipeline import make_pipeline 1. 데이터 전처리 pg = sns.load_dataset('pengui..

이제 슬슬 머리가 매우 아파져온다. 이번에는 차원축소를 하는 방법에 대해 배운다. 0. 차원축소의 필요성 차원은 데이터의 변수를 의미한다. 사람을 설명하기 위해 나이, 키, IQ를 활용한다면 데이터는 3차원이 된다. 물론 3차원 정도에서는 데이터를 분석하는 것에 큰 문제가 되지 않는다. 데이터를 시각화하기도 어렵지 않고 직관적으로 이해할 수 있기 때문이다. 하지만 데이터가 4차원만 되더라도 이해하기가 매우 어려워진다. 변수가 100개라면 상상하다가 미칠지도 모른다. 이런 문제를 해결하기 위해 차원축소가 필요한 것이다. 1. 차원축소 방법 대표적인 차원축소 방법은 Principal Component Analysis(PCA)가 있다. 한국어로는 주성분분석이다. PCA의 핵심은 분산이 가장 큰 분산을 고르는 ..