Notice
Recent Posts
Recent Comments
Link
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
Tags
more
Archives
Today
Total
관리 메뉴

척척 학사

[KT에이블스쿨] 7주차 리뷰 본문

[5기] KT에이블스쿨/[5기] 수업 리뷰

[KT에이블스쿨] 7주차 리뷰

나는야맹구 2024. 4. 4. 20:29

안녕하세요~ "나는야맹구"입니다.

오늘은 7주 차 리뷰를 가져왔습니다.

이번주는 목, 금 미니 프로젝트가 있어서 ~수요일까지만 이론 강의가 예정되어 있어요!

그럼, 시작해 볼게요


4월 1일

오늘은, 분할검증(Kfold)과 grid search, random search에 대해 개념과 실습을 진행했습니다. 이미 해당 개념에 대해 알고 있었는데, 강사님이 이해하기 쉽게 설명해 주셔서 이해하기 수월했다!

4월 2일

어제 배운 Kfold, grid search, random search로 실습을 진행했다. 직접 실습을 진행하는 건 또 다른 재미가 있었다. 내가 어느 부분을 모르고 있는지 확인할 수 있어서!!

4월 3일

오늘은 한기영 강사님이 돌아오셔서 '딥러닝'강의를 해주셨다. 어김없이 CRISP-DM으로 수업을 시작하셨다.

수업 들으면서 정리한 비지도학습 특징

  • 학습 시 X만 사용
  • 후속 작업 필요
    • 차원 축소 - 고차원 데이터를 축소하여 새로운 피처 생성 -> 시각화, 지도학습 연계
    • 클러스터링 - 고객별 군집 생성 -> 고객 집단의 공통 특성 도출을 위한 추가 특성
    • 이상 탐지 - 정상 데이터 범위 지정 ->  범위 밖 데이터를 이상치로 판정
  • 다중공선성
    • 변수끼리 선형적인 관계 가지면 다중공선성 있음
    • 다중 공선성은 선형회귀, 로지스틱 모델에만 영향을 줌
    • 데이터 특징은 유지하면서 차원 수를 줄이는 것
  • 차원의 저주
    • 변수가 많을수록 모델 성능 향상? -> 꼭 필요한 데이터가 아닌데 포함 -> 데이터가 굉장히  희박해짐
    • 데이터가 a, b, c를 만족하는  케이스가 매우 적어짐. 패턴이라 할 게 없어 -> 학습이 잘 안 됨!!
    • 변수가 많아지면, 조건에 맞는 데이터가 희박해 학습이 적절하게 되지 않을 가능성이 높아짐 -> "차원의 저주"
    • 해결방안 
      • 1. 행을 늘리기 -> 데이터 늘리기
      • 2. 열을 중리기 -> 차원 축소(기존 특성을 최대한 유지)
        • 대표적인 방법 - PCA, t-SNE 
  • PCA
    • 정보의 특성을 최대한 유지하면서, 차원을 축소 -> 분산을 최대한 유지
    • 학습 데이터셋에서 분산이 최대인 첫 번째 축을 찾음
    • 첫 번째 축과 직교하면서 분산이 최대인 두 번째 축을 찾음
    • 첫 번째 축과 두 번째 축에 직교하고 분산이 최대인 세 번째 축을 찾기
    • 주성분의 개수 정하기
      • 그럼 30 개 변수 중 몇 차원으로 줄여야 하나?
        • elbow method에서 줄여라 (적절한 지점 찾을 때 많이 쓰는 방법)
    • feature 수를 줄였는데도 성능이 비슷하다. -> 변수 30개 넣을 바에 2개 넣으면, 모델 돌리는 시간도 적어지고, 좋다. 
    • 차원축소는 지도학습의 input으로 사용하거나 시각화 등으로 재사용
  • K-means
    • 클러스터 개수 지정(k) - 사람이 지정
    • 그룹의 중심 점 무작위로 선택됨
    • 임의로 선택된 중심 점과 각 점 간의 거리를 계산해서 가장 가까운 중심점의 그룹으로 선택됨
    • 선택된 그룹의 점들을 기준으로 중심점을 계산해서 찾음
    • 3~4번 반복(중심점 변화가 거의 없을 때까지 사용)
    • 적정한 k값 찾는 방법
      • k가 커질수록 Inertia value(군집 간 데이터 간 거리의 합) 값이 줄어듦 ->시각화해서 elbow method 찾기
      • 실루엣점수
        • 1에 근접 - 클러스턴 간 거리 멂, 클러스터 내부의 거리는 가까움
        • 0에 근접 - 클러스터  간 거리와 클러스터 내부 거리가 비슷(클러스터가 중첩)
        • -1에 근접 - 클러스터링 결과가 부적

오늘 비지도학습 강의는 매우 유익했다. 강사님이 우리를 이해시키려고 매우 쉽게 설명하려고 노력이 보였다. 그 덕분에, 이해가 매우 잘되었고, 유익한 하루였다. 

빨리 실습 진행해보고 싶다!

 


이번주 목금은 미니 프로젝트라서 이번주 리뷰는 수요일 리뷰를 끝으로, 마치겠습니다 :)

미니프로젝트 3차 리뷰도 다시 돌아올게요. 긴 글 읽어주셔서 감사합니다~ㅎ