본문 바로가기

혼공머신10

[혼공학습단] 딥러닝을 좀 더 딥하게 가보자, 심층 신경망 선택미션 주차 진도 선택 미션 6주차 chapter 07 ch.07(07-2) 확인문제 풀고, 풀이과정 정리하기 확인 문제 풀이 1. 다음 중 모델의 add() 메서드 사용법이 올바른 것은 어떤 것인가요? ① model.add(keras.layers.Dense) ② model.add(keras.layers.Dense(10, activation='relu')) ③ model.add(keras.layers.Dense, 10, activation='relu') ④ model.add(keras.layers.Dense)(10,activation='relu') 정답 : ② model.add(keras.layers.Dense(10, activation='relu')) 허허..이런 문제는 뭐랄까 오답이 너무 명확하게 .. 2023. 8. 15.
[혼공학습단] 딥러닝의 세계로 들어가보자 기본미션 주차 진도 기본 미션 6주차 chapter 07 ch.07(07-1) 확인문제 풀고, 풀이과정 정리하기 문제 풀이 전 선수 지식 모든 개념을 완벽하게 이해하기엔 딥러닝(deep learning)은 아직도 어려운 편이라 키워드 위주로 정리해보려고 한다. 인공신경망에서 중요한 개념은 아래 3가지라고 생각했다. 인공신경망 뇌의 신경망을 모방하여 만들어진 수학적 모델 복잡한 데이터의 패턴을 학습하고 예측함 로지스틱 회귀 모델과 유사한 개념을 공유하지만, 더 복잡한 구조와 다양한 연산을 수행하는데 사용된다. 인공신경망의 구조와 주요 개념 뉴런 (Neuron): 인공 신경망의 기본 요소로, 입력을 받아 가중치와 편향을 적용한 후 활성화 함수를 통과시켜 출력을 생성한다. 로지스틱 회귀 모델의 뉴런에 해당합니.. 2023. 8. 15.
[혼공학습단] 차원의 저주를 풀기 위한 주성분 분석(PCA) 선택미션 주차 진도 선택 미션 5주차 chapter 06 ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기 문제 풀이 전 선수 지식 주성분 분석에 관한 다음 3가지 문제를 풀기 전에 왜 주성분 분석이 필요한지 거슬러 올라가면 차원의 저주(The Curse of Dimensionality)라는 개념이 나온다. 이 개념부터 주성분 분석까지 간단하게 내용을 정리해보기로 한다. 차원의 저주(CoD) 일상 경험의 3차원 물리적 공간 과 같은 저차원 환경에서 발생하지 않는 고차원 공간 에서 데이터를 분석하고 정리할 때 발생하는 다양한 현상 데이터 마이닝에서는 특성이 너무 많은 데이터셋에서 발생하는 현상의 의미함 원인은 차원이 증가하면 부피가 기하급수적으로 증가하게 되는데 사용 가능한 데이터가 희박해짐, 즉.. 2023. 8. 12.
[혼공학습단] k-평균 알고리즘의 작동방식 사실 이번 미션은 새롭게 더 찾아볼 내용이 많이 없었는데, k-평균 알고리즘을 혼공머신보다 쉽게 설명한 책이 없었기 때문이다. 기본미션 주차 진도 기본 미션 5주차 Chapter 06 k-평균 알고리즘 작동방식 설명하기 먼저 이 알고리즘에 대해 설명하기 전에 k-평균 군집분석 개념부터 살펴보자. k-평균 군집(k-means clustering)이란? 데이터를 주어진 클러스터 k개로 각 개체를 가까운 초기값에 할당하여 클러스터를 형성한다. 그리고 각 클러스터의 평균을 계산하여 중심을 갱신하는 과정을 통해 전체 데이터셋을 상대적으로 유사한 k개의 최종 클러스터로 형성하는 분석 방법이다. k-평균 알고리즘 작동 방식 작동방식은 다음과 같다. ① 데이터 개체 내 임의로 k개의 클러스터의 중심을 정한다. ② 모든.. 2023. 8. 12.
[혼공학습단] 혼공머신 4주차 - 앙상블 모델 4가지 맛보기 선택미션 주차 진도 선택 미션 4주차 Chatper 05 ch.05(05-3) 앙상블 모델 손코딩 코랩화면 인증하기 앙상블 모델 앙상블(Ensemble)은 통일, 어울림를 뜻하는 프랑스어이다. 주로 음악에서 2인 이상이 하는 합주를 뜻한다. 그래서 앙상블 모델은 여러 모델을 결합해 보다 정확한 모델을 만드는 방법이라 정의할 수 있다. 보통 경험상 앙상블은 별도의 하이퍼파라미터를 주지 않아도 비교적 성능이 좋았는데, 여러 모델들이 결합되면서 기본적으로 오차가 줄어드는 원리를 가지고 있기 때문이라 생각했다. 책에서는 네 가지 앙상블 모델 방법을 소개하고 있다. 각각의 방법들을 직접 손코딩해보면서 실습해보자. 랜덤포레스트(Random Forest) 엑스트라 트리(Extra Trees) 그레이디언트 부스팅(Gr.. 2023. 7. 29.
[혼공학습단] 혼공머신 4주차 - 교차 검증, k-fold 기본미션 주차 진도 기본 미션 4주차 Chatper 05 교차 검증을 그림으로 설명하기 검증세트 만약에 훈련세트만 가지고 모델링을 하면 훈련 세트에 대한 성능은 매우 좋아지지만, 테스트 세트에 대한 성능은 보장하기 어렵다. 이것을 과대적합(overfitting)이라고 하며, 앞선 챕터에서 반복적으로 알려 주고 있는 개념이다. 그럼 테스트세트를 훈련하는 건 어떨까? 그 역시도 마찬가지다. 현실 세계의 데이터세트에서 성능이 좋지 않을 수 있기 때문이다. 따라서 테스트세트는 말 그대로 테스트용도로만 쓰는 것이 좋다. 이런 문제를 해결하기 위해 훈련세트(train set) 안에서 다시 검증세트(validation set)를 만들어서 사용한다. 앞서 훈련세트에서 테스트세트를 분리하기 위한 scikit learn의.. 2023. 7. 24.
[혼공학습단] 3주차 - 최적의 에포크값, 내 맘대로 찾아보기 선택미션 주차 진도 선택 미션 3주차 Chapter 04 Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡처하기 에포크와 과대/과소적합 잠시 책에 나온 내용을 떠올려보면 에포크 횟수가 적으면 모델이 훈련세트를 덜 학습하고 반대로 에포크 횟수가 많으면 훈련세트를 많이 학습하게 된다. 다시 경사하강법에서는 에포크의 횟수에 따라 강도가 정해지는데, 무조건 많이 한다고 좋은 것이 아니다. 왜냐하면 과대적합(overfitting)이 일어날 수 있기 때문이다. 그러나 우리는 어떤 값에서 과대적합이 시작하는지 모르기 때문에 이를 실습해보기로 한다. 그 전에 필요한 코드는 미리 입력해둔다. (여기서 random_state에 42를 입력하는 이유는 머신러닝 학습 결과를 책과 동일하게 맞추기 위함이다.) imp.. 2023. 7. 23.
[혼공학습단] 3주차 - 로지스틱 회귀를 확실하게 이해해보자! 머신러닝의 두 갈래인 회귀, 분류모델 중 회귀모델이 끝이 나고 분류모델로 넘어왔다. 기본미션 주차 진도 기본 미션 3주차 Chapter 04 Ch.04(04-1) 2번 문제 풀고, 풀이과정 설명하기 다음은 ch.04(04-1) p.198 2번 문제입니다. 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 무엇인가요? ① 시그모이드 함수 ② 소프트맥스 함수 ③ 로그 함수 ④ 지수 함수 정답은 1번 시그모이드 함수이다. 풀이를 위해 개념을 하나 하나 살펴보면서 정답을 도출해보겠다. 로지스틱 회귀 이 문제를 풀기 위해서 로지스틱 회귀 개념부터 다시 살펴보자. 로지스틱 회귀란 반응변수(종속)가 범주형인 경우 적용할 수 있는 회귀분석 모형이다. 다만 용어에 회귀라는 말이 붙을 뿐 실은 분류 모델.. 2023. 7. 17.