![]() |
[머신러닝 리스크 관리 with 파이썬] 저자 : 패트릭 홀 , 제임스 커티스 , 파룰 판데이 저자(글) · 윤덕상 , 이상만 , 김경환 , 김광훈 , 장기식 번역 출판 : 한빛미디 발매 : 2024.05.10 |
암세포 조기 진단 모델과 신용평가 모델이 같을 수 없는 이유
딥러닝 모델을 통해 암세포를 조기 진단하는 경우와 신용평가 모델을 구현하는 경우를 비교해보자.
딥러닝으로 암세포를 조기 진단하는 모델에서는 높은 정확도가 무엇보다 중요하다.
정확히 암세포를 감지 할 수 있다면, 환자의 생명을 구하는데 큰 기여를 할 수 있다. 사실 그 정확도 조차도 암 발병 확률로 치환한다면 모델로서 나쁘지 않을 거라 생각한다.
어쨌든 이 경우, 설명 가능성은 상대적으로 덜 중요하고 모델이 암세포를 얼마나 정확하게 예측하는지가 중요할 것이다.
반면, 신용평가 모델의 경우, 설명 가능성이 매우 중요하다.
신용평가 모델이 딥러닝과 같은 복잡한 알고리즘을 사용할 때, 금융 기관은 왜 특정 개인이 신용을 부여받지 못했는지에 대한 명확한 이유를 제시할 수 있어야 한다.
투명성과 공정석을 보장하기 위해서 필수적이다. 만약 모델이 설명 가능하지 않다면, 고객은 자신이 왜 신용을 부여받지 못했는지 이해할 수 없고, 이는 법적 또는 윤리적 문제를 야기할 수 있다.
https://www.news1.kr/articles/?4777018
AI로 숨어있는 '암 세포' 찾아낸다…암 정복 한발짝 더
(서울=뉴스1) 구진욱 기자 | 인공지능을 활용해 몸 속 곳곳에 흩어진 암세포를 찾아내는 기술을 국내 연구진이 개발하는데 성공했다. 이 기술을 활용하면 암 치료 성공률을 획기적으로 높일 수
www.news1.kr
https://www.dt.co.kr/contents.html?article_no=2024060402109963076006
http://www.dt.co.kr/contents.html?article_no=2024060402109963076006
www.dt.co.kr
책의 구성과 내용
#️⃣ 기본정보
ISBN | 9791169212380 |
발행(출시)일자 | 2024년 5월 10일 |
쪽수 | 552쪽 |
크기 | 182 * 235 * 27 mm / 1077 g |
#️⃣ 목차
책의 감상평
#️⃣ 모델 선택에 있어 ‘설명 가능성’이 중요한 이유
우리가 적절한 머신러닝 모델을 선택할 때 주로 고려해야 하는 요소는 다음과 같다.
이 문제가 분류인지 회귀인지와 같은 유형, 각 모델이 가지고 있는 정확도, 데이터의 크기와 양 그리고 비즈니스 측면에서 비용과 시간 등이다.
서두에서는 신시아 루딘의 논문을 인용하여 ‘정확성과 해석 가능성 간에 반드시 상충관계가 있다는 것은 잘못된 생각’이라고 주장하며, 설명가능한 모델의 중요성과 필요성에 대해 언급한다.
이는 시간이 지날수록 더욱 중요해지고 있는데 모델의 정확도가 아무리 100에 가까워지더라도 모델을 설명할 수 있는 근거(신뢰)가 부족하다면 새로운 학습데이터를 추가로 훈련했을 때도 그 정확도를 보장할 수 없기 때문이다.
#️⃣ 인공지능 모델의 위험 요소 파악하기
인공지능의 모델의 위험관리를 위한 요소로써 설명가능한 모델, 모델 디버깅, 편향관리, 보안에 대해서 다룬다.
디버깅은 모델이 제대로 작동하는지 확인하고, 예기치 않은 오류를 수정하는 과정이고 편향 관리는 모델이 특정 그룹에 대해 차별이지 않도록 보장하는 것이다. 모두 공정성과 윤리성 확보에 필수적이다. 보안은 말 그대로 모델이 외부 공격에 취약하지 않도록 보호하는 것을 의미한다.
이러한 요소들이 모두 설명가능한 모델을 구축하는데 모델을 구축하는데 중요한 역할을 한다.
이 책에서는 각각의 구체적인 사례와 유형을 통해 설명하고 있다.
예컨대, 보안 분야에서는 머신러닝 공격에 있어 시스템 출력을 변경하는 공격인 무결성 공격,데이터 행을 조작하는 공격을 통해 특정 목적을 이루는 대립예제 공격, 모델의 코드에 접근하여 입력변수나 예상치 못한 조합을 인식하게 만드는 백도어 공격까지 다양하게 다룬다.
데이터 사이언티스트나 프로젝트 관리자라면 소홀할 수 있는 보안 영역까지 챙겨주는 세심한 느낌이 든다.
.
#️⃣ XGBoost 모델 예시를 통해 위험 관리를 직접 실습해보기
이 책은 Python을 사용하여 설명 가능한 모델을 훈련하고 디버깅하는 방법을 실제 예제를 통해 제시한다.
특히, XGBoost 모델을 사용하여 설명 가능한 모델을 만드는 과정과 이를 디버깅 하는 방법을 상세히 다룬다.
앞서 제시한 위험 요소를 직접 실습을 해볼 수 있는데, 역시 보안 분야에서 제시한 데이터 오염을 직접 코드로 작성해서 어떤 식으로 결과에 영향을 미치는지, 또 얼마나 치명적인지를 설명한다.
추천독자
추천 독자는 머신러닝 모델링 실무를 하는 데이터 사이언티스트 혹은 데이터 조직 관리자 정도 인 것 같다.
책은 실무적인 관점에서 머신러닝 모델의 리스크 관리에 대해 서술하고 있다. 그러나 이는 AI산업이 휠씬 고도화된 미국이나 유럽의 관점이고 당장 우리나라에서 쓸 수 있을지는 잘 모르겠다.
그럼에도 머신러닝 모델 실무를 하는 입장에서 투영한다면 모델의 윤리적, 법적, 보안, 편향과 같은 위험요소를 미리 관리한다는 개념으로 접근한다면 충분히 유용하지 않을까 생각한다.
다만, 나의 경우엔 책의 내용을 따라가기도 벅차고 이해하지 못하고 넘어가는 부분이 절반이상이라 추천 독자 역시 정해두기 어려움을 밝혀둔다.
💡 한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다.
'책' 카테고리의 다른 글
쓸모 있는 AI 서비스 만들기 - 세상이 이렇게 바뀌었다. (1) | 2024.08.27 |
---|---|
처음 시작하는 FastAPI - 이왕 처음 배우는 거라면 최신 기술 (1) | 2024.07.27 |
UX 디자인 입문 A to Z - 후루룩 머리 속에 정리되는 UX 디자인 (1) | 2024.06.07 |
데이터 드리븐 리포트 - 데이터 분석 보고 어떻게 하는지 모르겠다고요? (0) | 2024.05.18 |
완성된 웹사이트로 배우는 자바스크립트 - 일단 해보자! (0) | 2024.04.13 |
댓글