박민서 교수, AI와 데이터사이언스 입문 보다 쉽고 빠르게!...'데이터사이언스를 위한 기초수학 with 파이썬' 출간

누구나 떠올릴 법한 미분, 벡터, 선형대수, 확률, 통계 등 데이터를 다루는 머신러닝과 인공신경망 등의 학습에서 기반이 되는 중요한 수학적 개념을 왜 배워야 하는지, 무엇을 알아야 하는지, 어떤 역할을 하는지 속 시원하게 풀어주고 비전공자인 인문계 학생도 배경 지식을 전략적으로 학습할 수 있게 된다.

박민서 교수는 "이 책은 수학의 기본 개념을 배우고, 수학의 원리(why)를 데이터사이언스에 적용해서 보다 쉽게 이해할 수 있도록 설계되었습니다. 이 책을 통해 전공자나 비전공자들이 수학을 정복하기 위한 학문이 아니라, 쉽고 재밌는 놀이라고 느끼고, 두려움 없이 데이터사이언스 공부를 시작할 수 있었으면 합니다"라고 출간 소감을 밝혔다.

인공지능의 시작, 데이터사이언스를 위한 수학적 메타인지를 강화한다!

메타인지(Metacognition)란 내가 아는 것과 모르는 것을 판단할 수 있는 능력이다. 메타인지가 높다면 아는 것과 모르는 것을 명확하게 구분할 수 있다. 즉, 판단할 수 있는 능력으로 자신이 모르는 부분에 대해 더 많은 부분에 집중이 되고 자연스럽게 깨우치게 된다.

박민서 교수가 이제는 일상 속에서 너무 흔한 단어가 되어버린 AI와 데이터사이언스 입문자를 위해 메타인지 기법을 적용해 도서 '데이터사이언스를 위한 기초수학 with 파이썬'을 길벗출판사(대표 이종원)를 통해 출간해 화재를 모으고 있다. 이 책은 전공자나 비전공자들이 수학을 정복하기 위한 학문이 아니라, 보다 쉽고 재밌는 놀이라고 느끼고, 두려움 없이 데이터사이언스 공부를 시작할 수 있다.

저자 박민서 교수는 메사추세츠대학교(University of Massachusetts) 컴퓨터과학 박사(2009.10)로 삼성SDS수석연구원, 성균관대학교 삼성융합의과학원 수석연구원, SK 텔레콤 부장(팀리더), 한화시스템 상무(그룹 인공지능 총괄) 등의 연구 및 산업현장을 거치고 현재, KAIST 기술경영전문대학원 겸직교수(2018~), 서울여자대학교 데이터사이언스학과 교수로 재임 중이다.

이 책은 누구나 떠올릴 법한 미분, 벡터, 선형대수, 확률, 통계 등 데이터를 다루는 머신러닝(기계학습/ ML)과 인공신경망(Artificial Neural Network, ANN) 등의 학습에서 기반이 되는 데이터사이언스의 중요한 수학적 개념에 대해서 왜 배워야 하는지, 무엇을 알아야 하는지, 어떤 역할을 하는지 속 시원하게 풀어주고 비전공자인 인문계 학생도 배경 지식을 전략적으로 학습할 수 있게 된다.

특히, 코딩의 개념을 깨우치고 데이터 분석 및 웹 개발의 시작을 위한 파이썬(Python) 프로그래밍의 완벽 가이드로 코딩을 한 번도 접해보지 못해도 기초부터 심화 단계까지 파이썬 프로그래밍의 문법을 집중적으로 배울 수 있으며, 방금 배운 내용의 결과물을 바로 확인할 수 있다.

아울러, 문제해결을 위한 프로젝트성 실습문제 43개와 다양한 상황을 제시하여 응용 능력을 높여주는 279개 예제 등으로 벡터, 행렬, 선형대수학, 확률 및 통계, 미분의 연산과 기초적인 개념부터 머신러닝, 딥러닝 학습에 필요한 원리와 수학을 이해하고 파이썬 코드로 구현할 수 있다.

저자 박 교수는 "우리는 인공지능시대에 살고 있습니다. 이를 다르게 표현하면, 데이터의 활용이 필수가 되는 시대라고 표현할 수 있을 것 같습니다"라며, "데이터사이언스를 번역하면 데이터 과학, 쉽게 말해, 데이터를 가지고 컴퓨터에서 노는 일입니다. 잘 놀아서, 의미있는 결과를 뽑아내는 것입니다"라고 말했다.

이어 "디지털 시대가 되면서 무수히 많은 다양한 종류의 데이터가 생성되고 있습니다. 그런데, 실제, 컴퓨터는 0과1로만 구성된 계산기(computer) 입니다. 즉 모든 데이터를 수로 바뀌어야 되는 것이죠"라며, "결국, 우리는 모든 데이터를 수로 표현하고, 수의 연산으로 의미있는 것을 만들어내야 합니다"라고 강조했다.

또한 "이 책은 데이터를 다루는데 꼭 필요한 수학을 뽑아서 정리하였습니다. 사실 데이터사이언스를 하는데 필요한 수학은 고등학교 수준의 수학이면 충분합니다. 우리가 고등학교 때까지 풀이 위주의 수학을 배웠다면, 이제는 한 걸음 더 나아가, 수학의 원리를 이해하고, 수학을 데이터에 적용하여, 가치 있는 인사이트를 찾고자 합니다"고 덧붙였다.

박 교수는 "이 책은 수학의 기본 개념을 배우고, 수학의 원리(why)를 데이터사이언스에 적용해서 보다 쉽게 이해할 수 있도록 설계되었습니다. 이 책을 통해 전공자나 비전공자들이 수학을 정복하기 위한 학문이 아니라, 쉽고 재밌는 놀이라고 느끼고, 두려움 없이 데이터사이언스 공부를 시작할 수 있었으면 합니다"라고 출간 소감을 밝혔다.

이 책은 데이터사이언스를 공부하기 위해 필요한 수학의 원리를 7마당으로 구성됐으며, 첫째마당에서는 데이터사이언스가 무엇인지, 왜 수학을 배워야 되는지, 데이터사이언스에서의 수학의 필요성과 둘째마당에서는 기초함수의 개념을 배우고, 그 원리를 데이터사이언스에 적용해서 이해, 셋째마당에서는 데이터사이언스의 최종 골이 최적의 값을 구하는데 미분의 필요성을 살펴본다. 미분에 대해 이해하고, 이를 데이터사이언스에 적용해본다.

넷재마당에서는 벡터에 대해서 배우고, 벡터를 데이터사이언스에서 어떻게 활용되는지를 함께 학습하며, 다섯째와 여섯째마당에서는 미래를 예측하기 위해서 반드시 필요한 통계(과거의 기록을 대표하는 값)과 확률(미래의 예측의 기준이 될 수 있는 값)대해서 다루고 마지막으로는 일곱번째 마당에서는 데이터사이언스에서 많이 사용되는 성능평가에 대해서 살펴본다.

한편, 이 도서 '데이터사이언스를 위한 기초수학 with 파이썬'은 현재 교보문고, 영풍문고, 알라딘, 예스24 등 전국 유명서점이나 인터넷 서점을 통해 만나볼 수 있다.(아래는 목차)

▷첫째 마당: 데이터사이언스에서의 수학(데이터사이언스 시작하기)

데이터사이언스란(통계와 머신러닝의 차이점)?, 데이터사이언스의 프로세스, 프로그래밍과 머신러닝의 차이점, 데이터사이언스를 위한 준비물(주피터 노트북을 활용한 프로그래밍 환경 만들기, 구글 코랩을 활용한 프로그래밍 환경 만들기), 데이터사이언스를 위한 수학의 필요성

▷둘째 마당: 데이터사이언스에서의 기초 함수(기초 함수)

1차 함수(1차 함수에서 기울기와 절편의 의미), 2차 함수(최솟값과 최댓값의 원리를 통해 최적화 이해하기), 지수 함수(지수 함수의 이동), 로그 함수(로그 함수의 이동), 시그모이드 함수(정의, 활용, 원리와 오차).

▷셋째 마당: 데이터사이언스에서의 미분함수

데이터사이언스에서 중요한 수학 개념, 딥러닝의 작동원리와 미분함수, 미분함수, 미분의 응용, 미분 법칙, 딥러닝에서의 오차역전파, 오차역전파의 계산 원리)계산 그래프, 역전파 계산 원리, 오차역전파 계산방식).

▷넷째 마당: 데이터사이언스에서의 벡터(벡터의 기초)

선형대수, 벡터(벡터의 정의, 벡터의 특징, 벡터의 표현, 벡터의 종류, 데이터사이언스에서 벡터의 활용), 벡터의 특성(선형 결합, 선형 독립, 선형 종속, 벡터 공간, 벡터 공간의 표현, 부분 공간, 벡터 평면(R2)·공간(R3)의 기저, 표준 기저 벡터,

벡터의 연산 1, 벡터의 덧셈(벡터 덧셈의 성질), 벡터의 뺄셈, 벡터의 곱셈 : 내적, 벡터의 내적 방법, 벡터의 연산 2, 벡터의 연산 : 복습(덧셈, 뺄셈, 내적), 벡터의 곱셈 : 외적(벡터의 외적 연산 방법, 벡터의 내적과 외적의 비교), 특수 벡터 : 직교 벡터, SVM의 원리, 직교 벡터의 원리, 벡터의 크기, 벡터의 활용, 벡터의 거리(맨하튼 거리, 유클리드 거리).

▷다섯째 마당: 데이터사이언스에서 확률

확률의 기초(확률 시작하기 전에 : 통계와 머신러닝), 확률이란(수학적 확률 vs. 통계적 확률, 확률의 기본 용어, 확률의 정의 및 성질), 독립 시행의 확률(독립 시행의 확률 구하기 : 곱으로 구하기), 조건부 확률(독립 사건과 종속 사건, 조건부 확률), 베이지안 확률(Bayesian probability), 곱셈 정리, 베이즈 정리(Bayes’ theorem), 베이지안 확률 응용 : 데이터사이언스에 적용하기.

▷여섯째 마당: 데이터사이언스에서의 통계

확률변수(확률변수의 유형, 확률변수와 확률함수와의 관계, 확률함수의 유형, 확률질량함수 vs. 확률밀도함수), 확률분포, 확률변수의 기댓값, 분산(V (X ))과 표준편차(σ(X )), 확률 분포 유형, 통계적 추정과 검정, 통계적 추정(대푯값, 모집단과 표본, 회귀분석), 통계적 검정(가설 설정 : 귀무가설 vs. 대립가설 & 1종 오류 vs. 2종 오류, 유의 수준 결정, 유의 확률과 신뢰구간, 검정방법 : 양측 검정, 단측 검정, 검정 통계량).

▷일곱째 마당: 데이터사이언스에서의 성능 평가(혼동 행렬, ROC curve, AUC).

최광민 기자 ckm0081@aitimes.kr

다른기사 보기

상단영역

본문영역

박민서 교수, AI와 데이터사이언스 입문 보다 쉽고 빠르게!...'데이터사이언스를 위한 기초수학 with 파이썬' 출간

기사 댓글 0

비회원 로그인