저는 비전공자입니다.

머신러닝, 딥러닝 도대체 무엇인지 궁금했습니다.

 

머신러닝, 딥러닝에 관한 뉴스는 많이 봤지만 구체적으로 어떤 개념들이 있는지, 어떻게 적용 및 활용되는지에 대해 궁금했습니다. 이 궁금증을 해결하기 위하여 아래와 같이 정리합니다.

해당 파트에서는 머신러닝, 딥러닝에 관련된 기본적인 개념과 모델 몇가지에 대해서 정리해봤습니다.

 

전체 학습 목표
  • ML(machine learning), DL(deep learning) 알고리즘에 관한 기본적인 알고리즘
  • Linear regression, Logistic regression
  • Neural networks, Convolutional Neural Network, Recurrent Neural Network

 

머신러닝은 무엇인가

기존에도 프로그래머들이 있었고 프로그래밍도 있었다.

우리가 지금 활용하고 있는 스팸 필터, 무인 자동차를 만들기에는 규칙을 너무 많이 구축해야 하는 문제점이 있다.

 

예시

메일 안에 '보험'이라는 글자가 1개 있을 때, 2개 있을 때, 3개 있을 때, n개 있을 때 도대체 어느 경우가 스팸메일이고 어느 경우가 진짜 메일인걸까? 실제 내가 가입한 보험사의 메일일 때 스팸으로 차단된다면,,, 내가 알아야 될 정보를 획득하지 못할 수 있다.

이런 경우 모든 경우의 수를 다 코드 안에 입력해야 할까? 상당히 비현실적인 방법이다.

 

해결: 기계에 학습시키자

즉 machine learning은 한글로 번역할 때 '기계학습'으로써, 학습하는 프로그램을 의미한다.

 

러닝(learning)은 무엇인가?

  • supervised learning
  • unsupervised learning

 

supervised learning: label을 가지고 학습

label이라는것은 일종의 정답지이다.

supervised learning은 정답지를 제공하면서 learning을 시키는 과정이다.

한마디로 강아지 사진을 보여주면서 강아지이다. 고양이다. 를 알려주고 

어떤 동물 사진을 보여줄 때 이것이 강아지인지 고양이인지 맞춰보도록 훈련시키는 것.

supervised learning

 

그러면 나중에 아래와 같은 문제도 기계 스스로 정답을 맞춰나갈 것이다

supervised learning 2

 

이러한 supervised learning은 지도학습 이라고 하며, 말 그대로 누군가 정답(label)을 지도해준다는 의미

대표적으로 3가지의 예시을 볼 수 있다.

  • image labeling: 강아지, 고양이(이미지) 정답 알려주고 훈련
  • email spam filter: 스팸인지 아닌지 텍스트를 보고 판단(rule 생성)
  • predicting exam score: 공부시간을 알면 성적을 예측

 

여기서 잠깐, training dataset이란?

training dataset이란 supervised learning을 훈련할 때의 데이터셋이다.

위에서는 강아지 사진들이 training dataset이 될 것이다.

"강아지 - 정답, 치킨 - 정답 아니야" 를 기계에 계속 훈련시키다 보면 마치 강아지의 특징들을 훈련받아 새로운 강아지나 치킨을 보여줘도 정확히 맞춰갈 수 있는 좋은 재료가 되는 것이 training dataset이다.

 

unsupervised learning: 정답지(label)을 갖고 있지 않음

우리가 고양이나 강아지를 정답을 알려주면서 학습했던게 supervised learning이라면,

unsupervised learning은 그냥 고양이 강아지를 던져주는 것이다. 

얘가 고양이고 얘가 강아지야 를 전혀 하지 않은 상태로 기계에게 주는 것이다.

그래서 그 둘의 특징을 기계가 알아서 나눠서 분류를 시키는 것이다. 

눈의 크기라든지, 귀의 넓이라든지 입의 모양 등을 기계가 자기맘대로 나눠본다.

한마디로 정답지(label)없이 던져주고 비슷하게 묶어봐 하는 느낌이다.


지도학습으로 할 수 있는 것은 아래와 같이 3가지

예측 - 시험점수가 몇점일지 예측하는 것, 보통 범위가 정수나 실수다.

이진분류 - 성공 혹은 실패처럼 딱 두가지 경우로만 나눌 수 있을 때.

다중분류  - 강아지, 고양이, 펭귄, 기린, 노루를 찾아야 할 때 처럼 정답이 정수개의 해당하는 대상이 있는 경우.

 

다음 내용은 지도학습으로 할 수 있는 것에 대해 조금 더 자세히 나아가보도록 하자.

특히 지도학습 알고리즘에 대해서 쉽게 정리해보겠다.

빅데이터 자격증인 경영 빅데이터 분석사 2급의 교재, 공부법, 합격후기에 관한 주관적인 내용을 적고자 합니다


 

아마 이 자격증에 관심이 많으시다면 보통은 아래의 항목 중 하나라고 생각됩니다.

  • 비전공자지만 데이터 업무에 관심이 있다
  • 데이터 업종과 관련된 곳에 취업하고 싶은 취준생이다
  • 업종 변경을 하고 싶다
  • 빅데이터 산업 관련된 자격증이 어떤 방식으로 취득하는지 궁금하다
  • 해당 자격증이 실제 업무에 어떻게 활용될지 궁금하다

 


 

위의 이유 중 하나라도 해당되면 잘 오셨다고 생각됩니다.

제가 이 자격증을 취득하는 과정에서 중요한 핵심적인 내용 크게 세가지를 준비 했으니

이를 정독하신다면 갖고계신 문제들을 해결한 느낌을 받을 수 있으실 겁니다.

 


 

목차
  1. 교재
  2. 공부방법 및 준비기간
  3. 활용 가능성

 


교재

저는 기본적으로 자격증 준비를 하면 반드시 2권 이상의 책을 삽니다.

교재란 것이 결국은 누군가의 주관적인 개입이 반드시 있기 때문에, 필수적으로 지정된 교재가 아닌 이상 같은 내용이더라도 다르게 쓰여질 수 있기 때문이지요. 

그래서 제가 구입한 책은 아래의 사진에서 보실 수 있듯 2가지 입니다. (슬라이드 형식이니 옆으로 넘기시면 됩니다.)

0123
경영빅데이터분석사 2급 교재 2권

 


우선 첫번째 교재에 대해서 살펴보죠.

시대고시기획 경영빅데이터분석사2급 자격증 서적

첫번째로 구입한 책은, 시대고시에서 기획한 경영빅데이터분석사 2급(단기완성) 책입니다.

판매 정가는 22,000원이고, 할인해서 보통 19000원대에 살 수 있더라고요.

 

제가 저번에 이야기 했던 경영빅데이터 분석사 시험 범위 기억 하시나요?

혹시 숙지가 안되신 분은 아래의 링크를 타고 가셔서 슬쩍 훑고 오시기 바랍니다.

 

경영빅데이터분석사 2급 합격후기, 빅데이터 자격증에 관한 놀라운 사실 #1

비전공자 경영 빅데이터 분석사 2급 찐 합격 후기 4차 산업혁명의 유행으로 다양한 비전공자분들이 유입되고 있습니다. 아마 방문자님 또한? 우리들에게 만만한것이 파이썬이나 R, SQL같은 코딩��

koreadatascientist.tistory.com

 

시대고시 책은 조금 유연하게 글이 게시되어 있습니다.

출제기관에서 정의한 시험 범위를 따르되, 유연하게 따라갈 수 있도록(유기적으로) 구성되어 있어요.

큰 틀은 같지만 세부적인건 본인들의 주관적인 방식으로 조금 각색했다고 보시면 됩니다.

이후에 비교할 서적보다도 조금 더 책이 두껍습니다. (개념과 문제가 조금 더 들어있어요)

약 3회독을 이 책으로 했는데, 마지막에 모의고사 문제가 상당히 어려웠었습니다.

이유인 즉슨, 앞에서 나온 내용이 심하게 꼬아져서(?) 혹은 낯선 세세한 내용이 나오기 때문인데요.

개인적으로는 너무 지엽적이고 쓸모없어 보이기도 해요. 하지만 뭐 상식공부한다치고 그냥 외웠습니다.

그리고 저는 초반에 점수가 40점대 나와서 멘붕이 심했습니다.

그러니 여러분도 처음의 점수에 너무 집착하지 않으셔도 된다고 생각합니다.  


 

와우패스 출판사의 경영 빅데이터 분석사 2급

두번째로 소개할 책은 와우패스에서 출판한 동일한 내용의 서적입니다.

제가 살 때는 정가가 20,000원이었으나 현재 개정된 버전은 18,000원에 온라인에서 판매를 하고 있네요

와우패스 자격증 책

 

해당 교재는 제가 처음 선택했을때, NCS기반이라고 써있어서 조금 혼동을 주기도 했지만 내용상의 차이는 없습니다.

해당 교재는 출제기관에서 명시한 출제방식 그대로 따라가는것 같더군요.

시험 2주전에 풀 문제가 없어서 급하게 사는 관계로 2번정도 봤었습니다.

핵심 개념만 다지고 바로 관련 문제를 풀수 있도록 구성되어 좋았던 것 같아요.

 

그래서 하나의 책을 고르자면?

나는 자격증도 따고 싶고, 광범위한 공부를 하고 싶다

시대고시 기획 경영 빅데이터 분석사 2급 책을 추천합니다.


 

난 자격증만 따면 되니 시험문제가 비슷한 책이 필요하다

와우패스의 경영빅데이터분석사 2급 책을 추천합니다.

이 책에서 문제를 낸건가 싶기도 할 정도로 꽤나 많은 문제가 비슷하게 나왔습니다.

구 버전
새로운 개정판(해당 교재를 구매하세요)

결론은, 어떤 책이든 책을 하나만 봐도 되지만,

공부의 목적과 자격증 취득의 목적 중 반드시 하나만을 우선순위로 택해야 제가 기재해논 내용을 참고하셔서 선택하시기 바랍니다.


 

공부방법

어떤 책을 사시든간에 큰 틀은 출제기관에서 정한 틀을 따릅니다.

그렇기 때문에 처음부터 미세한 개념을 외우기보다 우선은 목차 위주의 큰 개념을 얕게 파악하는 것이 중요합니다.

그 후에 나무들의 가지를 뻗어나가는 식으로 공부하시는게 좋습니다.

전문적인 지식을 습득하기 전에 기본적인 mind set을 주입하는 것이기 때문에 암기 위주의 공부가 많으니 공부하다가 조금 양이 버겁다고 느끼실 수도 있을 겁니다.

(이 시험은 단기간에 취득이 가능하다고 어디선가 우리는 주입당해왔기 때문에 더 그럴지도. 허허..)

 

공부 방법은 사실 개인마다 선호하는 것이 달라서 어떤게 정석이라고 말씀드리기는 힘듭니다만,

제가 생각하기에 가장 효율적인것은 모의고사 말고 기출문제에 전념하라는 것입니다.

당연한 진리지만, 이를 과소평가 하시는 분들이 있을 것 같아 노파심에 적습니다.

 

그리고 기출 문제 중에서 지엽적이라 생각 하는 것들이 있을지라도, 기출문제였다면 나올 확률이 있습니다.

즉, "이게 나오겠어?" 하더라도 기출문제라면 나옵니다.

그렇기 때문에 기출문제는 외울정도로 공부해 가셔야 됩니다.

 

준비기간

저 같은 경우에는 완전 입문자 입장에서 봤기 때문에 넉넉히 한달 잡았습니다.

2주 만에 1회독 독파하고 그 다음부터는 조금씩 더 빠르게 회독을 했던 것 같습니다.

우선 용어 자체도 익숙하지 않은 것들이 많았기 때문에 

저처럼 비전공자 출신(특히 경영도 잘 모르시는분)이라면 넉넉히 한달 잡으시면 좋을 것 같습니다.

아무래도 자격증공부가 다른 일도 하면서 같이 해야되기 때문에,,

본인이 암기머리가 좀 되고 용어도 익숙하다 싶으시다면 2주면 충분하리라 생각됩니다.

말씀드린것처럼 개념 위주의 공부를 통해서 기출문제를 정복하면 되는 시험이기 때문이죠.


 

활용 가능성

이미 해당 분야에서 데이터 분석을 하시는 분들은 이 자격증이 필요치 않으실 것 입니다.

실제로 업무에서는 이러한 내용이 기반으로 깔려있기 때문에 참고할만한 내용이 크게 있다고 보기는 어렵습니다.

실무에서는 조금 더 전문적인 부분을 다루기 때문이죠.

도메인이라든지, 코딩이라든지, 수학과 통계 등 말이죠.

 

그렇기 때문에 비전공자분들이 많을텐데 너무 걱정하지 마시기 바랍니다.

내용 자체가 주로 사회탐구, 과학탐구처럼 암기 위주의 공부가 많으실 겁니다.

이상한게 아닙니다. 마치 경영에서는 경영학원론, 경제학에서는 경제학개론과 같은 공부라고 보시면 됩니다.

그렇기 때문에 이 과목을 다 공부하시고 자격증 취득까지 완수하셨다해도, 데이터분석을 실질적으로 하는 것과는 괴리감이 있습니다.

 

예를 들어보죠

사회탐구 과목에서 '정치'라는 과목이 있습니다.

해당 과목 1등급을 맞는다고 정치를 다 잘하는 것은 아니죠?

딱 그정도 라고 보면 됩니다.

 

개인적인 생각으로는 학부생 1,2학년쯤이 가장 적합한 난이도라고 보겠네요.

하지만 대학교 1,2학년때는 그닥 자격증에 관심이 없는 것이 함정이라는거.

 

이 자격증을 통해 숲을 볼 기초소양은 쌓을 수 있으나,
실질적인 분석업무를 하기에는 매우 괴리감이 있는 과목이라고 생각이 듭니다(극히 주관적이긴 합니다)

 

만약 본인이 직접 무언가 분석을 하고 싶다면, 

제가 앞으로 정리한 파이썬이라든지 통계에 관련된 자료들을 보시기를 추천합니다.

기초소양을 쌓으면서 어느 도메인(산업 등)에 적용할것인지 어떤 방향성을 가질지를 고민해보시기 바라며 아래에 링크를 첨부해놓겠습니다.

 

'파이썬' 카테고리의 글 목록

영어와 데이터분석을 공부하며 주입식 교육방식에 고통받았습니다. 나름의 노하우를 블로그에 담으며 저만의 공부 생각을 공유하고자 합니다.

koreadatascientist.tistory.com

 

 

'수학' 카테고리의 글 목록

영어와 데이터분석을 공부하며 주입식 교육방식에 고통받았습니다. 나름의 노하우를 블로그에 담으며 저만의 공부 생각을 공유하고자 합니다.

koreadatascientist.tistory.com

 

혹은 이보다 조금 더 레벨이 높은 자격증이 필요하다 싶으시다면 ADsP(빅데이터 준전문가 자격증) 합격후기도 추후에 올릴 예정이니 읽어주시면 되겠습니다.

 


 

이 글을 다 읽으셨다면

자격증공부를 위한 어느정도의 윤곽은 잡으셨으리라 예상됩니다.

궁금한 점 댓글로 남겨주세요.

잘못된 내용에 대한 피드백은 언제나 환영입니다.

긴 글 읽어주셔서 감사합니다.

 

 

 

+ Recent posts