이전에 지도학습과 비지도학습에 대해서 배웠다.

해당 내용은 그림으로 간단하게 나타냈으므로 다음 글을 슬쩍 훑고 와보자.

 

머신러닝, 딥러닝 개념, 지도학습 및 비지도학습 _ 비전공자의 머신러닝 딥러닝 학습기 # 1

저는 비전공자입니다. 머신러닝, 딥러닝 도대체 무엇인지 궁금했습니다. 머신러닝, 딥러닝에 관한 뉴스는 많이 봤지만 구체적으로 어떤 개념들이 있는지, 어떻게 적용 및 활용되는지에 대해 궁

koreadatascientist.tistory.com


지도학습 알고리즘은 크게 regression과 classification이 있다.


regression

오차가 가장 적은 예측선을 잘 찾아내는 것이 목표이다.

 

 

 

 

 

classification

정수개의 답을 잘 맞추는 것이 목표이다.

 

 

 


regression이건, classification이건 모든 과정은 아래와 같이 크게 3가지 순서를 따른다.
  1. Hypothesis - 가설을 세운다. ex. regression에서는 특정 선이 오차를 최소화 시키도록 예측한 선일 것이다.
  2. Cost function - 위의 가설에 대한 오차들을 계산한다
  3. Gradient descent algorithm - 오차를 최소화 하기 위해 미분한다.

regression

보통은 실수의 데이터를 가지고 학습을 시킨다.

위처럼 산점도에 대한 데이터가 있을 때 해당 산점도를 잘 나타내는 하나의 선을 찾는 것이다.

보통 구부러지지 않은 선을 찾는 것이 Linear Regression이라고 한다.

목표는 좋은 선을 찾도록 학습하는 것이다.

 

Hypothesis

그렇다면 좋은 선이 뭔데?

선의 함수가 H(x)이고 해당 식이 Wx + b 일 경우 어떤 선이 가장 좋은가?

(함수 이름인 H는 Hypothesis의 가설선을 의미)

 

그럴싸한(가설) 선을 하나 그어주고,

각 점과 가장 가까운 선 사이의 거리를 계산해보자

이 거리를 linear regression에서는 error라고 하며, 우리가 학습하는 용어로는 cost라고 한다.

 

 

 

자 그러면 다 됐나?

아직..!

H(x) (가설 선) -  y (실제 값인 점) 이라는 cost(error)를 구하면 끝인거 같지만, 사실 이 자체의 cost는 의미가 조금 구리다.

왜냐하면 음수가 될 수 있기 때문에.


그러면 절댓값을 하면 되지 않을까? 

이에 대해서는 분산에 대한 개념과 비슷하게 접근할 수 있는데, 여기서 설명하기 보다 아래의 글을 한번 참고해보면 왜 절댓값보다 제곱이 나은지에 대해서 알 수 있을 것이다. (아래 내용 안에서 "3가지에 대한 의문점"을 검색해보자)

 

(비전공자를 위한 통계학) 평균, 분산, 표준편차의 개념, 자유도는 덤으로 !

평균과 분산을 억지로 외우며 듣는 여러분들께 바칩니다 (저같은 통계수업 듣는 비전공자들 화이팅...)  평균과 분산에 대한 개념을 정말 쉽게 뿌셔보겠심당!! 우리는 이전시간에 어떠한 자료들

koreadatascientist.tistory.com


그렇기 때문에 저 값에 제곱을 구해준다.

그 후에 그것들(차이의 제곱들)을 합한 평균을 구한다.

그 결과 cost function은 W와 b의 함수가 된다.

(참고로 y = ax+ b는 a와 b의 함수이다)

여기서 Y는 실제값이고, Y-hat(모자쓴모양) 은 예측값(가설 선)이 된다. 

둘의 차이는 error이므로, cost라고 표현할 수 있다.

이러한 cost(W, b)를 가장 작게 하는 것이 linear regression의 학습이 된다. 

 

그러면 cost function을 어떻게 최소화하는데?

어떻게 찾아낼까? 

regression이든, classification이든 3가지의 순서를 따른다는 것을 기억하는가?

우리는 1.가설 선을 만들었고, 2.가설 선과 실제 값과의 차이(error, cost)를 구했고 이제 마지막으로 어디가 cost가 최소가 될지를 미분을 통해서 구해야 한다.


gradient descent algorithm

예를 들어 어두운 산 어딘가에서 길을 잃었다고 하자.

우리가 의존할 것은 내가 발을 디디는 곳이 아래로 가는 경사인지, 위로 가는 경사인지에만 전적으로 의존해야 한다.

이 경우에 우리는 계속 내려가는 경사만을 찾을 것이다.

경사만을 따라서 기울기가 0인 아래를 찾아가야 한다

이렇게 경사를 구하는 것이 순간변화율이라는 미분을 활용하는 것이고,

이 변화율이 0이 되는 지점이 cost를 최소화하는 지점이다.

 

 

(참고로 알파라는 값이 있는데 이는 보폭을 얼마나 할 것으로써, 하나의 중요한 인자가 된다)

 

여기서 잠깐!

convex function

W를 한 축으로, b를 한 축으로 해서 y축이 cost로 만드는 3차원 그래프를 그릴 때(아래 그래프에서 세타0 세타1이 W, b라고 생각하고 J(세타0, 세타1)이 cost라고 생각해보자)

W와 b가 각각 최소가 되는 방식으로 아래쪽으로 내려오면 하나는 동쪽, 하나는 남쪽으로 즉, 각자 다른 방향으로 내려오게 될 수도 있다. 각자 최소값이 다르게 형성된다는 것이다.

이것에 대한 해결방안으로 Convex Function을 적용하면 된다.

convex 함수는 어느 점에서 시작하든 간에, 도착하는 지점이 우리가 원하는 지점(cost가 가장 최소)을 보장한다.

동일한 산에서 3명의 사람 A, B, C어느 위치에 놔두든 산의 모양이 위와 같다면,

경사를 따라 내려가면 동일한 위치에 만나게 될테니까.

즉, cost function의 모양이 convex function이라는 것을 확인한 상태로 Gradient Descent(경사하강법; 미분)를 해야한다.

2차원에 표현한 Convex Function의 예시

y가 cost일 때, convex가 보장되지 않은 함수라면 오른쪽 그림 중 왼쪽 점처럼 local minimum에 수렴할 수 있다.

non-convex라면, 기준이 2가지(W, b)가 되므로, 각각에 대해 낮은 2가지 cost값이 정해지는 것이다.

 


 

국가공인 데이터분석 준전문가 자격증(ADsP) 합격후기


빅데이터 및 4차 산업혁명이 대두됨에 따라서 많은 비전공자분들이 유입되고 있습니다.

접근성 좋은 것은 아무래도 자격증이죠

남들 다 2주면 취득한다, 심지어 1주만에 취득한다 라고 하는데,, 

요점만 말씀드리면, 1주일에 절대 합격 못합니다...

 

그 대세에 힘입어서

저도 큰 꿈을 갖고 자격증 시험에 도전했었습니다.

제 문제는 통계나 수학, 코딩도 모르는 완전 무식이었다는 점입니다.

비전공자중에서도 정말 평균 이하의 지식수준이었던..

그래서 어떻게 되었을까요?

남들처럼 저도 2주일만에 합격하고 그랬을까요? 

결론적으로 저어어언혀 그렇지 않았다는거...

 

 

이 글을 읽은 여러분들은 행운입니다.

제 글을 통해 효율적인 전략과 좋은 효과를 획득할 수 있을 것입니다.

궁극적으로 이 자격증에 도전하기 위해 관심을 갖고 계신 여러분은 저보다 더 빠른 시일내에 높은 점수로 취득하시리라 생각합니다.

물론 제 글을 다 보시고 난  뒤에 머리에 꼭 남아 있으시다면요 ! (따로 정리해두거나 즐겨찾기에 두고두고 보시면 좋아요)

그러니 차근 차근히 음미하면서 읽어주세요


목차

  • ADsP 시험에 대한 이해
  • 시험을 보기 전 나의 상황 및 마음가짐
  • 시험을 도움받을만한 사이트

ADsP 시험에 대한 이해

무언가를 하기 위해선 목표를 정립해야 하지요.

하지만 우리는 간과하는게 있는데요.

'무언가'를 제대로 정립하지 않는다는 것입니다.

그렇기 때문에 여러분들이 단순히 지름길이 아닌, 정도(正)를 가시기 바라는 마음으로

기본적인 ADsP 시험의 개념과 유형들을 정리해봤습니다.

아래의 내용은 주저리 쓰지 않았고, 핵심만을 다뤘으니 반드시 꼭 정독해주세요~

 


 

ADsP는 국가공인자격이며 응시자격은 제한이 없는 시험입니다.

크게 3가지의 내용으로 구성되어 있습니다.

데이터 이해, 데이터분석 기획, 데이터분석 파트입니다.

아래는 출제기관에서 명시해놓은 영역별 점수비중입니다.

표가 조금 난해하게 보일 수 있지만 한번 훑어보세요.

그리고 아래에 내용을 따로 정리해뒀습니다.

ADsP 출제문항수

 

말씀드렸듯이 이해, 분석 기획, 분석 이라는 3가지 부분으로 나뉩니다.

이해(20%) 분석기획(20%) 분석(60%) 비중입니다.

그리고 합격 점수는 평균60점 입니다.

그러면 분석(60%) 부분의 점수를 다 맞는다면 합격일까요?

아닙니다. 과락의 조건이 있습니다.

각 영역별로 40%의 비율은 정답을 맞아야 한다는게 그 조건입니다.

 

즉 전체를 100점으로 가정할 때, 

각각 이해(8점) 분석기획(8점) 분석(24점)의 점수는 최소한 넘어야 됩니다.

그리고 셋을 합산해서 60점을 넘어야 된다는 것이죠.

각 영역별 20%는 단답식 문제인데요.

다행히도 서술식이 아닌 단답형입니다.

팁을 드리자면 보통 답은 2~6글자 이내입니다.


 

3가지 영역별로 조금 더 자세히 말씀드리겠습니다.

시험을 준비하는 분들이 아니라 이제 준비하실 분들이 많이 보실것이기 때문에

제가 최대한 시험에 직접적으로 나오는 내용 말고, 이해하기 쉽게 풀어서 말씀드리겠습니다.

 

1과목

ADsP 1과목 데이터 이해

1과목 데이터 이해는 사실 암기과목입니다.

이런것을 외우고 있다고 해서 현업에서 크게 도움될 것 같진 않지만 우린 자격증 취득이 목표니까 외울 필요성은 있어요.

그냥 데이터 과목들의 개론 느낌이랄까요.

전체적이고 거시적인 숲을 설명해주는 느낌입니다.

그러므로 이해할 부분도 없으니 단순히 외우시면 됩니다.

 

2과목

ADsP 2과목 데이터분석 기획

2과목 데이터분석 기획은 1과목에 비해 조금은 까다로운 암기 부분입니다.

특히 이 과목때문에 과락되는분들 은근히 많으시니 방심하면 안되는 부분입니다.

시험 공부 막바지에는 오히려 2과목이 너무 까다로워서 다 틀릴 것 같은 느낌이 들어요.

이건 내용을 보시면 알아요. 단순히 외우기엔 너무 많기도 하고요. 이걸 설마 다 외워야 해?! 했는데, 문제에선 진짜로 나오더라고요 그게 너무 충격이었습니다..

내용은 주로 데이터를 갖고 프로젝트를 할 시에 정립하는 사항에 대해서 나오는데요.

프로젝트 관련된 내용은 보통 학부생 수준에선 잘 다루지 않습니다.

보통 관리자들을 위한 교육이나 MBA과정에서 다루지요.

즉, 낯설게 외워야 되는 부분이라고 생각하면 될 것 같습니다.

 

3과목

 

ADsP 3과목 데이터분석

데이터분석 3과목은 이 시험의 꽃같은 구간입니다.

말 그대로 분석에 관련된 전문적인 지식을 알려주는 부분입니다.

그렇기 때문에 저같은 비전공자는 상당히 낯설고 멘붕일 수 있어요.

저 2회독까지 진짜 무슨소리인지 모르면서 봤었습니다.

그리고 이게 프로그래밍 언어 R의 내용도 나오고 해당 언어의 문법도 나오기 때문에 정말 외울게 많았다고 볼 수도 있고요. 

통계적 결과물을 통해서 해석하는 문제들이 주류를 이루기 때문에, 익숙해지는데에 꽤나 오랜 시간이 걸렸습니다.

다행인건 수학이나 통계적인것도 직접적인 계산을 요구하지 않기 때문에 미적분이나 확통처럼 풀어야 되는게 아닌가 싶은 고민은 덜어두셔도 될 것 같아요.

알고리즘에 대한 개념 및 장단점에 대해서 외워야 하고요.

일반적으로 쓰이는 기초적 분석기법은 다 들어가있습니다.

내용도 앞의 1과목 2과목에 비해 3배정도 많으니 양에 압도당하실 수 있으니 마음 단단히 잡으세요!


시험을 보기 전 나의 상황 및 마음가짐

저는 네이버에서 이 자격증을 검색해봤을 때 모두가 1주 2주면 취득한다고 하는데

저는 대부분의 사람들에게 그것을 불가능이라 생각합니다.

물론 이 시험의 장점은 '시험이 쉽다'라는 것입니다.

그러나 내용 자체는 좀 많아요.

아마 단기 합격자 대부분의 분들은 시간이 너무 많으셔서 하루종일 공부에 투자할 수 있는 분이시거나, 전공자분들이 아닐까 싶어요. (혹은 시험이 엄청 쉬웠거나,,,)

물론 1주일 공부해서 합격이 불가능한것도 아니긴 해요!

하지만 저는 1회독 하는데에 일주일 걸렸고요.

2회독 하는데에는 10일 걸렸는데요.

그때까지도 내용 이해가 안되서 모의고사 풀면 30~40점 맞았습니다. (무식인증;)

대부분의 응시자분들은 저와 비슷한 상황을 겪으리라 생각해요.

그래서 적어도 3주는 여유롭게 준비하셔야 맘조리지 않고 시험을 준비할 수 있을 것 같다고 생각합니다. 

특히 직장인이나 다른 시험공부를 같이 해야하는 학생분들은 더더욱이요.


도움받을만한 사이트

아무래도 책이 많다보니 온라인상에 크게 자료가 돌아다니지는 않더군요.

요근래에 응시자들이 스스로 정리한 자료들을 올리긴 하는데, 그런 것들은 구글링만 해도 쉽게 찾을 수 있습니다.

하지만 그런 자료보다도 본인이 직접 정리하는게 가장 좋은거 아시죠?

 

그리고 각 서적별로도 기출문제가 다 달라요.

이유인 즉슨 출제기관에서 문제은행식으로 문제를 내기 때문에 기출문제 배포가 안되기 때문인데요.

그래서 대부분의 책에서 시험 응시자들의 경험에 의존해서 기출문제와 선지가 만들어집니다.

서점에서 다양한 ADsP책을 찾아보시고 각 기출문제를 보시면 비슷하면서도 다른 부분이 꽤 많다는 것을 알 수 있어요.

책에 대한 내용은 제가 다음 블로그에서 새로 다루려고 합니다.

 

그렇다면 동영상 강의를 들어야 될까요?

저도 정확히는 말씀드리기 어렵습니다.

장점을 꼽으라고 하면, 

뇌에 정립되어 있지 않은 개념을 조금 더 친절하고 자세하게 설명해주긴 합니다.

물론 단점은 자본..이죠 ^^ㅋㅋㅋ

그래서 본인이 반드시 단기간에 따야하고 난 시간이 많다. 좀 퍼먹여줬으면 좋겠다.

싶으면 하시면 됩니다.

만약 난 여기에 도저히 책 값 이외에는 투자하기 싫다.

라면,, 안들으시면 됩니다.

 

결론은 시험에 도움받을만한 무료 사이트는 딱히 없다고 판단됩니다.

오히려 저 같은 경우에는 카카오톡 오픈채팅방에서 도움을 받았고요.

특히 시험 일주일전쯤부터 폭풍 질답시간이 이어집니다.

시험당일날 밤새는분들도 엄청 많아요 ... ㅋㅋㅋ

혹시라도 도움이 되실까봐 링크 올려둘게요. open.kakao.com/o/gflE8pLb

 

Adsp / Adp 씹어먹는사람들

#벼락치기할시간도없어서#나올것같은것만골라공부하는#타노스공부법

open.kakao.com


 

쓰다보니 내용이 조금 길어진 것 같습니다.

한번에 모두 정리하고 싶지만, 읽는분들의 피로함을 위해서라도 조금 나눠서 작성하는게 맞을 것 같아요.

이번 내용은 아래와 같이 정리해볼 수 있겠군요.

 


  • ADsP 시험에 대한 이해
    • 1과목은 암기, 2과목은 까다로운 암기, 3과목은 멘붕가능성 높음
  • 시험을 보기 전 나의 상황 및 마음가짐
    • 비전공자이고 인터넷으로 단기합격후기를 너무 봐서 그런지 자존감이 상당히 낮아진 시기가 있었다는 거..
  • 시험을 도움받을만한 사이트
    • 본인이 정리한것이 가장 좋고, 온라인 유료강의 혹은 오픈채팅방을 활용해봅시다.

이 글의 다음으로는 ADsP 교재, 구체적인 공부방법, 활용방안에 대해서 다뤄봐야 될 것 같습니다.

시간이 된다면 다른 빅데이터 자격증과도 비교해보면 좋겠군요.

이 글을 다 읽으셨다면 반드시 다음 블로그의 글도 읽어주세요.

감사합니다.

 

ADsP 데이터분석 준전문가 자격증 독학 합격후기 - 진짜 비전공자 후기 #2 adsp 책 추천!

데이터분석준전문가(adsp) 책, 기출문제, 공부방법에 관련된 진짜 꿀팁! adsp 기출문제나 교재 및 책에 관련된 정보가 궁금하신 분들이 많을 겁니다. 이번 시간은 데이터분석준전문가 자격증 책에

koreadatascientist.tistory.com

 

+ Recent posts