저는 비전공자입니다.

머신러닝, 딥러닝 도대체 무엇인지 궁금했습니다.

 

머신러닝, 딥러닝에 관한 뉴스는 많이 봤지만 구체적으로 어떤 개념들이 있는지, 어떻게 적용 및 활용되는지에 대해 궁금했습니다. 이 궁금증을 해결하기 위하여 아래와 같이 정리합니다.

해당 파트에서는 머신러닝, 딥러닝에 관련된 기본적인 개념과 모델 몇가지에 대해서 정리해봤습니다.

 

전체 학습 목표
  • ML(machine learning), DL(deep learning) 알고리즘에 관한 기본적인 알고리즘
  • Linear regression, Logistic regression
  • Neural networks, Convolutional Neural Network, Recurrent Neural Network

 

머신러닝은 무엇인가

기존에도 프로그래머들이 있었고 프로그래밍도 있었다.

우리가 지금 활용하고 있는 스팸 필터, 무인 자동차를 만들기에는 규칙을 너무 많이 구축해야 하는 문제점이 있다.

 

예시

메일 안에 '보험'이라는 글자가 1개 있을 때, 2개 있을 때, 3개 있을 때, n개 있을 때 도대체 어느 경우가 스팸메일이고 어느 경우가 진짜 메일인걸까? 실제 내가 가입한 보험사의 메일일 때 스팸으로 차단된다면,,, 내가 알아야 될 정보를 획득하지 못할 수 있다.

이런 경우 모든 경우의 수를 다 코드 안에 입력해야 할까? 상당히 비현실적인 방법이다.

 

해결: 기계에 학습시키자

즉 machine learning은 한글로 번역할 때 '기계학습'으로써, 학습하는 프로그램을 의미한다.

 

러닝(learning)은 무엇인가?

  • supervised learning
  • unsupervised learning

 

supervised learning: label을 가지고 학습

label이라는것은 일종의 정답지이다.

supervised learning은 정답지를 제공하면서 learning을 시키는 과정이다.

한마디로 강아지 사진을 보여주면서 강아지이다. 고양이다. 를 알려주고 

어떤 동물 사진을 보여줄 때 이것이 강아지인지 고양이인지 맞춰보도록 훈련시키는 것.

supervised learning

 

그러면 나중에 아래와 같은 문제도 기계 스스로 정답을 맞춰나갈 것이다

supervised learning 2

 

이러한 supervised learning은 지도학습 이라고 하며, 말 그대로 누군가 정답(label)을 지도해준다는 의미

대표적으로 3가지의 예시을 볼 수 있다.

  • image labeling: 강아지, 고양이(이미지) 정답 알려주고 훈련
  • email spam filter: 스팸인지 아닌지 텍스트를 보고 판단(rule 생성)
  • predicting exam score: 공부시간을 알면 성적을 예측

 

여기서 잠깐, training dataset이란?

training dataset이란 supervised learning을 훈련할 때의 데이터셋이다.

위에서는 강아지 사진들이 training dataset이 될 것이다.

"강아지 - 정답, 치킨 - 정답 아니야" 를 기계에 계속 훈련시키다 보면 마치 강아지의 특징들을 훈련받아 새로운 강아지나 치킨을 보여줘도 정확히 맞춰갈 수 있는 좋은 재료가 되는 것이 training dataset이다.

 

unsupervised learning: 정답지(label)을 갖고 있지 않음

우리가 고양이나 강아지를 정답을 알려주면서 학습했던게 supervised learning이라면,

unsupervised learning은 그냥 고양이 강아지를 던져주는 것이다. 

얘가 고양이고 얘가 강아지야 를 전혀 하지 않은 상태로 기계에게 주는 것이다.

그래서 그 둘의 특징을 기계가 알아서 나눠서 분류를 시키는 것이다. 

눈의 크기라든지, 귀의 넓이라든지 입의 모양 등을 기계가 자기맘대로 나눠본다.

한마디로 정답지(label)없이 던져주고 비슷하게 묶어봐 하는 느낌이다.


지도학습으로 할 수 있는 것은 아래와 같이 3가지

예측 - 시험점수가 몇점일지 예측하는 것, 보통 범위가 정수나 실수다.

이진분류 - 성공 혹은 실패처럼 딱 두가지 경우로만 나눌 수 있을 때.

다중분류  - 강아지, 고양이, 펭귄, 기린, 노루를 찾아야 할 때 처럼 정답이 정수개의 해당하는 대상이 있는 경우.

 

다음 내용은 지도학습으로 할 수 있는 것에 대해 조금 더 자세히 나아가보도록 하자.

특히 지도학습 알고리즘에 대해서 쉽게 정리해보겠다.

+ Recent posts