데이터프레임 합치기, 행렬 합치기


 

비전공자로서 이해하기 힘들었던 데이터합치기의 방법에 대해 정리

numpy의 array 합치기, pandas의 Series, dataframe 합치기 및 병합

 


핵심개념

numpy의 concatenate는 행렬의 shape를 맞추면 합치는게 가능하다.

pandas는 2차원의 데이터프레임 형태에서 유일한 컬럼(primary key)을 기준으로 맞춰주면 시리즈끼리 혹은 데이터프레임끼리 하나의 데이터프레임을 만들어준다.

 


numpy - concatenate

이번 시간에는 numpy의 concatenate에 대한 내용을 살펴볼 것이다.

axis에 대한 이해와, 실제 적용 코드와 결과물을 살펴보자.

이후에는 pandas의 concat을 살펴볼 것이다. 

ndarray의 형태나, dataframe를 합치는 일은 상당히 많기 때문에 익숙하게 해두면 좋다.

 


추가적으로, pandas의 병합 함수인 merge라는 방법이 적힌 글도 있으니 반드시 다양한 병합방법을 알아두자.

 

파이썬 판다스 데이터프레임 합치기 3가지 - 비전공자의 친절한 설명 in python pandas merge

데이터프레임 합치기에 대해 비전공자도 쉽게 이해하도록 설명하겠습니다. 저는 파이썬을 잘 몰랐던 비전공자입니다. 파이썬을 설명해주는곳은 학교나 온라인플랫폼이나 모두 저같은 저지능(?

koreadatascientist.tistory.com


 

numpy array 생성코드

 

우선 두 numpy array 형태를 생성해보자.

import numpy as np # numpy 라이브러리 호출

a = np.array([[1, 2], [3, 4]]) # 2 X 2 행렬
b = np.array([[5, 6]]) # 1 X 2 행렬

a_numpy array 
b_numpy array

 

위의 두 array를 concatenate 하는 방법은 크게 2가지가 있다.
  1. b array를 a array의 아래에 붙이는 방법
  2. b array를 a array의 오른쪽에 붙이는 방법

 

우리가 보통 pandas 라이브러리의 dataframe을 전처리할 때, 판다스 함수들의 옵션 파라미터로 axis라는 옵션을 0 혹은 1로 준다. 여기서 axis=0은 row에 대해서, axis=1은 column에 대해서 적용한다.

row에 대한 느낌은 레코드 하나하나에 대한 느낌이고, column에 대한 느낌은 하나의 속성에 대해 적용한 느낌이다.

이러한 느낌을 그림으로 나타내면 아래와 같다.

numpy axis, pandas axis

본인도 axis에 대한 개념이 처음에는 익숙치 않아서 가로 세로 헷갈렸다.

axis = 0의 화살표가 아래로 향하는 그림들에 익숙해졌는데 어떤 연산결과를 보면 납득이 안되는 경우가 많았다.

개인적으로는 axis = 0 은 가로로 줄을 그어서 생각하는게 편했고, axis =1 은 세로로 줄을 그어서 생각하는게 편했다.

(지금 이해가 안되도 계속 아래에 설명해놨으니 넘어가자)

 

numpy concatenate로 돌아와서, 

concatenate를 하는 두가지 방법에 대해서 다시 살펴보자.

두 방법을 코드로 구현하면 모두 동일하다.

numpy를 선언한 뒤에 concatenate라는 메소드를 불러와서 두 array 형태를 괄호 안에 넣어주면 된다.

np.concatenate((a, b))

 

다만 아까 언급한 옵션 파라미터 중 axis가 0이냐 1이냐에 따라 결과가 달라진다.

 

우선 첫번째 방법이었던 b array를 a array의 아래에 붙이는 방법은 어떻게 나타낼까?

 

답을 내기 이전에, d array를 a array의 아래에 붙이기 위해서는 axis=0과 axis=1중 무엇이 올바른 방법일까?

 

본인이 위에서 언급한 것을 참고하면, axis=0은 데이터프레임 아래쪽에 가로줄을 쭉 긋는 것이다.

많은 이미지들이 화살표가 아래로 내려갔기 때문에 세로로 줄을 긋는다고 혼동할 수 있으나,

데이터프레임에서 가로로 줄을 긋는다는 것이 값들은 세로로 합산된다는 의미인 것임을 알아야 한다.

즉 아래쪽으로 쭉 계산하기 위해서는 데이터프레임의 아랫부분에 줄을 하나 그어서 수학 연산 한다고 생각하면 편하다.

엑셀로 도식화하면 아래와 같다.

(아래에 굵은 가로줄이 있음에 집중하자. 화살표는 해당 값들이 어떤식으로 진행되는지를 나타내는 그림이었다.)

그렇기 때문에 b array를 a array 아래에 붙이는 concatenate를 하기 위해선 axis=0이라는 옵션 파라미터를 넣어줘야 한다.

 

numpy concatenate axis=0 코드

np.concatenate((a, b), axis=0)

해당 결과는 어떤식으로 나올까?

 

다시 a와 b의 array형태를 보여주겠다.

a_numpy array 2 X 2
b_numpy array 1 X 2

 

따라서 두 행렬을 axis=0 기준으로 합친다면 a array의 아랫부분에 가로로 긴 줄을 긋는다고 생각하자.

결국 b array 는 a array의 아래로 들어가서 아래와 같은 결과물이 나올 것이다.

concatenate axis=0


numpy concatenate axis=1 코드

 

그렇다면 axis=1인 경우에는 어떻게 될까?

a array의 오른쪽에 긴 세로줄을 긋고 그 오른쪽에 b array를 붙인다고 생각하면 될 것이다.

 

그런데 문제가 있다.

b array는 1 X 2의 행렬형태인데, 도대체 오른쪽에 붙여야 한다면 첫번째 행에 붙일지, 두번째 행에 붙일지 알 수가 없다.

그렇기 때문에 numpy 자체도 오류가 발생한다.

numpy concatenate error

에러 내용인 즉슨, "모든 인풋 차원은 정확히 axis에 대해 매칭되어야 하니까 잘 맞춰봐 이자식아..(?)" 라고 보면 된다.

 

다시 잘 살펴보자. 기계가 이해하기에는 대략 이런 문제인 것이다.

b array를 첫번째 row에 넣으란건지, 두번째 row에 넣으라는 건지 모른다는 것이다.

첫번째 row에 붙인 b array
두번째 row에 붙인 b array

 

결론적으로, 둘 다 불가능하다는 이야기이다. 

그래서 여기서는 b의 shape를 변경해줘야 한다.

즉 a array는 2 X 2 이므로, 적어도 b array 는 2 X n 형태로 나타나야 한다는 것이다.

그러기 위해서는 b array를 전치(대각선 기준으로 행은 열로, 열은 행으로 뒤바꿈)한 뒤, 붙여줘야 한다는 것이다.

b array
전치된 b array

b.T # b array Transpose

여기서 특정 array를 전치시키기 위해서는 넘파이의 Transpose를 나타내는 T 함수를 쓰면 된다.

그러면 Transpose(전치)된 b array는 2 X 1 의 행렬이 되고, 이제는 axis=1 기준으로 array a와 concatenate를 할 수 있게 된다.

 

np.concatenate((a, b.T), axis=1)

a array & b transpose array concatenate


 

정리

우리는 지금까지 numpy의 concatenate라는 함수를 살펴보았다.

concatenate의 핵심 개념은 numpy의 array 형태를 합치는 (join) 기능을 한다는 것이다.

특히 axis라는 것을 통해서 아래에 붙일지(axis=0), 오른쪽에 붙일지(axis=1)를 결정한다.

그러기 위해서는 두 array의 shape(n X n의 형태)를 맞춰줘야 한다

shape를 맞추기 위해서 한쪽의 array를 전치(Transpose)시키는 것까지 해보았다.


이후에는 pandas의 concat을 통해서 Series 타입이나, DataFrame 타입을 합치도록 해보자.

데이터프레임 합치기에 대해 비전공자도 쉽게 이해하도록 설명하겠습니다.


저는 파이썬을 잘 몰랐던 비전공자입니다.

파이썬을 설명해주는곳은 학교나 온라인플랫폼이나 모두 저같은 저지능(?)에게는 불친절하더군요.

그래서 저처럼 기초적인 분들이 쉽게 접근할 수 있도록 제가 이해한 기반으로 설명하고자 합니다.

 


 

이번 글에서는 파이썬 판다스 기능 중 데이터프레임 합치는 방법에 대해서 알아볼겁니다.

파이썬 판다스는 파이썬의 라이브러리 중에서 데이터 전처리를 위한 유용하고 인기있는 라이브러리입니다.

쉽게 생각하면 엑셀로 데이터를 조작하는 방식이라 보시면 되는데요.

다만 엑셀은 데이터 양이 너무 많아지면 수용하기 힘들다는 단점이 있습니다.

이를 보완하기 위해 데이터분석가들은 파이썬의 판다스를 통해서 데이터 정제작업을 합니다.

 


 

판다스의 다양한 기능 중에서 이번에 다뤄볼 내용은 병합하는 내용입니다.

즉 어떤 데이터프레임(테이블 형태)들끼리 합치고 싶을 때 써야 하는 방법이죠.

pandas에서는 크게 3가지의 방법을 사용해볼 수 있습니다.

  1. merge
  2. concat
  3. join

 

이번 파트에서는 merge에 대해서 다뤄봅시다.

 

merge의 단어 뜻

merge는 말그대로 병합의 의미를 갖습니다.

영어에서는 merge가 회사의 합병을 의미하지만,

데이터 측면에서는 두 데이터프레임이나 테이블을 가로 혹은 세로에 붙이는 느낌인데요.

merge는 특정 key값을 기준으로 병합합니다.

즉, 두 개의 데이터프레임이 존재하는 경우 동일한 이름을 가진 컬럼에 대해서 붙인다는 말이죠.

 

파이썬 실습

실제 파이썬 코드를 통해서 구현해보겠습니다.

우선 pandas 라이브러리를 호출하여 pd라는 이름으로 지정합니다.

import pandas as pd

 

 

merge로 연결시키기에 앞서서, 데이터프레임을 2개 생성해보겠습니다.

dataframe_first = pd.DataFrame({'id':[10,11,12,13,14],
                                'python':[1,2,3,4,5],
                                'C':[2,3,4,5,6],
                                'C++':[2,3,4,1,2]})
                                
dataframe_second = pd.DataFrame({'id':[10,11,12,13,14],
                                 'java':[5,2,3,3,1],
                                 'javascript':[1,3,2,1,4],
                                 'Php':[1,3,2,0,0]})

 

 

두 데이터프레임을 병합하는 merge를 사용하는 방법은 간단합니다. 

아래 중 한 가지의 편한 방법을 사용하시면 됩니다.

그러나 방법1의 경우에는 merge() 괄호 안에 들어간 데이터프레임이 주인공(기준)과 같이 됩니다.

그러므로 저는 방법2를 조금 더 선호합니다.

# 방법1
dataframe_first.merge(dataframe_second)

# 방법2
pd.merge(dataframe_first, dataframe_second)

방법1과 방법2의 결과물

 

결과는 두 방법 동일하게 5행 5열이 나옵니다.

 

 

 

merge의 기본 조인 옵션

merge의 기본적인 설정은 inner join의 방법을 따릅니다.

위의 merge의 경우에는 'id' 컬럼의 값들이 동일하게 채워져 있기 때문에 merge 전과 후가 동일하게 5X5의 형태로 나타난겁니다.

key로 설정된 동일한 컬럼 이름(위에서는 'id')의 값이 교집합이 되는 부분이 없다면, 결과에 나타나지 않습니다.

 

inner join 예시

예를 들어서 하나의 데이터 프레임을 더 만들어볼게요.

새로 만드는 데이터프레임 값은 id의 값이 위의 데이터프레임들과 조금 다릅니다. (id값 중 17, 18을 주목)

# id 값 중 뒷 부분이 기존의 데이터프레임과 다름
dataframe_third = pd.DataFrame({'id':[10,11,12,17,18],
                                'html':[1,2,3,4,5],
                                'css':[5,4,3,2,1],
                                'go':[1,3,2,4,2]})

세번째로 생성된 데이터프레임과 두번째의 데이터프레임을 merge 시켜보겠습니다.

dataframe_third.merge(dataframe_second)

첫번째, 두번째 데이터프레임을 merge한 5X5의 결과물과 조금 다른게 느껴지시나요?

이것이 merge가 기본으로 inner join의 설정을 갖고 있다는 것을 의미합니다.

 

merge의 옵션

다행히도 우리는 편의에 맞게 이 옵션을 조절할 수 있습니다.

left기준, right기준, inner기준(default), outer기준으로 4가지 중 하나를 고를 수 있습니다.

해당 옵션은 merge()라는 괄호 안에 넣어주면 되는데요.

지금부터는 이 괄호 안에 넣을 수 있는 파라미터들을 간략히 설명하겠습니다.

 

merge의 옵션은 아래와 같습니다. (정말 많습니다)

  • how
  • on
  • left_on
  • right_on
  • left_index
  • right_index
  • sort
  • suffixes
  • copy
  • indicator
  • validate

그러나 이 모든 기능을 외울 필요는 없습니다.

 

데이터프레임을 병합하는 과정에서는 핵심적인 옵션은 몇개 없습니다.

저희는 이 중

  • how
  • on
  • left_on
  • right_on

에 대해서만 짚고 넘어가겠습니다.

 

merge의 파라미터 - how

how는 병합할 기준을 정하는 겁니다.

크게 4가지 방법이 있습니다.

left, right, outer, inner(default)

이 중 저 위에서 설명한 대로 inner가 기본으로 설정되어 있습니다.

즉, 기준이 되는 컬럼에서(key 컬럼, 여기서는 'id') dataframe1에는 있고, dataframe2에는 없는 행은 배제시키고 나타냅니다.

 

left는 merge를 입력했을 때 좌측에 입력한 데이터프레임을 의미합니다.

right는 merge한 둘 중 오른쪽에 입력한 데이터프레임이고요.

left와 right의 경우에는 지정한 열의 값만 보여집니다. 

 

outer는 inner의 반대되는 개념이라고 보시면 됩니다.

inner가 교집합이라면 outer는 합집합인 셈이죠.

 

 

즉, 두 데이터프레임의 값이 다르거나 맞지 않더라도 Nan으로 표시하면서 행X열 수를 맞춰줍니다.

 

merge기능 중 how의 예시

복잡한 설명보다 예시로 갈게요.

pd.merge(dataframe_second, dataframe_third, how='outer')

두 데이터프레임을 outer 방법으로 merge를 시키면 모든 데이터프레임 값이 나오게 됩니다.

second는 id값이 17, 18이 없었고, thrid는 13, 14가 없었음에도 불구하고 모든 id값을 써주면서 값을 보여줍니다.

물론 각각의 없는 값들은 NaN으로 표현됩니다.

 

 

merge의 파라미터 - on

merge에서 다룰 다음 파라미터는 on입니다.

on은 기준 열(column)을 의미합니다.

해당 기준을 가지고 merge를 할 것입니다.

on의 값을 지정해주지 않는다면, 동일한 이름을 갖는 두 데이터프레임의 컬럼을 기준으로 지정합니다.(기본값)

 

그러면 만약에 두 데이터프레임의 기준이 되는 컬럼의 이름이 서로 다르다면요?

이때를 위해서 left_on, right_on 이라는 merge의 옵션이 있는겁니다.

 

merge의 파라미터 - left_on, right_on

left_on, right_on은 두 데이터프레임의 기준 열 이름이 다를시에 같은 기준으로 묶을 수 있는 역할을 합니다.

 

예를 들어 개인정보 데이터를 갖는 두가지 데이터프레임이 있다고 가정해봅시다.

A 데이터프레임은 개인의 이름을 '이름' 이라고 지정하였는데,

B 데이터프레임은 개인의 이름을 '성함' 이라고 지정하였습니다.

두 column은 동일한 값을 가짐에도 불구하고, column 이름이 다르기 때문에 기준을 잡기 힘듭니다.

이럴 경우 left_on='이름', right_on='성함' 으로 merge()의 옵션을 지정해줍니다.

 

left_on, right_on 코드 예시

아래의 예시는 pandas 공식문서의 예시를 가져왔습니다.

df1 = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2 = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})
                    
df1.merge(df2, left_on='lkey', right_on='rkey')

df1
df2

보시다시피 lkey와 rkey를 기준으로 데이터프레임을 병합(merge)하였습니다. 

두 lkey와 rkey는 같은 값이므로, 나중에 데이터 전처리 작업을 할 때 둘 중 하나를 제거하는 방식으로 활용하면 됩니다.

여기서 재밌는 것은 나머지 컬럼이었던 value라는 각각의 컬럼들이 이름이 동일하기 때문에 병합직후에 따로 설정을 안해줬는데도 _x, _y라는 이름이 컬럼이름에 추가로 붙었다는 점입니다.

편리하게도 _x와 _y도 맘에 안든다면 merge() 옵션 중 suffixes 라는 옵션을 통해서 직접 붙힐 이름을 정할 수도 있습니다.

 


 

저희는 오늘 파이썬의 판다스 중 merge의 기능과 핵심적인 옵션 파라미터에 대해서 배웠습니다.

 

merge는 데이터프레임을 합치는 기능이며 다양한 옵션 파라미터가 있습니다.

특히 key column을 지정하는 것이 중요한데 이에 대한 부분은 반드시 숙지하시기 바랍니다.

 

이어서 다른 병합기법인 concat, join에 대해서 설명하겠습니다.

+ Recent posts