파이썬 판다스 라이브러리를 활용해서 데이터프레임 생성, 멀티인덱스 생성, pd.MultiIndex.from_tuples()

 

이번에는 저번시간에 이어서 멀티 인덱스를 만들려고 합니다.

기본적으로 데이터셋을 만든 뒤에, 아래의 그림과 같이 row를 한번 더 묶고 싶을 때 쓰는 방법이죠.

실전에서 많이 쓸지는 모르겠어요. pivot이나 groupby와 같은 기능들이 더 익숙하거든요.

그래도 아래와 같은 방식으로 만들어보죠.

df = pd.DataFrame({
    'a': [4, 5, 6],
    'b': [7, 8, 9],
    'c': [10, 11, 12]},
    index = pd.MultiIndex.from_tuples([('d', 1), ('d', 2), ('e', 2)],
                                     names=['n', 'v'])
)

원래는 index를 리스로 형태로 반환하면

해당 인덱스가 지정이 되는건데,

여기서는 인덱스를 pd.MultiIndex.from_tuples()라는 메소드를 보냅니다.

묶어줄 인덱스마다 튜플형식으로 묶어주는게 굉장히 번거로워 보이네요.

파이썬 판다스 라이브러리에서  데이터프레임 생성하기, 판다스 공식문서 참조, pandas_cheat_sheet, pd.DataFrame()

 

안녕하세요 !

오늘의 주제는 기본적으로 행과 열을 갖고 있는 형태를 만들어볼거에요.

우리가 기본적으로 수학시간에는 매트릭스(행렬)이라고 배웠는데요.

파이썬에서 지원하는 라이브러리 중에서 pandas 패키지가 그와 동일한 기능을 하죠.

 

우선 기본적으로 import pandas as pd 를 통해서 패키지를 불러옵니다.

import pandas as pd

 

이후에 데이터 프레임을 생성할건데,

리스트로 반환하는 방법이 있고, 딕셔너리로 만드는 방법이 있어요.

또한 위의 것들을 객체로 반환시켜서 만드는 방법들도 있고요.

그래도 가장 기본이 되는 방법부터 살펴볼게요.

df = pd.DataFrame(
{'a' : [4, 5, 6],
'b' : [7, 8, 9],
'c' : [10, 11, 12]},
index = [1, 2, 3])

위의 방식은 판다스 치트 시트라고해서 공식문서에 제공되는 가장 첫번째 내용이기도 합니다.

여기서 a, b, c는 각각 column을 의미합니다.

그러면 가로의 row는 어떻게 지정할까요?

여기서 잠깐 !

기본적으로 판다스는 column은 columns라고 보고, row는 index를 의미합니다. 

그래서 index라는 리스트를 따로 파라미터로 넣어줘야 됩니다. 리스트 형태로요!

데이터프레임 생성 결과화면

위의 경우는 방금 설명한 것의 결과화면 입니다.

위처럼 딕셔너리 형태가 불편하다 싶으면 리스트 안에 리스트 형태로 값을 넣어준 뒤에,

index와 columns를 반환시켜줘도 됩니다.

df = pd.DataFrame(
[[4, 7, 10],
[5, 8, 11],
[6, 9, 12]],
index = [1, 2, 3],
columns = ['a', 'b', 'c'])

위와 같은 형태로 할 수 있습니다.

만약 여기서 index와 columns를 별도로 지정해주지 않으면 어떻게 될까요?

위와 같이 인덱스는 0부터 시작되어 n-1까지 나타나게 됩니다. 행이든 열이든 동일한 규칙입니다.

그래서 딕셔너리 형태로 만들면 이미 column_name이 들어간 상태이고(키:밸류 형태니까요)

리스트 형태는 사용자 옵션(인덱스와 컬럼을 설정 등)에 따라 바뀝니다.

+ Recent posts