파이썬(Python)&판다스(Pandas)&Polars

[polars] with_columns(), map_elements(=apply) 컬럼 전처리 후 새로운 컬럼 만들기

송채채 2023. 11. 17. 10:45

 

  • 모두 null값이 없는 컬럼이라면 아래와 같이 사용할 수 있음
df = df.with_columns(새컬럼 = pl.col('참조컬럼1') + pl.col('참조컬럼2'))

 

  • null값이 존재하는 행을 처리하려면 when, then, otherwise 사용
df = df.with_columns(새컬럼 = pl.when(pl.col('참조컬럼2') != None).then(pl.col('참조컬럼1') + pl.col('참조컬럼2')).otherwise(None))

참조컬럼2에 null(None)이 아니면 (when) 참조컬럼1+참조컬럼2의 값을 기입(then)

참조컬럼2에 null(None)이면 (when) 참조컬럼1+참조컬럼2의 값이 아니라(otherwise) None을 기입

 

  • apply(=map_elements), lambda 사용
from datetime import datetime
df = df.with_columns(날짜_수정 = pl.when(pl.col('날짜') != None).then(pl.col('날짜').map_elements(lambda x: datetime.strptime(x, '%Y%m%d').strftime('%Y-%m-%d'))).otherwise(None))

 

'날짜' 컬럼에 들어있는 값은 20001202, 20230102일 때, YYYY-MM-DD 형태로 변환해주기 위한 코드

전처리의 과정이 복잡해서 lambda함수 사용함

pandas와 같이 apply를 처음에 썼다가, deprecated된다는 경고가 떠서 map_elements 사용

 

1. 날짜의 값이 None이 아니면

2. 날짜(str)를 %Y%m%d로 바꿔서 datetime 형식으로 바꾸고

3. 다시 strptime으로 %Y-%m-%d으로 변경함

 

  • 조건절 여러개
    • None 값이 아니고, 문자열 크기에 따라 조건 수행
df = df.with_columns(컬럼_수정 = 
                     pl.when((pl.col('컬럼').is_not_null()) & (pl.col('컬럼').str.len_chars() == 8))
                     .then(pl.col('컬럼') + "000000")
                     .otherwise(pl.col('컬럼'))
)

 

반응형