파이썬(Python)&판다스(Pandas)&Polars
[polars] with_columns(), map_elements(=apply) 컬럼 전처리 후 새로운 컬럼 만들기
송채채
2023. 11. 17. 10:45
- 모두 null값이 없는 컬럼이라면 아래와 같이 사용할 수 있음
df = df.with_columns(새컬럼 = pl.col('참조컬럼1') + pl.col('참조컬럼2'))
- null값이 존재하는 행을 처리하려면 when, then, otherwise 사용
df = df.with_columns(새컬럼 = pl.when(pl.col('참조컬럼2') != None).then(pl.col('참조컬럼1') + pl.col('참조컬럼2')).otherwise(None))
참조컬럼2에 null(None)이 아니면 (when) 참조컬럼1+참조컬럼2의 값을 기입(then)
참조컬럼2에 null(None)이면 (when) 참조컬럼1+참조컬럼2의 값이 아니라(otherwise) None을 기입
- apply(=map_elements), lambda 사용
from datetime import datetime
df = df.with_columns(날짜_수정 = pl.when(pl.col('날짜') != None).then(pl.col('날짜').map_elements(lambda x: datetime.strptime(x, '%Y%m%d').strftime('%Y-%m-%d'))).otherwise(None))
'날짜' 컬럼에 들어있는 값은 20001202, 20230102일 때, YYYY-MM-DD 형태로 변환해주기 위한 코드
전처리의 과정이 복잡해서 lambda함수 사용함
pandas와 같이 apply를 처음에 썼다가, deprecated된다는 경고가 떠서 map_elements 사용
1. 날짜의 값이 None이 아니면
2. 날짜(str)를 %Y%m%d로 바꿔서 datetime 형식으로 바꾸고
3. 다시 strptime으로 %Y-%m-%d으로 변경함
- 조건절 여러개
- None 값이 아니고, 문자열 크기에 따라 조건 수행
df = df.with_columns(컬럼_수정 =
pl.when((pl.col('컬럼').is_not_null()) & (pl.col('컬럼').str.len_chars() == 8))
.then(pl.col('컬럼') + "000000")
.otherwise(pl.col('컬럼'))
)
반응형