티스토리 뷰

 

  • 모두 null값이 없는 컬럼이라면 아래와 같이 사용할 수 있음
df = df.with_columns(새컬럼 = pl.col('참조컬럼1') + pl.col('참조컬럼2'))

 

  • null값이 존재하는 행을 처리하려면 when, then, otherwise 사용
df = df.with_columns(새컬럼 = pl.when(pl.col('참조컬럼2') != None).then(pl.col('참조컬럼1') + pl.col('참조컬럼2')).otherwise(None))

참조컬럼2에 null(None)이 아니면 (when) 참조컬럼1+참조컬럼2의 값을 기입(then)

참조컬럼2에 null(None)이면 (when) 참조컬럼1+참조컬럼2의 값이 아니라(otherwise) None을 기입

 

  • apply(=map_elements), lambda 사용
from datetime import datetime
df = df.with_columns(날짜_수정 = pl.when(pl.col('날짜') != None).then(pl.col('날짜').map_elements(lambda x: datetime.strptime(x, '%Y%m%d').strftime('%Y-%m-%d'))).otherwise(None))

 

'날짜' 컬럼에 들어있는 값은 20001202, 20230102일 때, YYYY-MM-DD 형태로 변환해주기 위한 코드

전처리의 과정이 복잡해서 lambda함수 사용함

pandas와 같이 apply를 처음에 썼다가, deprecated된다는 경고가 떠서 map_elements 사용

 

1. 날짜의 값이 None이 아니면

2. 날짜(str)를 %Y%m%d로 바꿔서 datetime 형식으로 바꾸고

3. 다시 strptime으로 %Y-%m-%d으로 변경함

 

  • 조건절 여러개
    • None 값이 아니고, 문자열 크기에 따라 조건 수행
df = df.with_columns(컬럼_수정 = 
                     pl.when((pl.col('컬럼').is_not_null()) & (pl.col('컬럼').str.len_chars() == 8))
                     .then(pl.col('컬럼') + "000000")
                     .otherwise(pl.col('컬럼'))
)

 

반응형
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함