2024/04 4

[Python] JSON의 모든 key, value를 재귀적으로 탐색해서 데이터프레임으로 만들기

import jsonimport pandas as pddef flatten_json(d, parent_key="", results=[]): """ JSON 또는 딕셔너리 데이터를 평평한 구조로 변환하고, 키-값 쌍을 데이터프레임으로 저장합니다. Args: d (dict or json): JSON 또는 딕셔너리 데이터 parent_key (str): 상위 키 (재귀 호출 시 사용) results (list): 데이터프레임에 저장될 결과 목록 Returns: pandas.DataFrame: 키-값 쌍을 포함하는 데이터프레임 """ if isinstance(d, dict): for k..

[polars] 데이터프레임의 결측값을 리스트 형태로 추출하고 변환 (null_count, to_list)

# 1. 데이터프레임의 null 값 개수 계산 null_count = df.null_count() # 2. Series 객체의 첫 번째 행만 추출 head_row = null_count.head(1) # 3. 첫 번째 행의 첫 번째 값만 추출 (리스트 형태) value = [value[0] for value in head_row] # 4. 리스트를 변환하여 최종 결과 반환 result = pl.Series(value).to_list() # 한번에 조합한 코드 pl.Series([value[0] for value in df.null_count().head(1)]).to_list() data.null_count() 함수를 사용하여 데이터프레임의 각 컬럼에 대한 null 값의 개수를 계산함 이 때, 출력값은 ..

[polars] 데이터 EDA 코드 만들기 (컬럼수, 행수, 결측값 등)

Polars 라이브러리를 사용하여 데이터 탐색적 분석(EDA) 코드를 만드는 방법을 소개합니다. 특히, 컬럼 수, 행 수, 결측값 수 등 기본적인 EDA 정보를 계산하는 코드를 다룹니다. import chardet #polars import polars as pl file_name = "데이터 경로" charenc = detect_enc(file_name) # open file data = pl.read_csv(file_name, encoding = charenc, ignore_errors= True, low_memory=False, truncate_ragged_lines = True, infer_schema_length=0) # 컬럼명 column_list = list(data.columns) # 컬럼..