[스크랩] 2025-02-13 팔란티어는 어떤 일을 하는가? (Palantir Explained 1-3)
팔란티어의 공식 블로그(https://blog.palantir.com/)는 medium을 사용하고 있다.
가장 하단에 Panlantir Explained 시리즈를 통해 팔란티어가 어떤 일을 하는 지 소개한다.
총 6개의 글이 존재하며 개별 내용은 길지 않은 분량이고, 대략적인 수준에서 정리하고 있다. 약 3-4년 전에 작성된 글이다보니 현재의 운영 구조와 달라진 부분이 있을 수도 있음.
본 글은 1~3을 짧게 요약하여 정리한 글임
Palantir is Not a Data Company (Palantir Explained, #1)
https://blog.palantir.com/palantir-is-not-a-data-company-palantir-explained-1-a6fcf8b3e4cb
Palantir is Not a Data Company (Palantir Explained, #1)
Debunking common misconceptions about our business model
blog.palantir.com
팔란티어는 주로 방위, 정보 분야에서 기밀 유지가 필수인 기관과 협력해왔기 때문에 비밀스러운 기업으로 묘사됨. 팔란티어의 사업모델의 오해를 방지하고가 개방적인 설명을 진행함. 팔란티어의 사업 모델은 개인 데이터를 수집/저장/판매하거나 AI에 훈련시키지 않음. 팔란티어는 소프트웨어 회사임. 조직의 데이터를 분석해 데이터 기반의 의사 결정을 할 수 있도록 운영 개선을 위한 소프트웨어를 라이선스 형태로 제공함.
Purpose-based Access Controls at Palantir (Palantir Explained, #2)
https://blog.palantir.com/purpose-based-access-controls-at-palantir-f419faa400b3
Purpose-based Access Controls at Palantir (Palantir Explained, #2)
Empowering governance teams to control and track access to data
blog.palantir.com
팔란티어는 고객의 민감한 데이터를 보호하기 위해 Purposed-Based Access Contols(목적 기반의 접근 제어)를 도입함. 데이터 접근 요청에 대한 관리를 수행하는 도구임.
- 목적(Purpose) 설정: 사용자는 개별 데이터를 요청하는 것이 아니라 목적, 목표에 대한 접근을 신청함. 이 때 데이터 거버넌스 팀은 각 목적에 필요한 데이터 범위를 정의하여 사용자가 필요한 데이터에만 접근할 수 있도록 함
- 기록 : 접근 권한을 부여할 때 그 이유를 함께 기록해야함
- 비기술적 도구 제공: 팔란티어는 직관적인 도구를 제공하여 고도화된 기술 지식이 없어도 데이터 거버넌스 관리자가 기술팀에 의존하지 않고 데이터 거버넌스를 관리할 수 있음 (데모영상 링크)
Beyond Anonymisation (Palantir Explained, #3)
https://blog.palantir.com/beyond-anonymisation-palantir-explained-3-46d9924df953
Beyond Anonymisation (Palantir Explained, #3)
A comprehensive approach to handling personal data
blog.palantir.com
익명화(Anonymisation)의 한계와 재식별 위험을 완화하기 위한 접근법을 다루고 있음. 익명화는 데이터세트에서 개인을 식별할 수 있는 정보를 제거하여 개인을 식별할 수 없는 과정을 말함. 그러나 이 과정은 고려해야할 점이 많아 완벽하게 수행하기 어렵고 실패하는 경우가 많음. 따라서 팔란티어는 익명화(Anonymisation)이 아닌 비식별화(de-identification)을 사용할 것을 권장함. 비식별화된 데이터는 이름, 주소, 생년월일 등 직접적인 식별자를 제거하지만 여전히 재식별의 위험이 존재함.
재식별 위험 완화를 위한 질문과 고려사항: 데이터의 민감도, 재식별의 난이도, 다른 데이터와 결합 시 어떤 일이 발생할 수 있는가에 대한 질문이 필요함.
- 데이터가 얼마나 민감한 정보를 포함하는가?
- 데이터가 기존 데이터와 결합될 경우 얼마나 쉽게 개인을 식별할 수 있는가?
- 다른 데이터 세트와 결합할 경우 추가적인 식별이 가능한가?
완화책의 방법: 일반화, 집계, 난독화, 동적 최소화, 합성 데이터
조치 | 설명 |
일반화(Generalisation) | 세부 정보를 줄여 범주화 (예: 생년월일 → 연령대) |
집계(Aggregation) | 개별 데이터를 그룹화하여 분석 (예: 개별 소비 내역 → 월별 평균 소비) |
난독화(Obfuscation) | 마스킹 또는 암호화를 통해 식별 가능성을 줄임 |
동적 최소화(Dynamic Minimisation) | 사용자 역할이나 필요에 따라 표시되는 데이터 조정 |
합성 데이터(Synthetic Data) | 원본 데이터의 패턴을 유지하면서도 가상의 데이터를 생성하여 사용 |
기술적 및 조직적 위험 완화를 위한 질문과 고려사항: 데이터가 사용되는 상황이 재식별 가능성에 어떤 영향을 미치는지 평가해야함. 사용자, 권한, 정책, 메타데이터에 대한 고려가 필요함
- 사용자: 이 데이터에 액세스할 수 있는 사용자는 몇 명일까요?
- 권한: 사용자는 얼마나 많은 데이터에 액세스할 수 있습니까?
- 정책: 명확한 데이터 거버넌스 정책이 마련되어 있습니까?
- 메타데이터: 플랫폼 내 데이터 세트에 명확한 레이블이 지정되어 있고 설명이 되어 있어 데이터 거버넌스와 운영 사용자가 민감성, 용도 및 적용되는 정책 보호 내용을 빠르게 이해할 수 있습니까?
완화책의 방법: 액세스 권한, 작업 권한, 데이터 표시, 요청 기반 복호화, 감사, 민감한 데이터의 추론, 테스트 및 검증, 데이터 계보
조치 | 설명 |
접근 권한 설정(Access Control) | 사용자가 자신의 역할에 필요한 최소한의 데이터만 접근할 수 있도록 제한 (목적 기반 접근 제어 참고) |
행동 권한(Action Permissions) | 데이터 가져오기, 내보내기, 전송, 결합과 같은 민감한 작업을 수행할 수 있는 권한을 절대적으로 필요한 사용자에게만 부여 |
데이터 태깅(Marking Data) | 민감한 데이터 세트에 지속적인 태그를 부여하여, 해당 데이터가 다른 위험한 데이터 세트와 결합되지 않도록 제한 |
요청 기반 복호화(Needs-Based Decryption) | 기본적으로 데이터를 암호화하고, 사용자가 데이터 해독을 요청할 경우 적절한 정당성을 입력해야만 접근 허용 |
감사(Auditing) | 데이터 거버넌스 정책 준수를 확인하고, 부적절한 행위(예: 악의적인 재식별 시도)가 없는지 감시할 수 있도록 감사 기능 제공 |
민감 데이터 감지(“Inferring” Sensitive Data) | 시스템 내에서 민감한 데이터를 자동으로 감지하여 플래그를 지정하고, 실수로 업로드되거나 충분히 비식별화되지 않은 데이터를 자동으로 잠금 |
테스트 및 검증(Testing & Validation) | 데이터가 더 널리 공유되거나 외부로 내보내지기 전에 익명화된 데이터의 유효성을 테스트하고 검증할 수 있도록 지원 |
데이터 계보 추적(Data Lineage Tracking) | 데이터 흐름을 추적하여 어떤 사용자가 어떤 수준의 식별 가능한 데이터에 접근했으며, 다양한 단계에서 어떤 목적으로 사용되었는지 파악 |