학습
Privado AI, AWS에서 미세 조정된 Llama 3.1을 사용하여 글로벌 개인정보 보호 규정 준수에서 90% 정확도 달성

Privado AI, AWS에서 미세 조정된 Llama 3.1을 사용하여 글로벌 개인정보 보호 규정 준수에서 90% 정확도 달성

이 콘텐츠는 어떠셨나요?

기업은 처리 활동 기록(RoPA)을 유지하기 위해 수동 평가 중심 방식을 사용할 경우 상당한 위험과 운영 지연에 직면합니다. 이러한 기존의 접근 방식은 빠른 소프트웨어 개발 속도를 따라가기 어려워 규정 준수 문서의 정확성과 시의성이 떨어지게 됩니다. 이 문제를 해결하기 위해 AWS 파트너 Privado AI는 미세 조정된 Meta Llama 3.1 모델을 사용하여 자동화 시스템을 개발했습니다. 이 솔루션은 소스 코드에서 직접 데이터 처리 경로를 식별하여 감사 대응이 가능한 기록을 생성합니다. 그 결과 플랫폼은 탐지 정확도를 90%까지 높이고 언어 간 성능 편차를 5% 미만으로 줄였습니다. 이러한 결과를 통해 개인정보 보호 팀은 업무의 90%를 수동 데이터 수집에서 적극적인 위험 완화로 전환할 수 있게 되었습니다.

수동 개인정보 보호 평가의 ‘토끼 굴’에서 벗어나기

Privado AI는 복잡하고 빠르게 변화하는 애플리케이션 환경에서 정확한 규정 준수 문서를 유지할 수 있도록 기업의 개인정보 보호 팀과 협력하고 있습니다. 이 회사의 플랫폼은 웹사이트와 모바일 앱에서 우선 순위가 높은 위반 사항을 식별하고 데이터 맵 생성을 자동화하여 개인정보 보호 책임자가 규정 준수 위험을 줄일 수 있도록 설계되었습니다. 고객과의 협업 과정에서 Privado AI는 기존 RoPA 프로세스가 대체로 느리고 수동적이며 부정확하다는 점을 확인했습니다.

일반 데이터 보호 규정(GDPR)과 같은 프레임워크의 적용을 받는 조직은 개인정보를 수집, 처리 및 공유하는 방식을 문서화해야 합니다. 많은 기업에서는 엔지니어링 팀이 기억에 의존해 데이터 흐름을 설명하는 인터뷰와 설문을 활용합니다. 전체 시스템을 충분히 파악하지 못할 수도 있는 여러 이해관계자로부터 정보를 수집하기 때문에 결과 기록은 부분적 지식 또는 오래된 지식에 기반하는 경우가 많습니다. 인간의 기억에 의존하는 이러한 방식은 문서가 실제 기술 시스템 상태를 반영하지 못하는 심각한 단일 진실 공급원 문제를 야기합니다.

엔지니어링 팀이 매일 코드를 배포하고 새로운 기능을 출시하는 현대 소프트웨어 수명 주기의 현실로 인해 이 문제는 더욱 심화됩니다. 기존의 평가 중심 접근 방식으로는 개발 속도를 따라갈 수 없기 때문에 변경 사항이 배포되는 순간 문서는 프로덕션 환경과 동기화되지 않게 됩니다. 이러한 지연은 개인정보 보호 팀을 선제적 위험 관리가 아닌 사후적 데이터 수집의 악순환으로 몰아넣습니다. 감사나 조사에서는 기록이 정확하지 않으면 위반 및 벌금 위험이 크게 높아집니다.

Privado AI의 Marketing Head인 Ben Werner는 “이 작업은 엔지니어링 팀이 데이터 처리 방식을 바꾸고 나면 바로 다음 주에 시의성이 떨어지는 오래 걸리고 손 많이 가는 사실 확인 작업입니다. 마치 완벽하게 정확하고 최신 상태의 기록을 항상 유지하는 것이 불가능한 일종의 토끼 굴과 같습니다.”라고 설명합니다.

AWS에서 미세 조정된 Llama 3.1과 어댑터 스와핑으로 규정 준수 자동화

정적인 평가와 동적인 코드베이스 간의 격차를 해소하기 위해 Privado AI는 기술 신호에서 직접 기록을 생성하는 시스템을 구축했습니다. 이 회사가 Meta Llama 3.1-8B를 파운데이션 모델로 선택한 것도 오픈 가중치 특성이 있어 고객의 Amazon Virtual Private Cloud(Amazon VPC) 내에 모델을 직접 배포할 수 있는 유연성이 있기 때문이었습니다. 이 아키텍처는 민감한 소스 코드가 외부 제3자 AI 제공업체에서 처리되지 않고 고객의 자체 환경 내에 머물러야 한다는 중요한 보안 요구 사항을 충족합니다. Amazon Web Services(AWS)에서 실행함으로써 Privado AI는 단일 GPU에서 높은 정확도의 결과를 달성하면서 기술 성능과 비용 효율성의 균형을 맞출 수 있는 ‘최적점’을 찾았습니다.

솔루션 구축 과정에서 중요한 장애물 중 하나는 복잡한 엔터프라이즈 코드를 개인정보 보호 분류 체계와 매핑하는 기존 데이터세트가 없었다는 점이었습니다. Privado AI는 학습 세트를 만들기 위해 다중 모델 합의 전략을 활용하여 1,000개의 익명화된 코드 경로를 여러 프런티어 모델에 통과시켜 모델들이 일치하는 패턴을 식별했습니다. 이 합의 결과는 학습을 위한 높은 신뢰도의 ‘정답 기준’이 되었습니다. 이후 팀은 양자화된 저순위 적응(QLoRA)을 적용하여 Llama 3.1-8B를 처리 활동 탐지 및 데이터 주체 분류 같은 특화 작업에 맞게 미세 조정했으며, 이를 위해 50~200MB 크기의 경량 LoRA 어댑터를 사용했습니다. 성능을 더욱 향상시키기 위해 이 아키텍처는 Amazon SageMaker 대규모 모델 추론(LMI) 컨테이너를 통한 vLLM을 통합하여 연속 배치 처리와 밀리초 단위 LoRA 어댑터 교체 같은 주요 기능을 구현했습니다. 이러한 '어댑터 스와핑' 접근 방식을 사용하면 단일 시스템에서 하나의 기본 모델을 로드하고 각 요청마다 필요한 특정 어댑터를 교체하여 9개 이상의 규정 준수 작업을 지원할 수 있습니다.

플랫폼의 컴퓨팅 백본은 고성능 GPU 인스턴스에서 복잡한 스캔 워크로드를 관리하는 Amazon Elastic Compute Cloud(Amazon EC2)로 구동됩니다. Privado AI는 6~8시간의 학습 기간에 필요한 확장 메모리를 제공하기 위해 G6e.xlarge 인스턴스를 활용하고, 실시간 추론은 최적의 비용 효율성을 위해 G6.xlarge 인스턴스에서 처리합니다. 엔터프라이즈 스캔 요구 사항은 흔히 간헐적으로 발생하기 때문에 Amazon MQ가 비동기 작업 대기열을 관리하여 대규모 코드베이스에서 발생하는 급격한 요청 증가를 처리하고, 과도한 리소스 프로비저닝 없이도 시스템이 일관된 속도를 유지할 수 있도록 보장합니다.

유휴 컴퓨팅 비용을 최소화하기 위해 Privado AI는 스케일 투 제로 추론 아키텍처를 구현했습니다. 일반적으로 12GB 기본 모델을 다운로드하는 데 최대 10분이 걸릴 수 있는데, 이 지연 시간으로 인해 실시간 확장이 불가능합니다. 이 문제를 해결하기 위해 팀은 Amazon Elastic File System(Amazon EFS)을 공유 모델 캐시로 사용하여 부팅 시간을 약 1분으로 줄였습니다. 이러한 속도 덕분에 엔터프라이즈 워크로드에 대한 수요 기반 확장이 현실적으로 가능해졌습니다. Amazon CloudWatch는 이 용량을 관리하기 위한 모니터링 및 확장 신호를 제공하므로, 처리할 활성 대기열이 있을 때만 Amazon EC2에서 비용이 높은 GPU 리소스를 가동할 수 있습니다.

Privado AI 공동 창립자 Prashant Mahajan은 “AWS 팀은 매우 적극적으로 지원해 주었고, 필요할 때 기술 전문가를 투입해 기존 아키텍처를 개선하고 고급 기법을 시험할 수 있도록 도와주었습니다. 우리가 구현한 일부 아이디어는 AWS 팀과의 심층 논의에서 나온 것입니다.”라고 말합니다.

업무 시간 되찾기: 업무의 90%를 데이터 수집에서 위험 완화로 전환

Privado AI는 AWS에서 개인정보 보호 자동화 플랫폼을 설계하여 규정 준수 보고의 속도와 정확성을 근본적으로 재정의했습니다. 미세 조정된 Meta Llama 3.1-8B 아키텍처로의 전환으로 기술 성능이 크게 도약했으며, 처리 활동 탐지 정확도가 기존 50% 수준에서 90%로 바뀌었습니다. 마찬가지로 활동 그룹화와 데이터 주체 분류는 정밀도 95%에 달하여 감사 대응 문서에 필요한 신뢰할 수 있는 세심한 디테일을 갖출 수 있었습니다. 이처럼 출력 정확도가 높아지면서 개인정보 보호 팀은 광범위한 수동 검증 없이도 자동화 결과를 신뢰할 수 있습니다.

이 솔루션은 단순한 정확도 향상을 넘어 글로벌 엔터프라이즈 코드베이스에서 오랫동안 문제였던 일관성 격차도 해결했습니다. 이전에는 프로그래밍 언어별 성능 편차가 40%에 달했지만, Amazon EC2에서 최적화한 이후 이 편차는 5% 미만으로 급감했습니다. 언어 간 신뢰성과 99%의 구조화된 JSON 규정 준수율이 결합되면서 Privado AI는 결과를 후속 자동화 워크플로에 직접 전달할 수 있게 되었습니다. 플랫폼은 수동 재포맷팅의 마찰을 없애서 원시 코드에서 최종 규정 준수 보고서까지 데이터를 원활하게 흐르게 합니다.

가장 큰 영향은 개인정보 보호 및 법무 팀의 운영 방식 변화였습니다. Privado AI는 인간의 기억이 아니라 기술적 현실에 기반을 두고 규정 준수를 관리하여 사용자들의 업무 시간을 되찾아 주었습니다. Mahajan은 “이전에는 개인정보 보호 팀이 업무 시간의 90%를 수동 데이터 수집에 사용했는데, 이제는 업무 시간의 90%를 위험을 이해하고 완화하는 데 사용하고 데이터 수집 운영에는 10%만 사용합니다.”라고 설명합니다. 이러한 변화로 개인정보 보호 팀은 신뢰의 기반을 유지하면서도 빠른 혁신 속도를 따라갈 수 있게 되었습니다.

AWS에서 AI를 사용하여 복잡한 실제 문제를 해결하고 싶으신가요? AWS Activate는 스타트업이 자신 있게 확장하는 데 필요한 도구와 리소스를 제공합니다. AWS Activate 크레딧은 AWS 인프라, 데이터 서비스, 선도적인 AI 및 ML 모델 비용을 상쇄하는 데 사용할 수 있습니다. 프로덕션 워크로드를 실행할 준비가 되었다면, 유연한 Amazon EC2 인스턴스를 통해 학습과 추론을 모두 대규모로 효율적으로 지원할 수 있습니다. 자세한 내용은 AWS 계정 팀에 문의하세요.

이 콘텐츠는 어떠셨나요?