Amazon EMR, 이제 정식 출시된 Apache Spark 4.0.2 지원

게시된 날짜: 2026년 5월 27일

Amazon EMR은 이제 3가지 배포 모델 모두에 Apache Spark 4.0.2를 지원합니다. Spark 4.0.2를사용하면 ANSI SQL 및 VARIANT 데이터 유형을 사용하여 데이터 파이프라인을 쉽게 구축하고 유지 관리하며, 행 수준 또는 열 수준에서 세분화된 액세스 제어(FGAC)를 적용하고, Apache Iceberg v3 테이블 형식을 이용해 규정 준수 및 거버넌스 프레임워크를 강화하고, 향상된 스트리밍 기능을 이용해 새로운 실시간 애플리케이션을 더 빠르게 배포할 수 있습니다.

Spark 4.0.2로 데이터 파이프라인을 구축할 수 있으므로 표준 ANSI SQL 지원을 통해 더 많은 사용자가 데이터 엔지니어링에 접근할 수 있으며 Spark 관련 구문을 학습할 필요가 없습니다. Spark 4.0.2는 VARIANT 데이터 유형을 통해 JSON 및 반정형 데이터를 기본적으로 지원하여 다양한 데이터 형식을 처리할 수 있는 유연성을 제공합니다. Apache Spark 작업에서 AWS Lake Formation 등록 테이블에 대한 읽기 및 쓰기 작업 모두에 대해 세분화된 액세스 제어(FGAC)를 적용할 수 있습니다. 이러한 보안 기능을 기반으로 Apache Iceberg v3 테이블 형식은 더욱 강력한 트랜잭션 보장을 제공하고 데이터 리니지를 추적하여 규정 준수에 필요한 감사 추적을 생성합니다. 스트리밍 제어가 향상되어 복잡한 상태 저장 작업 관리가 간소화되고 모니터링 기능이 개선되므로 사기 탐지, 개인화, 그 외 시간에 민감한 사용 사례를 위한 실시간 애플리케이션을 더 빠르게 배포할 수 있습니다.


Apache Spark 4.0.2는 EMR이 제공되는 모든 리전에서 사용할 수 있습니다. 기존 EMR 애플리케이션을 업그레이드하는 경우 Apache Spark 업그레이드 에이전트를 사용하여 업그레이드 속도를 높일 수 있습니다. Amazon EMR의 Apache Spark 4.0.2에 대해 자세히 알아보려면 Amazon EMR 릴리스 노트를 참조하거나, AWS Management Console에서 Spark 4.0.2를 사용하는 EMR 애플리케이션을 만들어 작업을 시작해 보세요.