데이터 파이프라인을 미니 프로젝트를 진행하면서 익히고자 함.
최근 회사에서 AI 팀에서 데이터 플랫폼 팀으로 조직이동을 하게 되면서 기존에 하던 업무보다 데이터 엔지니어링 에 더 가까워졌다.
그래서 AWS 를 통해 데이터 파이프라인 구축하는 방법을 빠르게 실무에 적용시키기 위해 공부가 필요하다!
먼저 기초 지식을 위한 이론 정리를 살짝 해보겠다.
데이터 아키텍쳐 - Data Warehouse , Data Lake
데이터 파이프라인이란 결국 Raw data 를 그대로 분석이나 학습에 사용하기 어려우니 사용하기 좋게 가공해주고, 바로바로 가져와서 쓸 수 있도록 파이프라인을 쫙 깔아주는 것
이 이미지를 보니까 좀 더 이해가 쉬운데 Data Engineer 가 하는 역할은 결국 데이터 인프라를 구축해주고 ETL 과정을 통해 데이터 사이언티스트, 데이터분석가 들이 데이터를 갖다 쓰기 좋은 환경을 구축해주는 사람들이다. 나같은 경우는 인프라 구축 보다 데이터 마트나 테이블을 구축하고 파이프라인을 구축하는 역할이 더 클 것 이다.
애널리틱 엔지니어 (분석 엔지니어) 는 분석가와 엔지니어의 그 중간 어딘가에서의 역할을 하는 사람들이다.
https://blog.hwahae.co.kr/all/hwahaeteam/people/12839
Be Better | 분석 엔지니어(Analytics Engineer)에게 묻습니다 – 화해 블로그 | 기술 블로그
Be Better | 분석 엔지니어에게 묻습니다 자신의 직업에 대해 진지하게 생각하고 정리해 본 적 있나요? 지금부터 같이 얘기해 보면 어떨까요. 내 경험과 현재의 생각, 목표까지 나누다 보면 우리 한
blog.hwahae.co.kr
https://toss.im/career/article/data-analytics-engineer
토스의 데이터를 쉽게 찾고 잘 활용할 수 있는 기반을 만드는, Data Analytics Engineer
데이터 활용을 깊게 고민하고 더 나은 데이터 환경을 만들기 위한 노력을 하는 토스 Data Analytics Engineer 분들의 이야기를 들어 보았어요.
toss.im
위 링크를 통해 화해, 토스에서 애널리틱 엔지니어의 역할을 엿보아보았다.
데이터 마트를 구축하고 데이터 표준정책을 수립도하고, 결국 비스니스 인사이트 도출을 원활하게 하는 것에 서포트 역할임이 분명하다.
많은 오픈소스들 중 가장 많이 쓰이고 유명한 Hadoop
HDFS 란?
HDFS는 하둡 분산형 파일 시스템(Hadoop Distributed File System)
간단하게 설명하자면 하둡은 병렬 처리 및 분산형 스토리지를 사용하여 작동하는 프레임워크이기 때문에 기존 방식으로는 저장할 수 없는 빅데이터를 정렬하고 저장하는 데 사용할 수 있다. 실제로 빅데이터를 처리하는 데 가장 일반적으로 사용되는 소프트웨어이며 데이터 저장을 위해 하둡과 긍정적인 관계를 맺고 있는 Netflix, Expedia 및 British Airways와 같은 회사에서 사용하고 있다. 현재 많은 기업이 데이터를 저장하는 방식으로 선택하고 있기 때문에 빅데이터에서 HDFS는 매우 중요하다.
HDFS 서비스로 구성된 빅데이터의 5가지 핵심 요소는 다음과 같다.
- 속도 - 데이터가 생성, 대조 및 분석되는 속도입니다.
- 볼륨 - 생성된 데이터의 양입니다.
- 다양성 - 데이터 유형으로, 구조화, 비구조화 등이 될 수 있습니다.
- 진실성 - 데이터의 품질과 정확성입니다.
- 가치 - 데이터를 사용하여 비즈니스 프로세스에 대한 인사이트를 얻을 수 있는 방법입니다.
https://www.databricks.com/kr/glossary/hadoop-distributed-file-system-hdfs
HDFS(Hadoop Distributed File System)란 무엇입니까?
HDFS가 무엇인지, 어디에 사용되는지, 빅데이터에 유용한 이유에 대해 자세히 알아보겠습니다.
www.databricks.com
데이터브릭스 문서에서 HDFS에 대해 굉장히 잘 설명을 해두었다. 따라서 내 블로그에선 이론적인 부분은 최대한 간단하게 짚고 넘어가고자 한다. 나는 실습 위주로 직접 사용해보며 각종 오류사항을 기록하고, 그 안에서 내가 깨달은 것과 왜 이것을 써야 하는지 느낀바들을 적어나갈 예정이다.
데이터 레이크 하우스 (Data Lakehouse)
데이터 레이크 하우스는 과거에 데이터 웨어하우스, 데이터 레이크, 데이터 마트까지 다 포함된 요소들을 포괄적으로 다 제공해 준다.
end to end 환경을 빨리 할 수 있도록 제공해준다. 메타데이터, 캐싱,인덱싱도 모두 가능하다. 시티즌 분석가 들이 데이터를 사용하기 좋게 만들어준다.
또한 , TCO( Total cost of Ownership) 를 고려한 플랫폼.
TCO 는 총 소유 비용을 뜻한다. 인프라 환경을 온프레미스와 aws 에서 운영하는 경우를 비교하는 총 소유 비용 분석(취득 및 운영 비용)
비용최적화를 위한 5가지 방법
또한 확장성이 뛰어난 플랫폼을 구축하기 위해서는 Decoupling compute and storage 아키텍쳐가 반드시 필요하다.
이것의 장점은 여러 위치의 다양한 소스로부터 발생한 데이터를 유연하게 저장 가능한 저장 플랫폼을 논리적 혹은 가상의 최적화된 환경으로 쉽게 효과적인 분석 플랫폼을 생성 가능
Best Practices for Designing Your Data Lake !
Data Lakehouse 의 장점
1. CPU와 Storage 용량의 독립적인 확장이 가능하다.
2. 단일화된 중앙집중형 데이터 보관
3. 애자일한 애플리케이션 개발을 지원
4. 하이브리드 클라우드 구현 가능 (온프레미스 스토리지 활용)
5. 단순하고 유연한 소프트웨어 관리
Elastic Spot instance 고려
- EC2의 유휴자원은 Availability zone 별로 경매를 통해 이용
- 빅데이터분석, 배치 작업, 이미지 렌더링, stateless web, 대량 병렬계산 등 활용사례가 있음
- 인스턴스 가용성을 유지하기 위한 spot fleet
- 워크로드가 죽지 않도록 유지해주는 spot block( 1~6시간 )
다양한 기능들이 있다.
HDFS 를 S3 로 활용할 때의 장점
데이터 레이크 하우스, 데이터 웨어하우스는 금액적으론 데이터 레이크에 비해서 비싸다.
'Data Engineering' 카테고리의 다른 글
AWS 를 활용한 데이터 수집에 대한 설명 (0) | 2025.01.18 |
---|---|
[Apache Kafka] 카프카란 ? (0) | 2025.01.18 |
aws 데이터 파이프라인 실습 1 (0) | 2025.01.17 |
데이터 파이프라인의 흐름 - aws (1) | 2025.01.17 |