파이프라인이란?
데이터를 사용하고자 하는 목적성에 맞게끔 데이터를 가공하는 것이라 이야기 함.
하지만 최근에는 여러가지 데이터 기능부서가 다양해 짐에 따라 엔지니어링 과정에 맞게 정의가 새롭게 이야기 되곤 함.
데이터 파이프라인의 구성 방안은 뭐가 있을까?
1. 회사 내의 데이터 차원의 요구사항(use case) 에 대한 빠른 대응
2. 지속적이고 에러가 없어야 함.
3. 시스템적으로 발생하는 에러에 대해 유연하게 scability 해야 한다.
4. scale up 과 scale out 이 자유로워야 한다.
5. 이벤트성 데이터 부하에도 처리가 가능해야 함. ( 마케팅 이벤트, 푸시 발송, 서비스 오픈 )
6. 데이터가 쌓이는 공간에 문제가 없어야 함.
7. 수집데이터 (저장데이터) 의 유연성
8. 쉬운 분석데이터 format
Data Lambda Architecture
- Amazon API Gateway : 외부에 있는 서비스를 Rest API 를 통해 내부의 서비스와 연결해주는 역할을 함.
- Amazon Kinesis Streams : 큐의 역할을 함. 스트림 큐로 특정시간만큼 데이터를 저장할 수 있는 기능을 가지고 있음. 그래서 아무리 외부에서 대량의 트래픽이 발생해도 그것을 내부의 서비스로 연결해주는 완충역할을 해줌.
행태데이터란?
WEB , APP 에서 발생하는 데이터
요즘엔 사용자들이 웹이던 앱이던 특정 사이트에 머무르는 시간, 혹은 어떤 곳을 클릭하고 어떤 것에 관심이 있는지를 GA 라고 해서 모든 이벤트 데이터로 다 쌓이며, 그 데이터를 분석하여 마케팅에 사용되는 경우가 굉장히 많다. 나 또한 어느 마케팅 데이터로 도움을 주었겠지..
데이터를 다루는 사람이라고 말하기 창피할만큼 데이터에 대해 무지했던 것 같아서 창피하다.
이제부터는 모든 데이터에 대한 관심을 끌어올려 보고 싶다.
'Data Engineering' 카테고리의 다른 글
AWS 를 활용한 데이터 수집에 대한 설명 (1) | 2025.01.18 |
---|---|
[Apache Kafka] 카프카란 ? (0) | 2025.01.18 |
aws 데이터 파이프라인 실습 1 (0) | 2025.01.17 |
데이터 파이프라인의 이해 1 - 데이터 아키텍쳐의 변화 (2) | 2025.01.13 |