본문 바로가기

Data Engineering5

AWS 를 활용한 데이터 수집에 대한 설명 Kinesis란?대용량 스트리밍 데이터를 수집하고, 처리 및 분석할 수 있다. 이를 통해, 데이터를 실시간 처리해 S3와 같은 스토리지에 저장한 후, 다양한 일괄 처리를 할 수 있다.Kinesis는 한 샤드당 초당 1000개 레코드 또는 1MB 까지 수집할 수 있다.스트리밍 데이터 처리 패턴데이터 생산자 → 스트리밍 서비스 → 데이터 소비자 의 순으로 데이터 처리가 이루어짐데이터 생산자지속적 데이터 생성스트림으로 지속적인 데이터 쓰기무엇이든 대상이 될 수 있다!스트리밍 서비스내구성 있게 데이터 저장해야 한다.데이터 준비를 위한 임시 버퍼 공간을 제공한다.매우 높은 through-put 제공해야 한다 → 처리 속도를 높이기 위함데이터 소비자지속적으로 데이터를 처리함정리, 준비 및 집계 등의 일을 함데이터를.. 2025. 1. 18.
[Apache Kafka] 카프카란 ? 카프카(Kafka)란?카프카(Kafka)는 파이프라인, 스트리밍 분석, 데이터 통합 및 미션 크리티컬 애플리케이션을 위해 설계된 고성능 분산 이벤트 스트리밍 플랫폼이다.Pub-Sub 모델의 메시지 큐 형태로 동작하며 분산환경에 특화되어 있다.Fortune 100개 기업 중 80% 이상이 Kafka를 사용한다. 국내에서도 많이 사용하는 추세다.카프카의 탄생 배경비즈니스 소셜 네트워크 서비스인 링크드인 (linked-in) 에서 개발했다.다음은 카프카 개발 전 링크드인의 데이터 처리 시스템이다.기존 데이터 시스템의 문제점각 애플리케이션과 DB가 end-to-end 로 연결되어 있고(각 파이프라인이 파편화 되어있음), 요구사항이 늘어남에 따라 데이터 시스템 복잡도가 높아지면서 다음과 같은 문제가 발생하게 되었.. 2025. 1. 18.
aws 데이터 파이프라인 실습 1 1. Notebook -  크롬 열기   먼저는 aws EC2 구축을 진행했다.EC2 구축을 위해서는 키페어 생성을 해야 한다.  맥북 이면 .pem , window 기반은 .ppk 로받으면 된다고 함. 그다음에는 엑세스키와 시큐리티키를 발급받아야 한다. 이것은 IAM 에있고 거의 모든 보안관리는 IAM 에 있다.IAM - 사용자 들어가서 사용자 생성을 한다.정책을 admin 으로 하나 주고 생성함. 사용은 CLI 에서 주로 할거라 맨 위에꺼로 선택   키페어와 엑세스,시큐리티 키 모두 파일로 받아 로컬에 저장을 해두었다.그리고 보안그룹을 하나 만들어주면 좋은데,  인바운드 규칙만 해주었다.바깥에서 안으로 접속할 때 접속가능한 포트에 대한 설정인데 실습 땐 SSH 로 할거라 저렇게 설정을 해주고 그룹을 .. 2025. 1. 17.
데이터 파이프라인의 흐름 - aws 파이프라인이란? 데이터를 사용하고자 하는 목적성에 맞게끔 데이터를 가공하는 것이라 이야기 함.하지만 최근에는 여러가지 데이터 기능부서가 다양해 짐에 따라 엔지니어링 과정에 맞게 정의가 새롭게 이야기 되곤 함.     데이터 파이프라인의 구성 방안은 뭐가 있을까? 1. 회사 내의 데이터 차원의 요구사항(use case) 에 대한 빠른 대응2. 지속적이고 에러가 없어야 함.3. 시스템적으로 발생하는 에러에 대해 유연하게 scability 해야 한다.4. scale up 과 scale out 이 자유로워야 한다.5. 이벤트성 데이터 부하에도 처리가 가능해야 함. ( 마케팅 이벤트, 푸시 발송, 서비스 오픈 )6. 데이터가 쌓이는 공간에 문제가 없어야 함.7. 수집데이터 (저장데이터) 의 유연성8. 쉬운 분석데.. 2025. 1. 17.
데이터 파이프라인의 이해 1 - 데이터 아키텍쳐의 변화 더보기데이터 파이프라인을 미니 프로젝트를 진행하면서 익히고자 함.  최근 회사에서 AI 팀에서 데이터 플랫폼 팀으로 조직이동을 하게 되면서 기존에 하던 업무보다 데이터 엔지니어링 에 더 가까워졌다.그래서 AWS 를 통해 데이터 파이프라인 구축하는 방법을 빠르게 실무에 적용시키기 위해 공부가 필요하다! 먼저 기초 지식을 위한 이론 정리를 살짝 해보겠다.데이터 아키텍쳐 - Data Warehouse , Data Lake   데이터 파이프라인이란 결국 Raw data 를 그대로 분석이나 학습에 사용하기 어려우니 사용하기 좋게 가공해주고, 바로바로 가져와서 쓸 수 있도록 파이프라인을 쫙 깔아주는 것   이 이미지를 보니까 좀 더 이해가 쉬운데 Data Engineer 가 하는 역할은 결국 데이터 인프라를 구축해.. 2025. 1. 13.
반응형