데이터레이크 기술 정리

# 기술 정리

https://streamsets.com/documentation/datacollector/latest/help/datacollector/UserGuide/Getting_Started/GettingStarted_Title.html#concept_htw_ghg_jq

https://brownbears.tistory.com/258

1. 오브젝트 스토리지

1-1. 정의

1-2. 요건

2. 기술 정리

2-1. 이레이저 코딩

3. 데이터 레이크

3-1. 정의

3-2. 데이터 레이크 필수 요소

3-2-1. 저장과 분석이 분리된 아키텍처

3-2-2. 분석 샌드박스

1559190830239

3-2-3. 현업 사용자를 위한 데이터 셀프 서비스

4. 하둡

4-1. 요약

4-2. 동작 원리

하둡 프레임워크는 파일 시스템인 HDFS(Hadoop Distributed File System)과 데이터를 처리하는 맵리듀스(MapReduce) 엔진을 합친 것으로 대규모 클러스터 상의 데이터 처리를 다음과 같이 단순화

  1. 잡을 잘게 분할하고 클러스터의 모든 노드로 매핑(Map)
  2. 각 노드는 잡을 처리한 중간 결과를 생성하고
  3. 분할된 중간 결과를 집계(Reduce)해서 최종 결과를 냄

4-3. 한계

5. 스파크

5-1. 기능

5-2. 장점