일상다반사/책

요즘 읽는 책: 차세대 빅데이터 플랫폼 Data Lake(데이터 레이크)

ProDA 2022. 7. 31.

국내 저자가 쓴 Data Lake(데이터 레이크) 도서가 있어 전자책으로 구매하여 읽고 있다.

 

- 제목: 차세대 빅데이터 플랫폼 Data Lake
- 부제: 구축, 활성화 및 거버넌스 전략
- 저자: 윤선웅
- 출판사: 좋은땅
- 출간일: 2021년 04월 23일

 

차세대 빅데이터 플랫폼 Data Lake(데이터 레이크) 표지
차세대 빅데이터 플랫폼 Data Lake(데이터 레이크) 표지

 

교보문고 URL: 차세대 빅데이터 플랫폼 Data Lake | 윤선웅 | 좋은땅 - 교보문고 (kyobobook.co.kr)

리디북스 URL: 차세대 빅데이터 플랫폼 Data Lake - 리디 (ridibooks.com)

 

종이책으로 180쪽이라 얇은 편이다.

 

책의 소개 내용은 다음과 같다.

(출처: 차세대 빅데이터 플랫폼 Data Lake | 윤선웅 | 좋은땅 - 교보문고 (kyobobook.co.kr))

기업의 CEO를 포함한 모든 경영진은 Data Lake 플랫폼으로의 전환을 위한 준비가 필요하다!
Data Lake의 실체를 밝힌다!

데이터 웨어하우스의 시대가 가고 Data Lake의 시대가 옵니다. 기업의 모든 구성원이 Data Scientist를 꿈꿉니다. 빅데이터는 Data Scientist만의 전유물이 아닙니다. 모든 구성원이 빅데이터를 활용할 수 있어야만 치열한 전쟁터에서 살아남을 수 있습니다. 이제는 전 사원이 빅데이터를 활용하여 업무를 혁신해야 합니다. 이를 가능하게 하는 것이 바로 Data Lake입니다. 기업은 Data Lake에 과감한 투자를 해야 하는 시점이 왔습니다. Data Lake가 “데이터 늪”이 되지 않기 위해서는 반드시 이 책을 읽어야 할 것입니다.

 

목차는 다음과 같다.

제1장 Introduction

1. 데이터 분석 플랫폼 발전 과정 021
2. Data Lake 구축 방식 선정 023
3. Data Lake 추진 로드맵 수립 025
4. Data Lake 아키텍처 설계 026
5. Data Lake 플랫폼 활용도 향상 032
6. Data Lake 거버넌스 033
7. Data Lake 추진 조직 036


제2장 Data Lake란 무엇인가?

1. Data Lake의 개념 041
2. Data Lake의 기원 044
3. Data Lake vs. Data Warehouse 045
4. Data Lake vs. 빅데이터(Hadoop) 플랫폼 053
5. Data Lake vs. Data Puddle/Pond 055
6. Data Lake vs. Data Swamp 059
7. Data Lake의 지향점 061


제3장 Data Lake는 어떻게 구축해야 하는가?

1. Data Lake 구현 방식: On-Premise vs. Cloud 065
2. Data Lake 구축 로드맵 070
3. Data Lake 목표 아키텍처 082
4. 데이터 수집 Layer 085
5. 데이터 적재 Layer 092
6. 데이터 제공 Layer 096
7. 데이터 서비스 Layer 100
1) 데이터 검색 104
2) 데이터 Context 이해 112
3) 데이터 확보 120
4) 타 서비스 연계 123
8. Data Catalog 솔루션 127


제4장 ?Data Lake를 잘 활용하기 위한
방안은 무엇인가?

1. Data Lake의 타깃을 일반 사용자로 할 것(UI/UX 측면) 133
2. 기존 사용자들이 많이 활용하는 도구와 연계 138
3. 데이터 큐레이션의 우선순위화 140
4. 게임화(Gamification)의 도입 142
5. 빅데이터 과제와 연계 추진 145
6. 전사적 전환(Transformation) 프로그램 146


제5장 Data Lake 거버넌스

1. 데이터 품질 관리 155
2. 보안 관리 157
3. 데이터 수명 주기 관리 162


결론
향후 발전방향 170
1) 데이터 중복의 최소화 170
2) 별도의 Data Hub? 172
3) ‘지식관리(KM)’와의 통합 173
4) 온라인 서비스 플랫폼에의 적용 174


참고문헌 176

 

현재 진행중인 프로젝트와 연관성이 있어 읽기 시작했다. 내용이 잘 정리되어 있고 도움이 되는 내용이 많아서 좋다.

다만 이 책의 내용은 최적의 Data Lake 플랫폼으로 Hadoop을 제시하고 있어 이점은 감안하고 읽는 중이다.

댓글

💲 추천 글