일상다반사/책

요즘 읽는 책: Data Catalog 만들기

ProDA 2022. 7. 31.

Data Lake(데이터 레이크)와 관련하여 두 권의 책을 읽는 중이다.

한 권은 요즘 읽는 책: 차세대 빅데이터 플랫폼 Data Lake(데이터 레이크) 글에서 소개했다.

 

요즘 읽는 책: 차세대 빅데이터 플랫폼 Data Lake(데이터 레이크)

국내 저자가 쓴 Data Lake(데이터 레이크) 도서가 있어 전자책으로 구매하여 읽고 있다. 교보문고 URL: 차세대 빅데이터 플랫폼 Data Lake | 윤선웅 | 좋은땅 - 교보문고 (kyobobook.co.kr) 리디북스 URL: 차세

prodtool.tistory.com

 

다른 한 권은 "Data Catalog 만들기" 이다. 위 책과 저자가 같다.

- 제목: Data Catalog 만들기
- 부제: Data Lake 플랫폼의 핵심 서비스 구현
- 저자: 윤선웅
- 출판사: 좋은땅
- 출간일: 2021년 05월 27일

 

Data Catalog 만들기 표지
Data Catalog 만들기 표지

 

교보문고 URL: Data Catalog 만들기 | 윤선웅 | 좋은땅 - 교보문고 (kyobobook.co.kr)

리디북스 URL: Data Catalog 만들기 (Data Lake 플랫폼의 핵심 서비스 구현) - 리디 (ridibooks.com)

 

책의 소개 내용은 다음과 같다.

(출처: Data Catalog 만들기 | 윤선웅 | 좋은땅 - 교보문고 (kyobobook.co.kr))

 

Data Catalog 구축을 통해 Data Lake 플랫폼을 완성하자!

Data Catalog 서비스는 Data Lake 플랫폼을 활용하기 위해 반드시 통과해야 하는 관문(Gateway)입니다. Data Catalog를 통해서 사용자는 필요한 데이터를 검색하고, 이해하고, 활용할 수 있습니다. 그리고 Data Catalog를 통해 메타데이터를 생성하고, 사용자가 생성한 객체를 배포하여 “데이터의 자산화”가 가능합니다. 또한 다양한 데이터 분석 도구와의 연계를 통해 활용성을 향상시킬 수 있습니다. 기업의 빅데이터를 자산화하고 활용성을 높이기 위해서는 반드시 Data Catalog를 구축해야 합니다!

 

목차는 다음과 같다.

제1장 Data Catalog란 무엇인가?
1. Data Lake 플랫폼19
2. Data Lake 플랫폼에서 Data Catalog의 역할24
3. Data Catalog vs. 상품 카탈로그27
4. Data Catalog의 정의31
5. Data Catalog의 주요 기능32
6. 기존 ‘메타데이터 관리 시스템’과의 차이점38


제2장 Data Catalog는 왜 중요한가?
1. Data Lake 플랫폼의 출발점이자 관문42
2. 전사 데이터의 자산화43
3. 데이터 도구의 활용성 향상45
4. Data Catalog의 실패는 ‘데이터 늪’46


제3장 Data Catalog 주요 기능 만들기
1. 사용자 Front-End 기능51
1-1. 카탈로그 검색51
1-2. 카탈로그 조회62
1-3. 데이터 수집 요청(VoC)82
1-4. 데이터 질의응답84
1-5. 카탈로그 큐레이션85
1-6. 실데이터 조회87
1-7. 실행 스케줄러91
1-8. 데이터 전처리 도구와의 연계92
1-9. 데이터 분석 도구와의 연계93
1-10. 용어사전 관리95
1-11. My Catalog97
2. Back-End 기능98
2-1. 메타데이터 수집98
2-2. 메타데이터 추천(M/L)104
2-3. 검색엔진 색인 생성107
2-4. 쿼리 로그 수집/파싱108
2-5. 데이터 프로파일링113
2-6. 데이터 활용 현황 집계118
2-7. 데이터 배치 처리120
2-8. 데이터 보안 처리121
3. 관리자 기능126
3-1. 데이터 활용 현황판(대시보드)127
3-2. 카테고리 관리129
3-3. 데이터 요청(VoC) 처리132
3-4. 데이터 Life Cycle 관리134
3-5. 데이터 품질 관리139
3-6. 플랫폼 보안 관리143
3-7. 플랫폼 모니터링146


제4장 Data Catalog 개발 절차
1. 자체 개발 vs. 솔루션 도입 의사결정155
2. 단계별 구현 로드맵 수립163
3. 메타데이터 구축 모듈170
3-1. 대상 ‘데이터 객체’ 범위 정의171
3-2. ‘데이터 Steward’ 지정176
3-3. ‘데이터 객체’ 유형별 메타데이터 관리 항목 정의177
3-4. 항목별 메타데이터 수집 방법 및 기능 설계179
3-5. 메타데이터 관련 Back-End 기능 개발181
3-6. 카탈로그 큐레이션184
4. Data Pipeline 구축 모듈188
4-1. 원천 데이터 수집 범위 정의188
4-2. ‘데이터 오너’ 지정190
4-3. Data Pipeline 설계191
4-4. Data Pipeline 개발194
4-5. 원천 데이터 수집195
5. Front-End 구축 모듈196
5-1. Data Catalog Front-End 요건 정의196
5-2. Data Catalog Front-End 기능 설계198
5-3. Data Catalog Front-End 기능 개발199
6. 변화관리 모듈200
6-1. 변화관리 계획 수립201
6-2. 사용자 그룹별 커뮤니케이션203
6-3. 사용자 변화관리205
7. 통합 테스트207


제5장. Data Catalog의 미래 발전 방향
1. 전사 통합 데이터 포털212
2. ‘지식 포털’과의 통합213
3. 데이터 분석 관련 모든 기능의 통합215
4. ‘전사 DA 시스템’과의 통합217
5. AI 기반 카탈로그 큐레이션219
6. 개인화된 콘텐츠 추천221


참고자료 223

 

Data Lake(데이터 레이크)를 얼마나 잘 활용할 수 있는지는 Data Catalog(데이터 카탈로그)가 사용자에게 얼마나 쉽고 편하게 필요한 데이터를 찾고 활용할 수 있게 해주는지에 달려 있다.

댓글

💲 추천 글