행위

도서 PySpark 배우기

DB CAFE

Dbcafe (토론 | 기여)님의 2022년 6월 10일 (금) 13:04 판 (새 문서: 1장. 스파크 이해하기 __아파치 스파크는 무엇인가? __스파크 잡과 API ____실행 프로세스 ____RDD ____데이터프레임 ____데이터셋 ____카탈리스트...)
(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
thumb_up 추천메뉴 바로가기


1장. 스파크 이해하기

__아파치 스파크는 무엇인가? __스파크 잡과 API ____실행 프로세스 ____RDD ____데이터프레임 ____데이터셋 ____카탈리스트 옵티마이저 ____프로젝트 텅스텐 __스파크 2.0의 구조 ____데이터셋과 데이터프레임 통합 ____스파크세션에 대한 소개 ____텅스텐 페이스 2 ____구조적 스트리밍 ____지속적 애플리케이션 __요약

2장. RDD

__RDD의 내부 작동 원리 __RDD 생성하기 ____스키마 ____파일로부터 데이터 읽기 ____람다 표현 __전역 범위 vs. 지역 범위 __트랜스포메이션 ____map() 트랜스포메이션 ____.filter() 트랜스포메이션 ____.flatMap(...) 트랜스포메이션 ____.distinct() 트랜스포메이션 ____.sample(...) 트랜스포메이션 ____.leftOuterJoin(...) 트랜스포메이션 ____.repartition(...) 트랜스포메이션 __액션 ____.take(...) 함수 ____.collect(...) 함수 ____.reduce(...) 함수 ____.count(...) 함수 ____.saveAsTextFile(...) 함수 ____.foreach(...) 함수 __요약

3장. 데이터프레임

__파이썬에서의 RDD 커뮤니케이션 __카탈리스트 옵티마이저 리뷰 __데이터프레임을 이용한 파이스파크 스피드업 __데이터프레임 생성하기 ____JSON 데이터 생성하기 ____데이터프레임 생성하기 ____임시 테이블 생성하기 __간단한 데이터프레임 쿼리 ____데이터프레임 API 쿼리 ____SQL 쿼리 __RDD로 연동하기 ____리플렉션을 이용한 스키마 추측하기 ____프로그래밍하는 것처럼 스키마 명시하기 __데이터프레임 API로 쿼리하기 ____행의 개수 ____필터문 실행하기 __SQL로 쿼리하기 ____행의 개수 ____필터문을 where 절을 사용해 실행하기 __데이터프레임 시나리오: 비행 기록 성능 ____출발지 데이터셋 준비하기 ____비행 성능 데이터셋과 공항 데이터셋 조인하기 ____비행 성능 데이터 시각화하기 __스파크 데이터셋 API __요약

4장. 데이터 모델링 준비하기

__중복, 미관찰 값, 아웃라이어 확인하기 ____중복 값 ____관찰되지 않은 데이터 ____아웃라이어 __데이터에 친숙해지기 ____기술 통계 ____상관 계수 __시각화 ____히스토그램 ____피처 사이의 상호작용 __요약

5장. MLlib 소개하기

__패키지에 대한 개요 __데이터 로딩하기와 변형하기 __데이터에 대해 알아보기 ____기술 통계 ____상관 계수 ____통계 값 테스트하기 __최종 데이터셋 생성하기 ____LabeledPoint의 RDD 생성하기 ____학습 데이터셋과 테스트 데이터셋으로 나누기 __유아 생존율 예측하기 ____MLlib의 로지스틱 회귀 ____가장 유용한 피처 선택하기 ____MLlib에서의 랜덤 포레스트 __요약

6장. ML 패키지 소개하기

__패키지의 개요 ____트랜스포머 ____에스티메이터 ____분류 모델 ____회귀 모델 ____군집화 모델 ____파이프라인 __ML로 유아 생존율 예측하기 ____데이터 로드하기 ____트랜스포머 생성하기 ____에스티메이터 생성하기 ____파이프라인 생성하기 ____모델 학습하기 ____모델의 성능 측정하기 ____모델 저장하기 __파라미터 하이퍼튜닝 ____그리드 탐색 ____학습/검증 데이터셋 쪼개기 ____파이스파크 ML의 다른 피처 실습 ____피처 추출 __요약

7장. 그래프프레임

__그래프프레임 소개 __그래프프레임 설치하기 ____라이브러리 생성 __비행 데이터셋 준비하기 __그래프 생성하기 __간단한 쿼리 수행하기 ____공항과 여행의 개수 확인하기 ____데이터셋 내에서 가장 긴 지연 확인하기 ____지연 비행 vs. 정각/이른 비행 확인하기 ____시애틀에서 출발하는 어떤 비행기에서 지연이 발생할 확률이 높은가? ____시애틀에서 출발해 어떤 주로 향할 때 비행기의 지연 가능성이 높을까? __노드 degree 이해하기 __상위 환승 공항 알아내기 __모티브 이해하기 __페이지랭크를 이용해 공항 순위 알아보기 __가장 인기 있는 논스톱 비행편 확인하기 __너비 우선 탐색 사용하기 __D3를 이용한 비행편 시각화 __요약

8장. 텐서프레임

__딥러닝이란 무엇인가? ____인공신경망과 딥러닝의 필요성 ____피처 엔지니어링이란? ____데이터와 알고리즘 연결하기 __텐서플로우는 무엇인가? ____pip 설치하기 ____텐서플로우 설치하기 ____상수를 이용한 행렬 곱 ____placeholder를 이용한 행렬 곱 ____논의 __텐서프레임 소개하기 __텐서프레임: 퀵 스타트 ____설정과 셋업 ____기존 칼럼에 상수를 더하기 위해 텐서플로우 사용하기 ____블록 단위 reduce 연산자 예제 __요약

9장. 블레이즈를 이용한 다언어 코드 지속성

__블레이즈 설치하기 __다언어 코드 지속성 __데이터 추상화하기 ____NumPy 배열로 작업하기 ____pandas 데이터프레임 사용하기 ____파일로 작업하기 ____데이터베이스로 작업하기 __데이터 연산 ____칼럼 접근하기 ____심볼릭 트랜스포메이션 ____칼럼 연산자 ____데이터 축소 ____조인 __요약

10장. 구조적 스트리밍

__스파크 스트리밍은 무엇인가? __스파크 스트리밍이 왜 필요한가? __스파크 스트리밍 애플리케이션의 데이터 흐름은 어떠한가? __DStream을 이용한 간단한 스트리밍 애플리케이션 __스파크 스트리밍의 글로벌 집계에 대한 기본 __구조적 스트리밍 소개하기 __요약

11장. 스파크 애플리케이션 패키지화하기

__spark-submit 명령어 명령행 파라미터 __애플리케이션 실행시키기 ____SparkSession 설정하기 ____SparkSession 생성하기 ____코드 모듈화하기 ____잡 서브밋하기 ____실행 상태 모니터링하기 __데이터브릭스 잡 __요약