행위

도서 PySpark 배우기

DB CAFE

Dbcafe (토론 | 기여)님의 2022년 6월 21일 (화) 09:43 판 (스파크 애플리케이션 패키지화하기)
thumb_up 추천메뉴 바로가기


목차

1 pyspark[편집]

1.1 스파크 이해하기[편집]

1.1.1 아파치 스파크는 무엇인가?[편집]

1.1.2 스파크 잡과 API[편집]

1.1.2.1 실행 프로세스[편집]

1.1.2.2 RDD[편집]

1.1.2.3 데이터프레임[편집]

1.1.2.4 데이터셋[편집]

1.1.2.5 카탈리스트 옵티마이저[편집]

1.1.2.6 프로젝트 텅스텐[편집]

1.1.3 스파크 2.0의 구조[편집]

1.1.3.1 데이터셋과 데이터프레임 통합[편집]

1.1.3.2 스파크세션에 대한 소개[편집]

1.1.3.3 텅스텐 페이스 2[편집]

1.1.3.4 구조적 스트리밍[편집]

1.1.3.5 지속적 애플리케이션[편집]

1.1.4 요약[편집]

1.2 RDD[편집]

1.2.1 RDD의 내부 작동 원리[편집]

1.2.2 RDD 생성하기[편집]

1.2.2.1 스키마[편집]

1.2.2.2 파일로부터 데이터 읽기[편집]

1.2.2.3 람다 표현[편집]

1.2.3 전역 범위 vs. 지역 범위[편집]

1.2.4 트랜스포메이션[편집]

1.2.4.1 map() 트랜스포메이션[편집]

1.2.4.2 .filter() 트랜스포메이션[편집]

1.2.4.3 .flatMap(...) 트랜스포메이션[편집]

1.2.4.4 .distinct() 트랜스포메이션[편집]

1.2.4.5 .sample(...) 트랜스포메이션[편집]

1.2.4.6 .leftOuterJoin(...) 트랜스포메이션[편집]

1.2.4.7 .repartition(...) 트랜스포메이션[편집]

1.2.5 액션[편집]

1.2.5.1 .take(...) 함수[편집]

1.2.5.2 .collect(...) 함수[편집]

1.2.5.3 .reduce(...) 함수[편집]

1.2.5.4 .count(...) 함수[편집]

1.2.5.5 .saveAsTextFile(...) 함수[편집]

1.2.5.6 .foreach(...) 함수[편집]

__요약

1.3 데이터프레임[편집]

__파이썬에서의 RDD 커뮤니케이션 __카탈리스트 옵티마이저 리뷰 __데이터프레임을 이용한 파이스파크 스피드업 __데이터프레임 생성하기 ____JSON 데이터 생성하기 ____데이터프레임 생성하기 ____임시 테이블 생성하기 __간단한 데이터프레임 쿼리 ____데이터프레임 API 쿼리 ____SQL 쿼리 __RDD로 연동하기 ____리플렉션을 이용한 스키마 추측하기 ____프로그래밍하는 것처럼 스키마 명시하기 __데이터프레임 API로 쿼리하기 ____행의 개수 ____필터문 실행하기 __SQL로 쿼리하기 ____행의 개수 ____필터문을 where 절을 사용해 실행하기 __데이터프레임 시나리오: 비행 기록 성능 ____출발지 데이터셋 준비하기 ____비행 성능 데이터셋과 공항 데이터셋 조인하기 ____비행 성능 데이터 시각화하기 __스파크 데이터셋 API __요약

1.4 데이터 모델링 준비하기[편집]

__중복, 미관찰 값, 아웃라이어 확인하기 ____중복 값 ____관찰되지 않은 데이터 ____아웃라이어 __데이터에 친숙해지기 ____기술 통계 ____상관 계수 __시각화 ____히스토그램 ____피처 사이의 상호작용 __요약

1.5 MLlib 소개하기[편집]

__패키지에 대한 개요 __데이터 로딩하기와 변형하기 __데이터에 대해 알아보기 ____기술 통계 ____상관 계수 ____통계 값 테스트하기 __최종 데이터셋 생성하기 ____LabeledPoint의 RDD 생성하기 ____학습 데이터셋과 테스트 데이터셋으로 나누기 __유아 생존율 예측하기 ____MLlib의 로지스틱 회귀 ____가장 유용한 피처 선택하기 ____MLlib에서의 랜덤 포레스트 __요약

1.6 ML 패키지 소개하기[편집]

__패키지의 개요 ____트랜스포머 ____에스티메이터 ____분류 모델 ____회귀 모델 ____군집화 모델 ____파이프라인 __ML로 유아 생존율 예측하기 ____데이터 로드하기 ____트랜스포머 생성하기 ____에스티메이터 생성하기 ____파이프라인 생성하기 ____모델 학습하기 ____모델의 성능 측정하기 ____모델 저장하기 __파라미터 하이퍼튜닝 ____그리드 탐색 ____학습/검증 데이터셋 쪼개기 ____파이스파크 ML의 다른 피처 실습 ____피처 추출 __요약

1.7 그래프프레임[편집]

__그래프프레임 소개 __그래프프레임 설치하기 ____라이브러리 생성 __비행 데이터셋 준비하기 __그래프 생성하기 __간단한 쿼리 수행하기 ____공항과 여행의 개수 확인하기 ____데이터셋 내에서 가장 긴 지연 확인하기 ____지연 비행 vs. 정각/이른 비행 확인하기 ____시애틀에서 출발하는 어떤 비행기에서 지연이 발생할 확률이 높은가? ____시애틀에서 출발해 어떤 주로 향할 때 비행기의 지연 가능성이 높을까? __노드 degree 이해하기 __상위 환승 공항 알아내기 __모티브 이해하기 __페이지랭크를 이용해 공항 순위 알아보기 __가장 인기 있는 논스톱 비행편 확인하기 __너비 우선 탐색 사용하기 __D3를 이용한 비행편 시각화 __요약

1.8 텐서프레임[편집]

__딥러닝이란 무엇인가? ____인공신경망과 딥러닝의 필요성 ____피처 엔지니어링이란? ____데이터와 알고리즘 연결하기 __텐서플로우는 무엇인가? ____pip 설치하기 ____텐서플로우 설치하기 ____상수를 이용한 행렬 곱 ____placeholder를 이용한 행렬 곱 ____논의 __텐서프레임 소개하기 __텐서프레임: 퀵 스타트 ____설정과 셋업 ____기존 칼럼에 상수를 더하기 위해 텐서플로우 사용하기 ____블록 단위 reduce 연산자 예제 __요약

1.9 블레이즈를 이용한 다언어 코드 지속성[편집]

__블레이즈 설치하기 __다언어 코드 지속성 __데이터 추상화하기 ____NumPy 배열로 작업하기 ____pandas 데이터프레임 사용하기 ____파일로 작업하기 ____데이터베이스로 작업하기 __데이터 연산 ____칼럼 접근하기 ____심볼릭 트랜스포메이션 ____칼럼 연산자 ____데이터 축소 ____조인 __요약

1.10 구조적 스트리밍[편집]

__스파크 스트리밍은 무엇인가? __스파크 스트리밍이 왜 필요한가? __스파크 스트리밍 애플리케이션의 데이터 흐름은 어떠한가? __DStream을 이용한 간단한 스트리밍 애플리케이션 __스파크 스트리밍의 글로벌 집계에 대한 기본 __구조적 스트리밍 소개하기 __요약

1.11 스파크 애플리케이션 패키지화하기[편집]

1.11.1 spark-submit 명령어[편집]

명령행 파라미터

1.11.2 애플리케이션 실행시키기[편집]

1.11.2.1 SparkSession 설정하기[편집]

1.11.2.2 SparkSession 생성하기[편집]

1.11.2.3 코드 모듈화하기[편집]

1.11.2.4 잡 서브밋하기[편집]

1.11.2.5 실행 상태 모니터링하기[편집]

1.11.3 데이터브릭스 잡[편집]

__요약