"스파크 설치"의 두 판 사이의 차이
DB CAFE
(→스파크 (SPARK) 설치) |
(→설치에 필요한 파일 다운로드) |
||
(같은 사용자의 중간 판 14개는 보이지 않습니다) | |||
1번째 줄: | 1번째 줄: | ||
== 스파크 (SPARK) 설치 == | == 스파크 (SPARK) 설치 == | ||
+ | ---- | ||
=== 설치에 필요한 파일 다운로드 === | === 설치에 필요한 파일 다운로드 === | ||
# 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html | # 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html | ||
# JAVA JDK 다운로드 => https://www.oracle.com/index.html | # JAVA JDK 다운로드 => https://www.oracle.com/index.html | ||
− | ## [Product] > [Software] > [Java] 메뉴 선택 | + | ## [Product] > [Software] > [Java] 메뉴 선택 후 다운로드 |
+ | ##: * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild | ||
+ | |||
# WINUTILS 다운로드 => https://github.com/cdarlint/winutils | # WINUTILS 다운로드 => https://github.com/cdarlint/winutils | ||
---- | ---- | ||
+ | |||
=== 스파크_하둡 파일 압축해제후 환경변수 설정 === | === 스파크_하둡 파일 압축해제후 환경변수 설정 === | ||
− | # 스파크_하둡 다운로드 파일 압축 해제 | + | # 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제 |
− | # 환경변수 설정 / 추가 | + | # 환경변수 설정 / 추가 (OS별 아래 참조) |
− | # WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사 | + | # WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사 |
+ | ---- | ||
=== PySpark 설치 (pip 이용) === | === PySpark 설치 (pip 이용) === | ||
15번째 줄: | 20번째 줄: | ||
pip install pyspark | pip install pyspark | ||
</source> | </source> | ||
− | + | ---- | |
=== Linux or macOS 에서 설치 === | === Linux or macOS 에서 설치 === | ||
+ | # 환경변수 설정 | ||
<source lang=shell> | <source lang=shell> | ||
export JAVA_HOME=<path_to_java> | export JAVA_HOME=<path_to_java> | ||
24번째 줄: | 30번째 줄: | ||
export PYSPARK_DRIVER_PYTHON=python3 | export PYSPARK_DRIVER_PYTHON=python3 | ||
</source> | </source> | ||
− | + | <path_to_java>를 실제 설치된 java path 로 변경하세요. | |
<source lang=shell> | <source lang=shell> | ||
/usr/libexec/java_home | /usr/libexec/java_home | ||
30번째 줄: | 36번째 줄: | ||
=== Windows 에서 설치 === | === Windows 에서 설치 === | ||
+ | * powershell 인 경우 | ||
<source lang=shell> | <source lang=shell> | ||
$env:JAVA_HOME = "<path_to_java>" | $env:JAVA_HOME = "<path_to_java>" | ||
36번째 줄: | 43번째 줄: | ||
$env:PYSPARK_DRIVER_PYTHON = "python3" | $env:PYSPARK_DRIVER_PYTHON = "python3" | ||
</source> | </source> | ||
− | + | <path_to_java>를 실제 설치된 java path 로 변경 하세요. | |
=== PySpark 설치 후 테스트 === | === PySpark 설치 후 테스트 === | ||
− | + | *PowerShell 실행 후 | |
− | + | <source lang=shell> | |
+ | PS C:\Users\bassd> pyspark | ||
+ | </source> | ||
<source lang=python> | <source lang=python> | ||
− | from pyspark.sql import | + | from pyspark.sql import HiveContext |
+ | from pyspark.sql.types import * | ||
+ | from pyspark.sql import Row | ||
− | spark | + | prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv") |
− | + | prod.show() | |
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
</source> | </source> | ||
− |
2023년 3월 23일 (목) 20:11 기준 최신판
thumb_up 추천메뉴 바로가기
- DBA { Oracle DBA 명령어 > DBA 초급 과정 > DBA 고급 과정 }
- 튜닝 { 오라클 튜닝 목록 }
- 모델링 { 데이터 모델링 가이드 }
목차
1 스파크 (SPARK) 설치[편집]
1.1 설치에 필요한 파일 다운로드[편집]
- 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
- JAVA JDK 다운로드 => https://www.oracle.com/index.html
- [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
- * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild
- [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
- WINUTILS 다운로드 => https://github.com/cdarlint/winutils
1.2 스파크_하둡 파일 압축해제후 환경변수 설정[편집]
- 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제
- 환경변수 설정 / 추가 (OS별 아래 참조)
- WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사
1.3 PySpark 설치 (pip 이용)[편집]
pip install pyspark
1.4 Linux or macOS 에서 설치[편집]
- 환경변수 설정
export JAVA_HOME=<path_to_java>
export SPARK_HOME=$(python -c "import site; print(site.getsitepackages()[0])")/pyspark
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=python3
<path_to_java>를 실제 설치된 java path 로 변경하세요.
/usr/libexec/java_home
1.5 Windows 에서 설치[편집]
- powershell 인 경우
$env:JAVA_HOME = "<path_to_java>"
$env:SPARK_HOME = (python -c "import site; print(site.getsitepackages()[0])") + "\pyspark"
$env:PYSPARK_PYTHON = "python3"
$env:PYSPARK_DRIVER_PYTHON = "python3"
<path_to_java>를 실제 설치된 java path 로 변경 하세요.
1.6 PySpark 설치 후 테스트[편집]
- PowerShell 실행 후
PS C:\Users\bassd> pyspark
from pyspark.sql import HiveContext
from pyspark.sql.types import *
from pyspark.sql import Row
prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv")
prod.show()