"스파크 설치"의 두 판 사이의 차이

DB CAFE

2023년 3월 23일 (목) 20:11 기준 최신판

추천메뉴 바로가기

DBA { Oracle DBA 명령어 > DBA 초급 과정 > DBA 고급 과정 }
튜닝 { 오라클 튜닝 목록 }
모델링 { 데이터 모델링 가이드 }

1 스파크 (SPARK) 설치[편집]

1.1 설치에 필요한 파일 다운로드[편집]

스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
JAVA JDK 다운로드 => https://www.oracle.com/index.html
1. [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
  * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild

WINUTILS 다운로드 => https://github.com/cdarlint/winutils

1.2 스파크_하둡 파일 압축해제후 환경변수 설정[편집]

스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제
환경변수 설정 / 추가 (OS별 아래 참조)
WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사

1.3 PySpark 설치 (pip 이용)[편집]

pip install pyspark

1.4 Linux or macOS 에서 설치[편집]

환경변수 설정

export JAVA_HOME=<path_to_java>
export SPARK_HOME=$(python -c "import site; print(site.getsitepackages()[0])")/pyspark
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=python3

<path_to_java>를 실제 설치된 java path 로 변경하세요.

/usr/libexec/java_home

1.5 Windows 에서 설치[편집]

powershell 인 경우

$env:JAVA_HOME = "<path_to_java>"
$env:SPARK_HOME = (python -c "import site; print(site.getsitepackages()[0])") + "\pyspark"
$env:PYSPARK_PYTHON = "python3"
$env:PYSPARK_DRIVER_PYTHON = "python3"

<path_to_java>를 실제 설치된 java path 로 변경 하세요.

1.6 PySpark 설치 후 테스트[편집]

PowerShell 실행 후

PS C:\Users\bassd> pyspark

from pyspark.sql import HiveContext
from pyspark.sql.types import *
from pyspark.sql import Row

prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv")
prod.show()

@@ 4번째 줄: / 4번째 줄: @@
 # 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
 # JAVA JDK 다운로드 => https://www.oracle.com/index.html
-## [Product] > [Software] > [Java] 메뉴 선택
+## [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
+##: * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild
 # WINUTILS 다운로드 => https://github.com/cdarlint/winutils
 ----
 === 스파크_하둡 파일 압축해제후 환경변수 설정 ===
-# 스파크_하둡 다운로드 파일 압축 해제
+# 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제
-# 환경변수 설정 / 추가
+# 환경변수 설정 / 추가 (OS별 아래 참조)
 # WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사
 ----
@@ 17번째 줄: / 20번째 줄: @@
 pip install pyspark
 </source>
+----
 === Linux or macOS 에서 설치 ===
@@ 54번째 줄: / 58번째 줄: @@
 prod.show()
 </source>
-<source lang=python>
-from pyspark.sql import SparkSession
-spark = SparkSession.builder \
-    .appName("PySpark Test") \
-    .getOrCreate()
-data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
-columns = ["Name", "ID"]
-df = spark.createDataFrame(data, columns)
-df.show()
-</source>
-If the installation is successful, you will see the DataFrame displayed as output.
-(Optional) Install additional packages:
-You may need additional packages for your PySpark projects, such as pandas, numpy, or matplotlib. Install them using pip:
-<source lang=shell>
-pip install pandas numpy matplotlib
-</source>
-With PySpark installed, you can now start working on your data processing and machine learning projects.

"스파크 설치"의 두 판 사이의 차이

DB CAFE

2023년 3월 23일 (목) 20:11 기준 최신판

목차

1 스파크 (SPARK) 설치[편집]

1.1 설치에 필요한 파일 다운로드[편집]

1.2 스파크_하둡 파일 압축해제후 환경변수 설정[편집]

1.3 PySpark 설치 (pip 이용)[편집]

1.4 Linux or macOS 에서 설치[편집]

1.5 Windows 에서 설치[편집]

1.6 PySpark 설치 후 테스트[편집]