행위

"스파크 설치"의 두 판 사이의 차이

DB CAFE

(스파크 설치)
(설치에 필요한 파일 다운로드)
 
(같은 사용자의 중간 판 17개는 보이지 않습니다)
1번째 줄: 1번째 줄:
== 스파크 설치 ==
+
== 스파크 (SPARK) 설치 ==
 +
----
 
=== 설치에 필요한 파일 다운로드 ===
 
=== 설치에 필요한 파일 다운로드 ===
# 스파크_하둡 https://spark.apache.org/downloads.html
+
# 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
# JAVA JDK  
+
# JAVA JDK 다운로드 => https://www.oracle.com/index.html
# WINUTILS https://github.com/cdarlint/winutils
+
## [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
 +
##: * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild
 +
 
 +
# WINUTILS 다운로드 => https://github.com/cdarlint/winutils
 +
----
 +
 
 
=== 스파크_하둡 파일 압축해제후 환경변수 설정 ===
 
=== 스파크_하둡 파일 압축해제후 환경변수 설정 ===
# 스파크_하둡 다운로드 파일 압축 해제  
+
# 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제  
# 환경변수 설정 / 추가  
+
# 환경변수 설정 / 추가 (OS별 아래 참조)
# WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사  
+
# WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사
 +
----
  
 
=== PySpark 설치 (pip 이용) ===
 
=== PySpark 설치 (pip 이용) ===
13번째 줄: 20번째 줄:
 
pip install pyspark
 
pip install pyspark
 
</source>
 
</source>
Set the necessary environment variables. PySpark needs to know the path to your Java installation.
+
----
  
 
=== Linux or macOS 에서 설치 ===
 
=== Linux or macOS 에서 설치 ===
 +
# 환경변수 설정
 
<source lang=shell>
 
<source lang=shell>
 
export JAVA_HOME=<path_to_java>
 
export JAVA_HOME=<path_to_java>
22번째 줄: 30번째 줄:
 
export PYSPARK_DRIVER_PYTHON=python3
 
export PYSPARK_DRIVER_PYTHON=python3
 
</source>
 
</source>
Replace <path_to_java> with the actual path to your Java installation. You can find it using the following command:
+
<path_to_java>를 실제 설치된 java path 로 변경하세요.
 
<source lang=shell>
 
<source lang=shell>
 
/usr/libexec/java_home
 
/usr/libexec/java_home
28번째 줄: 36번째 줄:
  
 
=== Windows 에서 설치 ===  
 
=== Windows 에서 설치 ===  
 +
* powershell 인 경우
 
<source lang=shell>
 
<source lang=shell>
 
$env:JAVA_HOME = "<path_to_java>"
 
$env:JAVA_HOME = "<path_to_java>"
34번째 줄: 43번째 줄:
 
$env:PYSPARK_DRIVER_PYTHON = "python3"
 
$env:PYSPARK_DRIVER_PYTHON = "python3"
 
</source>
 
</source>
Replace <path_to_java> with the actual path to your Java installation.
+
<path_to_java>를 실제 설치된 java path 로 변경 하세요.
  
 
=== PySpark 설치 후 테스트 ===
 
=== PySpark 설치 후 테스트 ===
Create a new Python script or open an interactive Python shell, and run the following code:
+
*PowerShell 실행 후
 
+
<source lang=shell>
 +
PS C:\Users\bassd> pyspark
 +
</source>
 
<source lang=python>
 
<source lang=python>
from pyspark.sql import SparkSession
+
from pyspark.sql import HiveContext
 
+
from pyspark.sql.types import *
spark = SparkSession.builder \
+
from pyspark.sql import Row
    .appName("PySpark Test") \
 
    .getOrCreate()
 
 
 
data = [("Alice", 1), ("Bob", 2), ("Cathy", 3)]
 
columns = ["Name", "ID"]
 
 
 
df = spark.createDataFrame(data, columns)
 
df.show()
 
</source>
 
 
 
If the installation is successful, you will see the DataFrame displayed as output.
 
  
(Optional) Install additional packages:
+
prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv")
You may need additional packages for your PySpark projects, such as pandas, numpy, or matplotlib. Install them using pip:
+
prod.show()
 
 
<source lang=shell>
 
pip install pandas numpy matplotlib
 
 
</source>
 
</source>
With PySpark installed, you can now start working on your data processing and machine learning projects.
 

2023년 3월 23일 (목) 20:11 기준 최신판

thumb_up 추천메뉴 바로가기


1 스파크 (SPARK) 설치[편집]


1.1 설치에 필요한 파일 다운로드[편집]

  1. 스파크_하둡 다운로드 => https://spark.apache.org/downloads.html
  2. JAVA JDK 다운로드 => https://www.oracle.com/index.html
    1. [Product] > [Software] > [Java] 메뉴 선택 후 다운로드
      * 자바 오픈 버전을 설치할경우에는 Open JDK 설치 시 다운로드 링크: https://github.com/ojdkbuild/ojdkbuild
  1. WINUTILS 다운로드 => https://github.com/cdarlint/winutils

1.2 스파크_하둡 파일 압축해제후 환경변수 설정[편집]

  1. 스파크_하둡 다운로드 파일(spark-3.3.2-bin-hadoop3.tgz) 압축 해제
  2. 환경변수 설정 / 추가 (OS별 아래 참조)
  3. WINUTILS 다운로드 파일을 %HADOOP_HOME%\BIN에 복사

1.3 PySpark 설치 (pip 이용)[편집]

pip install pyspark

1.4 Linux or macOS 에서 설치[편집]

  1. 환경변수 설정
export JAVA_HOME=<path_to_java>
export SPARK_HOME=$(python -c "import site; print(site.getsitepackages()[0])")/pyspark
export PYSPARK_PYTHON=python3
export PYSPARK_DRIVER_PYTHON=python3

<path_to_java>를 실제 설치된 java path 로 변경하세요.

/usr/libexec/java_home

1.5 Windows 에서 설치[편집]

  • powershell 인 경우
$env:JAVA_HOME = "<path_to_java>"
$env:SPARK_HOME = (python -c "import site; print(site.getsitepackages()[0])") + "\pyspark"
$env:PYSPARK_PYTHON = "python3"
$env:PYSPARK_DRIVER_PYTHON = "python3"

<path_to_java>를 실제 설치된 java path 로 변경 하세요.

1.6 PySpark 설치 후 테스트[편집]

  • PowerShell 실행 후
PS C:\Users\bassd> pyspark
from pyspark.sql import HiveContext
from pyspark.sql.types import *
from pyspark.sql import Row

prod = spark.read.csv("D:\\dev_spark\\CSMIG2_FUNCTION_DEFINE.csv")
prod.show()