Sqoop 스쿱
Sqoop 스쿱 개요
- Sqoop은 관계형 데이터베이스와 하둡 HDFS간에 데이터를 전송할 수 있도록 설계된 오픈소스 소프트웨어
- Sqoop 1, Sqoop 2의 두 가지 버전이 존재함
- Sqoop 1은 클라이언트 방식
- Sqoop 2는 클라이언트 방식에 서버사이드 방식이 추가 됨
- Sqoop 서버가 존재하고, 사용자가 서버에 요청하여 작업을 실행하는 방식
- HDFS와 RDB간 데이터 전송
- RDBMS > HDFS or HDFS > RDBMS 이동 가능
- Hive, Pig, Hbase로 이동 가능
Sqoop 설치
Sqoop 동작 방식
- import와 export가 있습니다.
- import는 DB의 데이터를 HDFS로 옮기는 방식
sqoop import \
--connect jdbc:mysql://loclhost:7777/db?zeroDateTimeBehavior=convertToNull \
--username scott \
--password tiger \
--query 'select * from sample_table WHERE $CONDITIONS' \
--target-dir hdfs://localhost/user/hadoop/
- export는 HDFS의 데이터를 DB로 옮기는 방식
sqoop export
--connect jdbc:mysql://loclhost:7777/db?zeroDateTimeBehavior=convertToNull \
--username scott \
--password tiger \
--table sample_table \
--export-dir hdfs://localhost/user/hadoop/ \
--columns column1,column2,column3