행위

SQOOP 스쿱

DB CAFE

thumb_up 추천메뉴 바로가기


1 Sqoop 스쿱[편집]

1.1 Sqoop 스쿱 개요[편집]

  1. Sqoop은 관계형 데이터베이스와 하둡 HDFS간에 데이터를 전송할 수 있도록 설계된 오픈소스 소프트웨어
  2. Sqoop 1, Sqoop 2의 두 가지 버전이 존재함
  • Sqoop 1은 클라이언트 방식
    • CLI 명령어로 작업을 실행
  • Sqoop 2는 클라이언트 방식에 서버사이드 방식이 추가 됨
    • Sqoop 서버가 존재하고, 사용자가 서버에 요청하여 작업을 실행하는 방식
  • HDFS와 RDB간 데이터 전송
  • RDBMS > HDFS or HDFS > RDBMS 이동 가능
  • Hive, Pig, Hbase로 이동 가능

1.2 Sqoop 설치[편집]


1.3 Sqoop 동작 방식[편집]

import와 export가 있습니다.
  • import는 DB의 데이터를 HDFS로 옮기는 방식
    • import: DB to HDFS
sqoop import \
  --connect jdbc:mysql://loclhost:7777/db?zeroDateTimeBehavior=convertToNull \
  --username scott \
  --password tiger \
  --query 'select * from sample_table WHERE $CONDITIONS' \
  --target-dir hdfs://localhost/user/hadoop/
  • export는 HDFS의 데이터를 DB로 옮기는 방식
    • export: HDFS to DB
sqoop export 
  --connect jdbc:mysql://loclhost:7777/db?zeroDateTimeBehavior=convertToNull \
  --username scott \
  --password tiger \
  --table sample_table \
  --export-dir hdfs://localhost/user/hadoop/ \
  --columns column1,column2,column3