Spark에서 paruqet 압축 알고리즘을 찾다가. 

분명히 두가지 방법중 한가지 방법이면 된다고 하는것 같은데


sqlContext.setConf("spark.sql.psqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy")


저는 이것이 동작하네요 
sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy")

사용하는 화경은 HDP 2.5 Spark 1.6 입니다


저작자 표시 비영리 변경 금지
신고



서버에 백업할 데이터가 있는데,, 이게 약 40기가 정도 되네요

tar 로 일반 옵션으로 압축하기에는 느려서...(생각도 안하고 있었지만.)


혹시 윈도우 압축 프로그램들 처럼 멀티코어를 활용할수 있는 방법(반디집 같은 경우는 기본적으로 제공되던것 같더군요..)? 이 있나 찾아보았는데


생각보다 쉽게 해결되었습니다


centos6 기준


yum install pbzip2


압축할때,


tar --use-compress-prog=pbzip2  -cvf data.tar.bz2 data



하면 된다네요.. 

저작자 표시 비영리 변경 금지
신고
1

+ Recent posts