반응형 GZ2 Spark 에서 Parquet 저장할때 GZ 말고 Snappy 사용법 Spark에서 paruqet 압축 알고리즘을 찾다가. 분명히 두가지 방법중 한가지 방법이면 된다고 하는것 같은데 sqlContext.setConf("spark.sql.psqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 저는 이것이 동작하네요 sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 사용하는 화경은 HDP 2.5 Spark 1.6 입니다 2017. 5. 21. tar 명령어로 멀티코어를 활용한 압축 서버에 백업할 데이터가 있는데,, 이게 약 40기가 정도 되네요tar 로 일반 옵션으로 압축하기에는 느려서...(생각도 안하고 있었지만.) 혹시 윈도우 압축 프로그램들 처럼 멀티코어를 활용할수 있는 방법(반디집 같은 경우는 기본적으로 제공되던것 같더군요..)? 이 있나 찾아보았는데 생각보다 쉽게 해결되었습니다 centos6 기준 yum install pbzip2 압축할때, tar --use-compress-prog=pbzip2 -cvf data.tar.bz2 data 하면 된다네요.. 2016. 6. 3. 이전 1 다음 반응형