본문 바로가기

parquet

(4)
NBP Ncloud Cloud Hadoop에서 pySpark로 Object Storage 읽오는 방법 맨날 문서만 만지다가 오랜만에 코드 만지니 재밌네요. 문서질 하면 벌써 뻗었겠지만 코드질 하니 잠이 안오네요. 이번에 프로젝트를 하면서 네이버 클라우드를 처음 사용하는데 생각보다 재미있게 만들었네요 일단 클라우드 하둡을 세팅을 하면 HDP를 포팅해논것 같은데, 일단 Ambari가서 안쓸것 같은 Zepplin, Ozzie 는 다 꺼버리고 일단 NBP가 아쉬운건, 정말 잘만들어놨는데, 설명서가 부족하네요 ..;;(네이버에서 예제코드를 AWS S3 기준으로 설명해놨네여) 다음의 예제는 Pyspark로 Object Storage의 Parquet를 가져오는 예제입니다 2018/11/29 - [Study/Bigdata] - Pyspark로 Spark on Yarn Code --1(개발환경구성) 일단 기본코드는 다움..
Spark 에서 Parquet 저장할때 GZ 말고 Snappy 사용법 Spark에서 paruqet 압축 알고리즘을 찾다가. 분명히 두가지 방법중 한가지 방법이면 된다고 하는것 같은데 sqlContext.setConf("spark.sql.psqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 저는 이것이 동작하네요 sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 사용하는 화경은 HDP 2.5 Spark 1.6 입니다
스파크 & 스칼라 Parquet + Spark 조합을 사용하고 있습니다 SparkSQL로 처리하기가 애매한 상황이라. 직접 코딩좀 할일이 있어서 Scala를 만지는데 ... 1. sbt에 잘몰라서 설정하는데 고생2. sbt와 스칼라버전과 build.sbt 의 %,%% 차이를 몰라서 고생3. 책을 보고 있는데, 자바하고 문법이 비슷한것 같은데 이제는 파이썬에 너무 익숙해져서 스칼라가 눈에 잘 안들어오는...
Spark, SBT, libthrift 0.5.0-1 not found twitter scrooge 를 spark scala 코드를 만지고 있는데, 다음과 같은 오류가 발생한다면 build.sbt에 아래를 추가하시면 될것 같습니다. resolvers ++= Seq( "Twitter Maven Repo" at "http://maven.twttr.com" ) 잘은 모르겟지만 libthrift 저게 maven centeral repo에는 업다고 하네요