본문 바로가기

Spark

(18)
Hive Metastore not working - Syntax error 'OPTION SQL_SELECT_LIMIT=DEFAULT' at line 1 해당 오류는 Mysql-connector-java 가 5.1.22 버전보다 낮아서 생기는 문제입니다 만약 클러스터에서 해당 오류가 spark,hive등에서 발생하고 있다면, jdbc를 변경해주시면 됩니다 https://community.hortonworks.com/articles/70912/hive-metastore-not-working-syntax-error-option-sql.html 저 같은경우는 1.jdbc를 받은다음 1.ambari-server resources 패치 /var/lib/ambari-server/resource 내의 mysql-connector-java 그리고 각 클라이언트 또는 hive 가 깔린 /usr/hdp/버전/hive/lib 내의 mysql-connetor-java를 해당 ..
Cassandra 와 Spark Cassandra 테이블을 스파크 데이터와 join 하고 싶을때 https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md datastax , 쉽게 생각하면 카산드라 벤더에서 만든 스파크 드라이버를 이용 val createDDL = """CREATE TEMPORARY VIEW/TABLE words USING org.apache.spark.sql.cassandra OPTIONS ( table "words", keyspace "test", cluster "Test Cluster", pushdown "true")""" spark.sql(createDDL) // Creates Catalog Entry registe..
아파치 재플린 코드 자동완성(apache zeppelin code assistant) 몰랐는데, 재플린에서도 Code Assistant 기능이 있었네요.. 사용법 sc를 치고 CTRL 키를 누른상태에서 . 을 누르면 어시스턴스 기능이 나옵니다. 하 이렇게 좋은걸 모르고 있었다니...
saveAsTable is not a member of org.apache.spark.sql.DataFrame 최근 클러스터 환경을 HDP(Hortonworks Data Platform) 2.5.3.0 -> HDP 2.6.1.0으로 올리면서 Spark 환경을 1.6 -> 2.1 로 바꾸었습니다. 사실 스칼라도 해보겠다고 두꺼운 Programming in Scala 3판도 샀지만..... 이미 초심은.. 그러던 도중 ... 분명히 Zepplien 에서 1.6에서 Parquet 파일을 Table로 저장할때, sqlContext.parquetFile("/tmp/extracted").sveAsTable("step01"); 로 했던것 같은데.. Spark를 2버전으로 바꾸니 saveAsTable is not a member of org.apache.spark.sql.DataFrame 다음과 같은 오류가 나네요 .. 아마 ..
Spark 에서 Parquet 저장할때 GZ 말고 Snappy 사용법 Spark에서 paruqet 압축 알고리즘을 찾다가. 분명히 두가지 방법중 한가지 방법이면 된다고 하는것 같은데 sqlContext.setConf("spark.sql.psqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 저는 이것이 동작하네요 sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 사용하는 화경은 HDP 2.5 Spark 1.6 입니다
스파크 & 스칼라 Parquet + Spark 조합을 사용하고 있습니다 SparkSQL로 처리하기가 애매한 상황이라. 직접 코딩좀 할일이 있어서 Scala를 만지는데 ... 1. sbt에 잘몰라서 설정하는데 고생2. sbt와 스칼라버전과 build.sbt 의 %,%% 차이를 몰라서 고생3. 책을 보고 있는데, 자바하고 문법이 비슷한것 같은데 이제는 파이썬에 너무 익숙해져서 스칼라가 눈에 잘 안들어오는...
zeppelin 1.7.1 with hive interpreter 맨날 HDP 에 설치가 잘된 제플린을 사용하다보니,, 수동으로 제플린을 사용하려고 하니 HIVE를 사용하려고 하니 다음과 같은 오류가 발생합니다. Prefix not found. paragraph_1493986135331_752263516's Interpreter hive not foundorg.apache.zeppelin.interpreter.InterpreterException: paragraph_1493986135331_752263516's Interpreter hive not found at org.apache.zeppelin.notebook.Note.run(Note.java:605) at org.apache.zeppelin.socket.NotebookServer.persistAndExecuteS..
Spark, SBT, libthrift 0.5.0-1 not found twitter scrooge 를 spark scala 코드를 만지고 있는데, 다음과 같은 오류가 발생한다면 build.sbt에 아래를 추가하시면 될것 같습니다. resolvers ++= Seq( "Twitter Maven Repo" at "http://maven.twttr.com" ) 잘은 모르겟지만 libthrift 저게 maven centeral repo에는 업다고 하네요