hive19 Pyspark로 Spark on Yarn Code --1(개발환경구성) Spark로 개발하는 방법에는 여러가지가 있지만, 일단은 PySpark를 사용하고 있습니다 다른 이유보다 너무 쉽게 됩니다. 현재 개발환경은, 개발서버에 Pycham 이 Direct로 붙는다는 환경이고 방화벽등의 환경에서는 달라질수 있습니다 먼저 제 환경은 다음과 같습니다 개발툴 : Pycham Professional - 서버의 파이썬 리모트 인터프리터 사용 - 시스템 기본 파이썬 인터프리터 사용 플랫폼 : HDP(Hortonworks Data Platform) 3.0.1 import os import sys os.environ['SPARK_HOME'] = "/usr/hdp/3.0.1.0-187/spark2" os.environ['HIVE_HOME'] = "/usr/hdp/3.0.1.0-187/hive".. 2018. 11. 29. HDP3 에서 Spark 로 Hive Table 를 조회했는데 빈값이 나온경우 일단, 하는중 일부는 Spark 로 처리한 데이터를 Hive에 테이블을 넣는게 있습니다. 사실 이때는 몰랐는데, Spark 로 Hive 테이블을 읽으려는데 빈값이 나오더군요 . 사실 Spark 2.3? 인가 바뀌면서 enableHivesupport 인가 이옵션만 활성화 시키면 되서 , 뭐 다른문제인가 했는데, 사실 약간 조건적 상황인것 같은데, 현재 방법에서는 읽을 방법이 없는것 같습니다 HDP 3가 되면서 Hive에 기본적으로 테이블을 생성하면(Spark 로 생성하는게 아닌 Hive에서 직접) ACID가 적용이 되는데, 현재는 Spark 에서 접근할 방법이 없는것 같습니다. 물론, 강제적으로 alter table 해서 해결하면될것 같은 글들이 보이긴 하는데, https://community.horton.. 2018. 10. 3. HDP3 spark, pyspark, zepplin에서 database가 안보일때, 분명히 HDP3 에서 ranger에 제대로 설정되어 있는데 zepplin 이나 spark 에서 하이브 테이블이 안보입니다. 분명히 2.6때는 보였는데, HDP 3 되면서 정말 불친절해진 모양이네요 cp /etc/hive/conf/hive-site.xml /etc/spark2/conf 답은 매우 간단합니다. 클라이언트 노드에서 spark2 에 hive-site를 옮기시면 됩니다... HDP3 되면서 자동으로 다 설정해주던건데 이제 다 수동으로 바뀐 모양인네요 https://community.hortonworks.com/questions/221974/zeppelin-not-showing-hive-databasetables-in-hdp30.html Zeppelin : Not able to connect Hiv.. 2018. 9. 19. HDP3 제플린(Zepplin) 스케쥴(Cron) 활성화 몇일간 HDP3를 사용하면서 느낀건..꼭 HDP 2.1 때보던것 같은 엉성함이 느껴지네요 첫번째로HIVE LLAP의 경우도 HDP 2.6에서는 바로 활성화 되었는데, HDP3의 경우 엄청 귀찮게 되어있음(기억에 Yarn Queue 도 알아서 만들었던것 같은데) 다른것보다, Tez View도 없어지고 Hive View도 없어지고(호튼웍스 커뮤니티에서는 Superset을 쓰라고 하던ㄷ)Oozzie-View도 이상해지고 default View 말고, HDP에서 예쁘게 보여줬던 어떤게 있었던것 같은데(물론 쓰진 않았지만.) Flume 도 없어지고(물론 nifi가 대치된다고 하지만,,, Folder spooling이 Nifi에 있나..? 아직 익숙치가 않아서)사실, Workflow 엔진을 이미 쓰고 있다면(Azk.. 2018. 9. 4. Hive Metastore not working - Syntax error 'OPTION SQL_SELECT_LIMIT=DEFAULT' at line 1 해당 오류는 Mysql-connector-java 가 5.1.22 버전보다 낮아서 생기는 문제입니다 만약 클러스터에서 해당 오류가 spark,hive등에서 발생하고 있다면, jdbc를 변경해주시면 됩니다 https://community.hortonworks.com/articles/70912/hive-metastore-not-working-syntax-error-option-sql.html 저 같은경우는 1.jdbc를 받은다음 1.ambari-server resources 패치 /var/lib/ambari-server/resource 내의 mysql-connector-java 그리고 각 클라이언트 또는 hive 가 깔린 /usr/hdp/버전/hive/lib 내의 mysql-connetor-java를 해당 .. 2018. 8. 2. saveAsTable is not a member of org.apache.spark.sql.DataFrame 최근 클러스터 환경을 HDP(Hortonworks Data Platform) 2.5.3.0 -> HDP 2.6.1.0으로 올리면서 Spark 환경을 1.6 -> 2.1 로 바꾸었습니다. 사실 스칼라도 해보겠다고 두꺼운 Programming in Scala 3판도 샀지만..... 이미 초심은.. 그러던 도중 ... 분명히 Zepplien 에서 1.6에서 Parquet 파일을 Table로 저장할때, sqlContext.parquetFile("/tmp/extracted").sveAsTable("step01"); 로 했던것 같은데.. Spark를 2버전으로 바꾸니 saveAsTable is not a member of org.apache.spark.sql.DataFrame 다음과 같은 오류가 나네요 .. 아마 .. 2017. 6. 4. 이전 1 2 3 4 다음