일단, 하는중 일부는 Spark 로 처리한 데이터를 Hive에 테이블을 넣는게 있습니다.
사실 이때는 몰랐는데,
Spark 로 Hive 테이블을 읽으려는데 빈값이 나오더군요 .
사실 Spark 2.3? 인가 바뀌면서 enableHivesupport 인가 이옵션만 활성화 시키면 되서 , 뭐 다른문제인가 했는데,
사실 약간 조건적 상황인것 같은데, 현재 방법에서는 읽을 방법이 없는것 같습니다
HDP 3가 되면서 Hive에 기본적으로 테이블을 생성하면(Spark 로 생성하는게 아닌 Hive에서 직접) ACID가 적용이 되는데, 현재는 Spark 에서 접근할 방법이 없는것 같습니다.
물론, 강제적으로 alter table 해서 해결하면될것 같은 글들이 보이긴 하는데,
https://community.hortonworks.com/questions/170146/spark-not-reading-data-from-a-hive-managed-table-m.html
물론 방법이 없는것은 아닙니다. 아예 하이브를 이용하지 않고, Spark에서 하이브 테이블을 만들어서 사용하면 될것 같긴한데 아직 여러가지 방법은 시도해보지는 않았습니다.(일단 필요한 기능들은 다 되기 때문에)
확실히 HDP3 올라오면서 falcon 같은건 data plan platform 인가로 분리했고, 잘쓰던 Hive View 같은거는 Superset 이나, Tez View 같은경우는 다른 분슨 분석 플랫폼인가 분리한것 같습니다. 뭐 결론은 ambari extension으로 만든것 같은데,
뭐 일단은 쓰는게 HDP 다보니, .. 하 KUDA 하고 Impala가 그렇게 좋다는데 언제 써볼수 있을려나..
'Study > Bigdata' 카테고리의 다른 글
인트라넷(폐쇄망) 환경에서 Ambari, HDP 배포하기 (0) | 2019.05.06 |
---|---|
apache phoenix org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permissions for user jdbc (0) | 2018.12.12 |
Pyspark로 Spark on Yarn Code --1(개발환경구성) (0) | 2018.11.29 |
HDP3 spark, pyspark, zepplin에서 database가 안보일때, (2) | 2018.09.19 |
HDP3 제플린(Zepplin) 스케쥴(Cron) 활성화 (0) | 2018.09.04 |
HDP3 클러스터에 HDF(nifi)설치 (0) | 2018.08.22 |