본문 바로가기

hdfs

(6)
apache phoenix org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permissions for user jdbc SpringBoot 로 Phoenix를 이용해서 HBASE로 Query를 날렸는데 다음과 같은 Exception을 발견하였습니다. org.apache.phoenix.exception.PhoenixIOException: org.apache.hadoop.hbase.security.AccessDeniedException: Insufficient permissions for user jdbc 이 문제는 JDBC 연결상의 문제라기 보다는, Spark로 Phoenix 사용하는 코드에도 동일하게 적용될수 있는 사항입니다 만약 HDP 계열을 사용하시다면, CDH, MapR도 비슷할것 같은데, 현재 제 환경은 HDP 이기 떄문에 Ranger에서 HBASE에 테이블 접근권한을 주시면 됩니다.
HDFS 노드 추가 및 삭제 HDP에 익숙해져있다가 self-deployed Hadoop을 사용하다 보면, 답답할때가.... 예를들면, HDFS를 확장하는것조차 마우스 클릭 딸각한번으로 해결될 문제가. 메뉴얼로 정리해보면 1.Hadoop.tar.gz 파일을 확장하려는 노드로 배포 데이터 노드에서 ./hadoop-daemon.sh start datanode 2. 네임 노드(HA했다면 둘다 설정 복사)에서 hdfs-site.xml에서 설정한 파일을 참고해서 dfs.hosts /etc/hadoop/dfs.hosts dfs.hosts.exclude /etchadoop/dfs.exclude dfs.hosts에 호스트 파일에 새로 추가한 데이터 노드 추가 3. Acitve NameNode에서 ./refresh-namenodes.sh 노드 추가..
Spark 에서 Parquet 저장할때 GZ 말고 Snappy 사용법 Spark에서 paruqet 압축 알고리즘을 찾다가. 분명히 두가지 방법중 한가지 방법이면 된다고 하는것 같은데 sqlContext.setConf("spark.sql.psqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 저는 이것이 동작하네요 sqlContext.sql("SET spark.sql.parquet.compression.codec=snappy") 사용하는 화경은 HDP 2.5 Spark 1.6 입니다
파이썬으로 병렬처리 하기 1 (Parallel Python) 몇가지 처리해야할 작업이 있습니다. 몇 가지 케이스에 대해 계속 테스트를 해보고 있지만. 이걸 Hadoop MapReduce로 처리하는것은 정말 성능이 안나오더군요. 흔히 말한는 반복적인 작업... 이걸 Storm, 또는 Spark를 통해 해결해 보고 싶지만. 현재 사정상 신규아키텍처를 도입하는데 문제가 있어서... 물론,,, 현재 환경은 HDP(Hortonworks Data Platform)2.3 이기 때문에, 설치하거나 실행하는데, 문제는 아닙니다. Storm 같은경우 Topology를 만들면 되겠지만.. 약간 제가 생각하는 작업에는 불리할것 같고.. Spark쪽은 아직 제가 지식이 부족해서 시간대비 성과가 부족할것 같은 생각 때문입니다. 물론, 전 아직까지는 언어중에 Java가 좋지만, 요즘 왠만한..
하둡 HDFS 폴더의 파일 갯수 확인 방법 FileSystem fs = FileSystem.get(conf); Path pt = new Path("/path"); ContentSummary cs = fs.getContentSummary(pt); long fileCount = cs.getFileCount();https://stackoverflow.com/questions/20381422/file-count-in-an-hdfs-directory MapReduce 프로그래밍 중간에, 생성되는 파일의 갯수를 알아야 했는데, 생각보다 쉬운방법이 있네요.
org.apache.hadoop.security.AccessControlException: Permission denied: in hdfs-site.xml dfs.permissions false