본문 바로가기

hdp

(15)
Python FLASK 로 HTTPS 기반 API 만들기 사실, 언제부터인가 Python을 쓰다보니,,그래도 가장 편했던 언어는 JAVA 언어였는데, 요즘 너무 어렵네요 여러여러 관점에서 다른 원격지에서 생성되는(로그든 어떤거든) 데이터를 수집하기 위해서 API를 서버가 필요한 상황이였습니다(저 같은경우는 사용자 브라우저에서 생성된 로그 데이터의 경우 입니다.) 일단 제가 사용하는 조합은 Python 2.7에서(Pyenv 로 3으로 올려서 사용했는데, 중간에 소스가 꼬여버리는 바람에) + Flask + Guicorn + Supervisor.d를 이렇게 사용하고 있습니다. 주변 케이스를 찾아보면 현 해당 케이스에서는 Node.js 를 기반으로 긍정적으로 평가하는것 같지만, 굳이 이걸 사용하는건 Python 이 편하기 때문에 먼저 SSL 키를 확보합니다.(확보되어..
MongoDB Hive 연동[FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/bson/conversions/Bson 해결법] 혹시나 저 같은 이슈를 겪고 있는 분들을 Hbase와 Hive를 연동할수 있는것처럼 MongoDB 를 Hive에 연동하여 사용할수 있습니다 https://github.com/mongodb/mongo-hadoop/wiki/Hive-Usage 이곳에서 라이브러리를 받아서 사용하시면, 되십니다. mongo-hadoop-core.2.0.1.jar mongo-hadoop-hive-2.0.1.jar mongo-java-driver-3.2.1.jar FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org/bson/conversions/Bson 추가적으로 다음 에러는 mongo-java-driver-3.2.1.jar ..
HDPCA(HDP Certification Administrator) Practive Exam : 호튼웍스 자격증 미리 보기 (1/2) 자격증 미리보기라는 말이.. 좀 애매하긴 한데..예전부터 느끼는건 공부하는것과, 시험보는것은 많이 다른것 같습니다. 공부는 말그대로 공부고 시험은, 시험준비를 위해 기출을 풀거나 해서 유형을 파악하는건데, HDPCA라는 녀석은 전혀 파악이 안되더군요. 사실 HDP를 쓰면 쓰겠지만 그런데 호튼웍스(Hortonworks) 쪽에서 AWS에서 미리 테스팅 해볼수 있는 환경을 제공합니다 PRACTICE EXAMHortonworks University recommends that candidates attempt the practice exam to familiarize themselves with the exam environment and also with the types of tasks that appear..
ambari password reset 1.ambari-server 에 SSH 로 접속2. ambari-admin-password-reset ambari 암호 변경 https://community.hortonworks.com/questions/15063/default-usernamepassword-for-ambari.html
Ambari를 이용한 HDP(Hortonworks Data Platform ) 설치 사용하는 입장에 따라 다르지만, 직접 Hadoop을 받아서 설정하는 방법도 있지만, HDP(물론 무료!)를 이용해서 필요한 환경을 구축하는 방법도 있습니다. 제 사례를 들어보면 HDFS 부터 YARN,HBase, zookeeper,Hive까지 설치하는데 몇시간이 걸린다면,(물론 스크립트로 만들수도 있찌만) Ambari를 이용해서 HDP를 이용하면 원하는 환경은 바로 구성이 됩니다. 좀더 자세한 설명은 hortonworks.com/hdp/ 와 호튼웍스 공식 문서를 통해서 확인하실수 있습니다. http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0-Win/bk_installing_hdp_for_windows/bk_installing_hdp_for_windows..
HDFS NFS gateway 사용법 하둡 2버전은 잘모르겠지만. 1버전을 이용할때는 리눅스에서 HDFS에 직접 마운트를 해서 사용하고 싶을때가 있었습니다. 그떄 fuse-dfs를 이용해서 마운트 했는데, 2버전때 없어졌나 했는데.. 제가 HDP(Hortonworks Data Platform)을 이용해서 그런지 잘 안보였던것 같더군요.. cloudera에는 fuse-dfs가 그대로 있던것 같았습니다. 홈페이지에서 보기에는 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.4/bk_hdfs_nfs_gateway/content/hdfs-nfs-gateway-user-guide.html 다른 배포판은 모르겠지만.. 아파치 하둡1을 이용할때는,, fuse-dfs를 사용하기 위해 관련 라이브러리 설치하고..
Hive를 이용해서 Rank 구하기 일단 현재 상황은 MySQL 안에 366996 로우가 들어있는 상황이고, 여기안에 데이터가 있는 상황입니다여기에 데이터가 있는데, 랭킹을 매겨야 하는 상황입니다. select B,T,(select count(*)+1 from 9_Spending_blk where T>t.T) as rank from a_blk as t order by rank asc; SELECT a.B, a.T, count(b.T)+1 as rankFROM 9 a left join 9 b on a.T>b.T and a.B=b.Bgroup by a.B, a.T 통해서 RANK를 구하려고 했는데, 생각보다 느리게 되더군요.... MySQL로 구하는거 포기하고HIVE로 옮긴다음 해봤더니 금방 구할수 있었습니다. 절차는 다음과 같습니다. sqo..