본문 바로가기

hadoop

(41)
아파치(Apache) 암바리(Ambari)2.2.1 Rest API(Service Stop and Start) Apache Ambari를 사용하다보면, 암바리 자체를 이용해서 하둡 클러스터를 관리할수도 있지만. 떄로는 필요한 부분에 대하여 커스터마이징하거나, 또는 관리의 편의성을 위해 별도의 앱을 만들어 쓸 수도 있습니다. 다음은 암바리의 컴포넌트를 API를 이용해서 시작 및 중지하는 방법입니다. curl -u USER:PASS -i -H 'X-Requested-By: ambari' -X PUT -d '{"RequestInfo": {"context" :"Stop '"$1"' via REST"}, "Body": {"ServiceInfo": {"state": "INSTALLED"}}}' http://HOST/api/v1/clusters/CLUSTER/services/COMPONENT curl -u USER:PASS ..
HUE make install ERROR [FFI_DEFAULT_ABI] In file included from c/cffi1_module.c:3, from c/_cffi_backend.c:6366:c/realize_c_type.c: In function ‘realize_c_type_or_func’:c/realize_c_type.c:577: error: ‘FFI_DEFAULT_ABI’ undeclared (first use in this function)c/_cffi_backend.c: In function ‘init_cffi_backend’:c/_cffi_backend.c:6458: error: ‘FFI_DEFAULT_ABI’ undeclared (first use in this function)error: command 'gcc' failed with exit status..
Ambari를 이용한 HDP(Hortonworks Data Platform ) 설치 사용하는 입장에 따라 다르지만, 직접 Hadoop을 받아서 설정하는 방법도 있지만, HDP(물론 무료!)를 이용해서 필요한 환경을 구축하는 방법도 있습니다. 제 사례를 들어보면 HDFS 부터 YARN,HBase, zookeeper,Hive까지 설치하는데 몇시간이 걸린다면,(물론 스크립트로 만들수도 있찌만) Ambari를 이용해서 HDP를 이용하면 원하는 환경은 바로 구성이 됩니다. 좀더 자세한 설명은 hortonworks.com/hdp/ 와 호튼웍스 공식 문서를 통해서 확인하실수 있습니다. http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.0.6.0-Win/bk_installing_hdp_for_windows/bk_installing_hdp_for_windows..
hbase cannot find an existing table / hbase table already exists (zookeeper) 2016/03/08 - [Study/--Hadoop Eco(Apache/HDP)] - hbase table already exists 어제 관련된 몇가지 조치를 하다가 HDFS 내의 HBASE를 날렸는데오 존재하는 테이블이라 나와서 여러가지를 해보았는데, 결론은 Zookeeper에 Table남아있어서 생긴 결과였습니다. 외국 해외포럼에서 찾아보니 좀비 테이블이라고 지칭하는데, 이걸 제거하는 방법은 Zookeeper Server 접속하며서 Hbase 노드에 있는 Table a목록중에 해당 테이블을 제거 하면 됩니다. 이번에 HBASE 쓰면서 느낀건.. 엄청 잘깨진다..
JAVA 또는 Srping으로 Hbase를 사용할때 팁 HBase 데이터를 만지다가, 생각지도 못한것으로 고생을 해서 리마인드 차원에서 포스팅 합니다. Java또는 Spring 에서 Hbase를 사용하는 방법은1. Native Library 2. Trift3. Rest API 이때 속도는 1 > 2,3 정도 Native 방식이 빠름,만약에 Native 방식을 할때는,Hbase와 같은 네트워크 망을 사용해야하고 Client에서 반드시 hosts를 지정해서 사용해야됨(만약 다른 네트워크라면 Trift와 Rest로 사용가능) ..(관련해서 스택오버플로우에도 물어보긴 했지만.. 재미는 못봤음) Hbase같은경우 , 일반적인 RDBMS 처럼 select의 개념으로 생각면 피곤. HBASE의 경우 Select에 해당하는것이 scan인데 이때 전체를 fullScan 해서..
HDFS NFS gateway 사용법 하둡 2버전은 잘모르겠지만. 1버전을 이용할때는 리눅스에서 HDFS에 직접 마운트를 해서 사용하고 싶을때가 있었습니다. 그떄 fuse-dfs를 이용해서 마운트 했는데, 2버전때 없어졌나 했는데.. 제가 HDP(Hortonworks Data Platform)을 이용해서 그런지 잘 안보였던것 같더군요.. cloudera에는 fuse-dfs가 그대로 있던것 같았습니다. 홈페이지에서 보기에는 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.4/bk_hdfs_nfs_gateway/content/hdfs-nfs-gateway-user-guide.html 다른 배포판은 모르겠지만.. 아파치 하둡1을 이용할때는,, fuse-dfs를 사용하기 위해 관련 라이브러리 설치하고..
sqoop export : For input string: "\N" (From Hive to MySQL) sqoop export 를 할때 For input string: "\N" 해결 할수 있는 방법Sqoop export 옵션에 --input-null-string '\\N' --input-null-non-string '\\N' 추가 2015/10/29 - [Study/--Hadoop Eco(Apache/HDP)] - Sqoop 1.4.6 설치, 사용 예제(Migrating data using sqoop from Mysql to HBase)2015/11/16 - [Study/--Hadoop Eco(Apache/HDP)] - Hive를 이용해서 Rank 구하기2015/12/23 - [Study/--Hadoop Eco(Apache/HDP)] - Sqoop-export : from hive to mysql
파이썬으로 병렬처리 하기 3 마지막장 (Parallel Python) 오늘 심각한 고민을 했습니다 ... 자바는 그냥 갔다 버려야되나.. Parallel Python 이거 써보고 할말을 잃었습니다. 생각보다 너무 쉽고. Parallel Python을 사용하기 위해서는 대략 다음 절차를 수행하시면 됩니다. 연산을 하려는 노드, Master노드에 Parallel Python 설치(http://www.parallelpython.com/) [현재 저같은경우 Python 2.7을 사용하고 있습니다.] 그다음 연산하려는 모든 노드에서 네트웍 대역이 같다면, ppserver.py -a (이 의미는 실제 코드 설명할때 설명0 그리고 마스터 노드에서 병렬처리할 코드를 작업하시면 됩니다. 큰틀은 다음과 같습니다. 가장 중요한 부분은 ppserver= ppservers=("*",) 입니다. ..