본문 바로가기

Cloudera

(6)
NIFI could not load known_hosts 해결방법 NIFI에서 ListSFTP 또는 getSFTP를 사용할때 분명히 계정 주소, 포트 까지 잘썻는데 could not load known_hosts 다음과 같은 오류를 내뿜을수 있습니다 저는 제가 잘못쓴건줄 알았는데-, 결론은 리눅스에서 nifi가 동작하는 계정으로 ssh로 한번 접속해주신다음 해주시면 되십니다 다음내용은 관련 포럼에 있는 내용입니다 https://community.cloudera.com/t5/Support-Questions/Using-ListSFTP-results-in-an-exception-Failed-to-obtain/td-p/219081 Re: Using ListSFTP results in an exception: Failed to obtain connection to remote ..
Spark(Yarn) + Intellj 원격 디버깅 하기 Zepplin 만 쓰다가, Intellj + SBT + Scala 조합으로 Spark 프로그램을 만들다 보니, 열받는게, Zepplin 의 경우 중간중간 쉽게 중간 값을 볼수 있었는데, 일반적인 개발방법은 엄청 불편하다고 생각했는데, 아니나 다를까, Spark 원격 디버깅 하는 방법이 존재 1. sbt assembly 해서 Spark 패키지 만들고2. 파일을 서버에 업로드(Sbt에 Deploy 플러그인 있는데, 이런걸 이용하면 편할듯) -- 이런것이 없으면 디버깅 할때마다 이짓을 해야됨 3. Spark Client (실행노드)에서 다음을 입력 - 물론, 생각에 따라서는 Bashrc에 넣어도 상관없을듯 export SPARK_SUBMIT_OPTS= agentlib:jdwp=transport=dt_socke..
아파치 암바리(Apache Ambari) 설치 / 주소 Ambari는 Hortonworks에서 개발한 하둡 클러스터를 프로비저닝(노드 / 하둡 컴포넌트 자동 설치), 매니지먼트(HDFS, HIVE 등등을 껏다 켯다, HA 등), 모니터링(HDFS , Hive 등등등)을 위한 아파치에 공개한 오픈소스 관리 도구입니다. 최근, 암파리 아파치 커뮤니티에서 약간의 변경이 생겨서인재 Ambari 2.2일때는 RPM, apt-get등으로 바로 받을수 있는 주소를 공개 했었는데, 지금은 Ambari를 직접 컴파일하는 방법으로 설치 방법을 공개했습니다 그렇다고, RPM, Apt-get으로 설치를 못하는것은 아닙니다. Hortonworks 공식 홈페이지 다큐멘트를 찾아보면, 바로 패키지 형태로 제공할수 잇는 링크를 제공합니다 \2016년 10월 19일 기준 암바리 2.4.1..
아파치(Apache) 암바리(Ambari)2.2.1 Rest API(Service Stop and Start) Apache Ambari를 사용하다보면, 암바리 자체를 이용해서 하둡 클러스터를 관리할수도 있지만. 떄로는 필요한 부분에 대하여 커스터마이징하거나, 또는 관리의 편의성을 위해 별도의 앱을 만들어 쓸 수도 있습니다. 다음은 암바리의 컴포넌트를 API를 이용해서 시작 및 중지하는 방법입니다. curl -u USER:PASS -i -H 'X-Requested-By: ambari' -X PUT -d '{"RequestInfo": {"context" :"Stop '"$1"' via REST"}, "Body": {"ServiceInfo": {"state": "INSTALLED"}}}' http://HOST/api/v1/clusters/CLUSTER/services/COMPONENT curl -u USER:PASS ..
HDFS NFS gateway 사용법 하둡 2버전은 잘모르겠지만. 1버전을 이용할때는 리눅스에서 HDFS에 직접 마운트를 해서 사용하고 싶을때가 있었습니다. 그떄 fuse-dfs를 이용해서 마운트 했는데, 2버전때 없어졌나 했는데.. 제가 HDP(Hortonworks Data Platform)을 이용해서 그런지 잘 안보였던것 같더군요.. cloudera에는 fuse-dfs가 그대로 있던것 같았습니다. 홈페이지에서 보기에는 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.4/bk_hdfs_nfs_gateway/content/hdfs-nfs-gateway-user-guide.html 다른 배포판은 모르겠지만.. 아파치 하둡1을 이용할때는,, fuse-dfs를 사용하기 위해 관련 라이브러리 설치하고..
맵리듀스 프로그래밍을 할때 log4j로 로그 찍어보기 http://www.jaso.co.kr/265 일딴 김형준님의 블로그 요걸 보시면 편하게 이해하실수 있습니다. 일종의 사전지식이랄까. 일단 이글을 보시는 분들은 아마 저보다는 잘하시는 분들이실겁니다. 전 요즘 이것때문에 죽겠거든요전,, 도저히 저걸 봐도, 하둡 돌아가는게 안보인느것입니다. 일단 제가 필요한 로그은 getsplit 하고 recodereader 이거 맞나요 직접 구현하는 부분이.일단 메인클레스 내부에서는 sysout 찍어버리면 보이는데, 재내들은 그 안에 있으니 보이지도 않고그래서 제가 선택한 방법은 log4j 입니다. http://blog.naver.com/PostView.nhn?blogId=airguy76&logNo=150087115029&categoryNo=3&viewDate=&curr..