본문 바로가기

hdp

(15)
NIFI could not load known_hosts 해결방법 NIFI에서 ListSFTP 또는 getSFTP를 사용할때 분명히 계정 주소, 포트 까지 잘썻는데 could not load known_hosts 다음과 같은 오류를 내뿜을수 있습니다 저는 제가 잘못쓴건줄 알았는데-, 결론은 리눅스에서 nifi가 동작하는 계정으로 ssh로 한번 접속해주신다음 해주시면 되십니다 다음내용은 관련 포럼에 있는 내용입니다 https://community.cloudera.com/t5/Support-Questions/Using-ListSFTP-results-in-an-exception-Failed-to-obtain/td-p/219081 Re: Using ListSFTP results in an exception: Failed to obtain connection to remote ..
인트라넷(폐쇄망) 환경에서 Ambari, HDP 배포하기 최근, 폐쇄망 환경에서 Ambari,HDP를 배포할 일이 있었습니다. 조만간 또할것 같지만, 사실 예전에 몇번 해보긴 했는데 오랜만에 하느라 기억이 버벅였네요 환경은 다음과 같습니다 centos 7 64bit Server들 기본적으로 인터넷환경에서는 Ambari Server 설치후 Ambari Agent가 설치되면서 외부 HDP 레포에서 YUM으로 다운로드 하기 때문에 인터넷이 필요합니다. 그럼 폐쇄망 환경은 어떻게 하느냐, 아마 당연하겠지만 , 내부 레포를 만드시면 됩니다 필요한 내부레포 1. Centos Base Repo 2. Ambari Repo 3. HDP Repo 예전에는 Base레포 없이 했던것 같긴한데, Base레포가 필요한 이유는 Ambari Backend DB를 postgres나 별도의 ..
HDP3 에서 Spark 로 Hive Table 를 조회했는데 빈값이 나온경우 일단, 하는중 일부는 Spark 로 처리한 데이터를 Hive에 테이블을 넣는게 있습니다. 사실 이때는 몰랐는데, Spark 로 Hive 테이블을 읽으려는데 빈값이 나오더군요 . 사실 Spark 2.3? 인가 바뀌면서 enableHivesupport 인가 이옵션만 활성화 시키면 되서 , 뭐 다른문제인가 했는데, 사실 약간 조건적 상황인것 같은데, 현재 방법에서는 읽을 방법이 없는것 같습니다 HDP 3가 되면서 Hive에 기본적으로 테이블을 생성하면(Spark 로 생성하는게 아닌 Hive에서 직접) ACID가 적용이 되는데, 현재는 Spark 에서 접근할 방법이 없는것 같습니다. 물론, 강제적으로 alter table 해서 해결하면될것 같은 글들이 보이긴 하는데, https://community.horton..
HDP3 제플린(Zepplin) 스케쥴(Cron) 활성화 몇일간 HDP3를 사용하면서 느낀건..꼭 HDP 2.1 때보던것 같은 엉성함이 느껴지네요 첫번째로HIVE LLAP의 경우도 HDP 2.6에서는 바로 활성화 되었는데, HDP3의 경우 엄청 귀찮게 되어있음(기억에 Yarn Queue 도 알아서 만들었던것 같은데) 다른것보다, Tez View도 없어지고 Hive View도 없어지고(호튼웍스 커뮤니티에서는 Superset을 쓰라고 하던ㄷ)Oozzie-View도 이상해지고 default View 말고, HDP에서 예쁘게 보여줬던 어떤게 있었던것 같은데(물론 쓰진 않았지만.) Flume 도 없어지고(물론 nifi가 대치된다고 하지만,,, Folder spooling이 Nifi에 있나..? 아직 익숙치가 않아서)사실, Workflow 엔진을 이미 쓰고 있다면(Azk..
HDP3 클러스터에 HDF(nifi)설치 HDP3 되면서, 많은것이 바뀌었습니다 일단 눈에 띄는 변화는 Hadoop3 이 들어갔다는것과 제눈에 볼때 딱 달라진건 Falcon 이 없어진것 그리고 Flume 이 없어졌다는 https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.6.3/bk_release-notes/content/deprecated_items.htmlDeprecated Components and Product CapabilitiesThe following components are marked deprecated from HDP and will be removed in a future HDP release:Component or CapabilityStatusMarked Deprecated as ..
Spark(Yarn) + Intellj 원격 디버깅 하기 Zepplin 만 쓰다가, Intellj + SBT + Scala 조합으로 Spark 프로그램을 만들다 보니, 열받는게, Zepplin 의 경우 중간중간 쉽게 중간 값을 볼수 있었는데, 일반적인 개발방법은 엄청 불편하다고 생각했는데, 아니나 다를까, Spark 원격 디버깅 하는 방법이 존재 1. sbt assembly 해서 Spark 패키지 만들고2. 파일을 서버에 업로드(Sbt에 Deploy 플러그인 있는데, 이런걸 이용하면 편할듯) -- 이런것이 없으면 디버깅 할때마다 이짓을 해야됨 3. Spark Client (실행노드)에서 다음을 입력 - 물론, 생각에 따라서는 Bashrc에 넣어도 상관없을듯 export SPARK_SUBMIT_OPTS= agentlib:jdwp=transport=dt_socke..
아파치 재플린 코드 자동완성(apache zeppelin code assistant) 몰랐는데, 재플린에서도 Code Assistant 기능이 있었네요.. 사용법 sc를 치고 CTRL 키를 누른상태에서 . 을 누르면 어시스턴스 기능이 나옵니다. 하 이렇게 좋은걸 모르고 있었다니...
saveAsTable is not a member of org.apache.spark.sql.DataFrame 최근 클러스터 환경을 HDP(Hortonworks Data Platform) 2.5.3.0 -> HDP 2.6.1.0으로 올리면서 Spark 환경을 1.6 -> 2.1 로 바꾸었습니다. 사실 스칼라도 해보겠다고 두꺼운 Programming in Scala 3판도 샀지만..... 이미 초심은.. 그러던 도중 ... 분명히 Zepplien 에서 1.6에서 Parquet 파일을 Table로 저장할때, sqlContext.parquetFile("/tmp/extracted").sveAsTable("step01"); 로 했던것 같은데.. Spark를 2버전으로 바꾸니 saveAsTable is not a member of org.apache.spark.sql.DataFrame 다음과 같은 오류가 나네요 .. 아마 ..