본문 바로가기

스파크

(4)
인트라넷(폐쇄망) 환경에서 Ambari, HDP 배포하기 최근, 폐쇄망 환경에서 Ambari,HDP를 배포할 일이 있었습니다. 조만간 또할것 같지만, 사실 예전에 몇번 해보긴 했는데 오랜만에 하느라 기억이 버벅였네요 환경은 다음과 같습니다 centos 7 64bit Server들 기본적으로 인터넷환경에서는 Ambari Server 설치후 Ambari Agent가 설치되면서 외부 HDP 레포에서 YUM으로 다운로드 하기 때문에 인터넷이 필요합니다. 그럼 폐쇄망 환경은 어떻게 하느냐, 아마 당연하겠지만 , 내부 레포를 만드시면 됩니다 필요한 내부레포 1. Centos Base Repo 2. Ambari Repo 3. HDP Repo 예전에는 Base레포 없이 했던것 같긴한데, Base레포가 필요한 이유는 Ambari Backend DB를 postgres나 별도의 ..
Pyspark로 Spark on Yarn Code --1(개발환경구성) Spark로 개발하는 방법에는 여러가지가 있지만, 일단은 PySpark를 사용하고 있습니다 다른 이유보다 너무 쉽게 됩니다. 현재 개발환경은, 개발서버에 Pycham 이 Direct로 붙는다는 환경이고 방화벽등의 환경에서는 달라질수 있습니다 먼저 제 환경은 다음과 같습니다 개발툴 : Pycham Professional - 서버의 파이썬 리모트 인터프리터 사용 - 시스템 기본 파이썬 인터프리터 사용 플랫폼 : HDP(Hortonworks Data Platform) 3.0.1 import os import sys os.environ['SPARK_HOME'] = "/usr/hdp/3.0.1.0-187/spark2" os.environ['HIVE_HOME'] = "/usr/hdp/3.0.1.0-187/hive"..
아파치 재플린 코드 자동완성(apache zeppelin code assistant) 몰랐는데, 재플린에서도 Code Assistant 기능이 있었네요.. 사용법 sc를 치고 CTRL 키를 누른상태에서 . 을 누르면 어시스턴스 기능이 나옵니다. 하 이렇게 좋은걸 모르고 있었다니...
스파크 & 스칼라 Parquet + Spark 조합을 사용하고 있습니다 SparkSQL로 처리하기가 애매한 상황이라. 직접 코딩좀 할일이 있어서 Scala를 만지는데 ... 1. sbt에 잘몰라서 설정하는데 고생2. sbt와 스칼라버전과 build.sbt 의 %,%% 차이를 몰라서 고생3. 책을 보고 있는데, 자바하고 문법이 비슷한것 같은데 이제는 파이썬에 너무 익숙해져서 스칼라가 눈에 잘 안들어오는...