본문 바로가기

hadoop

(41)
파이썬으로 병렬처리 하기 2 (Parallel Python) 잠깐동안 예제를 따라해보면서 해본 느낌은.. 잘 모르겠지만 엄청 간단합니다. 먼저 Parallel Python에서 http://www.parallelpython.com/content/view/18/32/ 에서 다운 받아서, pp를 다운받아서, 돌아갈 머신과 마스터 노드에 python setup.py install 하면 끝.. 그리고 사용방법은 계산노드(slave)에서 ppserver.py -a(auto discovery) 하면 끝.. 물론 포트를 지정해 준다면 -p 옵션을 사용하면됩니다. 그런다음 마스터 노드에서 다음과 같은 방법으로 하면됩니다. (지금 같은경우는 1master node, 1slave node로 구성된 케이스) import sys,thread import pp class myTest: d..
파이썬으로 병렬처리 하기 1 (Parallel Python) 몇가지 처리해야할 작업이 있습니다. 몇 가지 케이스에 대해 계속 테스트를 해보고 있지만. 이걸 Hadoop MapReduce로 처리하는것은 정말 성능이 안나오더군요. 흔히 말한는 반복적인 작업... 이걸 Storm, 또는 Spark를 통해 해결해 보고 싶지만. 현재 사정상 신규아키텍처를 도입하는데 문제가 있어서... 물론,,, 현재 환경은 HDP(Hortonworks Data Platform)2.3 이기 때문에, 설치하거나 실행하는데, 문제는 아닙니다. Storm 같은경우 Topology를 만들면 되겠지만.. 약간 제가 생각하는 작업에는 불리할것 같고.. Spark쪽은 아직 제가 지식이 부족해서 시간대비 성과가 부족할것 같은 생각 때문입니다. 물론, 전 아직까지는 언어중에 Java가 좋지만, 요즘 왠만한..
Centos6에서 MySQL 5.1 to 5.7 업그레이드 현재 사용중인 리눅스는 Centos6 64bit 이고 MySQL 버전은 기본 5.1 버전입니다. 5.7로 업그레이드 하기 위해서는 다음과 같은 절차로 진행하시면 되십니다. 먼저 MySQL 사이트에 들어가서 RPM 을 바운받아 YUM repo를 추가합니다. http://dev.mysql.com/downloads/repo/yum/ wget http://dev.mysql.com/get/mysql57-community-release-el6-7.noarch.rpm :: 설치 /etc/init.d/mysqld stop :: mysql 정지 yum remove mysql mysql-server* 기존 mysql 삭제yum install mysql-server :: 5.7 설치 /etc/init.d/mysqld sta..
Hive를 이용해서 Rank 구하기 일단 현재 상황은 MySQL 안에 366996 로우가 들어있는 상황이고, 여기안에 데이터가 있는 상황입니다여기에 데이터가 있는데, 랭킹을 매겨야 하는 상황입니다. select B,T,(select count(*)+1 from 9_Spending_blk where T>t.T) as rank from a_blk as t order by rank asc; SELECT a.B, a.T, count(b.T)+1 as rankFROM 9 a left join 9 b on a.T>b.T and a.B=b.Bgroup by a.B, a.T 통해서 RANK를 구하려고 했는데, 생각보다 느리게 되더군요.... MySQL로 구하는거 포기하고HIVE로 옮긴다음 해봤더니 금방 구할수 있었습니다. 절차는 다음과 같습니다. sqo..
Sqoop 1.4.6 설치, 사용 예제(Migrating data using sqoop from Mysql to HBase) Sqoop2 가 있지만, 1이 익숙한 관계로 다음은 MySQL 에서 Hbase로 Migration 하는 예제 입니다. wget http://mirror.apache-kr.org/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gztar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gzmv sqoop-1.4.6.bin__hadoop-2.0.4-alpha /usr/local/sqoop vim /etc/profile export HBASE_HOME=/usr/local/hbase export SQOOP_HOME=/usr/local/sqoop export PATH=$PATH:$SQOOP_HOME/bin:$HBASE_HOME/bin:$..
아파치 피닉스(Apache Phoenix) 설치 1. 하둡 , Hbase는 기본적으로 설치되어 있다고 가정, https://phoenix.apache.org/ 에서 파일 다운로드 2. 압축해제3. Hbase 정지4. phoenix-버전-HBase-1.1-server.jar 을 HBASE lib 폴더에 저장5. phoenix-core-버전-HBase-1.1.jar 을 HBASE lib 폴더에 저장6. Hbase 재시작 확인절차 1. ./sqlline.py 172.168.0.47:2181:/hbase - System Table은 피닉스가 처음 실행할때 자동으로 생성 2. Hbase shell - Hbase Shell에도 똑같이 시스템 폴더들이 생긴것을 알수 있음
Hbase + Hive 연동 HDP(Hortonworks data Platform)을 이용할때는 external Table을 선언하면 바로 동작하던것 같은데, 일반 Apache Hadoop에서는 약간 다르기 보다는 귀찮은게 많은것 같습니다. Hadoop 2.7.1, Hbase 1.1.1 , Hive 1.4.0을 기준으로 정리하면(각 컴포넌트들이 이미 설치되어 있다고 전제) 1. Hive로 필요한 Hbase 라이브러리 복사cp /HBASE_HOME/lib/hbase-client-x.x.x.jar /HIVE_HOME/lib/cp /HBASE_HOME/lib/hive-common-x.x.x.jar /HIVE_HOME/lib 2.Hive Shellcreate external table mytable(key string,c1 string,c..
[Apache:Hbase] 에러 해결하는 방법 2015-08-05 13:49:25,287 INFO [root:16020.activeMasterManager] master.ServerManager: Waiting for region servers count to settle; currently checked in 0, slept for 9017 ms, expecting minimum of 1, maximu m of 21.. HDP 가 정말로 좋지만, 요구 환경때문에, Apache Hbase를 사용하고 있습니다. (사실 몇몇 요구사항때문에 Hbase를 직접 컴파일하고 빌드한 상황이라, 바이너리를 받았으면 이런오류가 안생기실수도 있습니다) 참고로 제 환경은 Centos 6.6 64bit, Hbase 1.0.1.1 입니다. 방금전에 문제 겪은것에 대해 해결방법을 포스팅합니다 2015-08-05 13:49:25,287 INFO [root:16020.activeMasterManager] master.ServerManager: Waiting for region servers count to settle; currently checked in 0, slept for 9017 ms, expecting minimum of 1, maximu..