본문 바로가기
반응형

Study327

Combination 구하기 (Number of Cases) 지금도 진행중이지만, 발생할수 있는 경우의 수를 계산할일이 생겼는데, 이제는 산수도 헷갈리는 문제가 발생하였습니다. 경우의 수를 쉽게 구하는 방법이 있습니다.(예를들면 M이라는 갯수가 있을때 N개씩 뽑을대 발생할수 있는 McN) 경우의 수,, 표현식이 맞는지 잘모르겠지만.. 예전에 울프럼알파? 수학용 검색엔진이 있다고 언듯들은적 있는데, 바로 계산해주네요 그리고 만약 자바에서 할경우에는, 하마타면 로직을 만들뻔 했지만 combinatoricslib 라이브러리가 존재,https://code.google.com/p/combinatoricslib com.googlecode.combinatoricslibcombinatoricslib2.0 홈페이지에는 참고할만한 내용이 없을 정도로 라이브러리 자체가 심플하게 구성.. 2016. 1. 15.
HDFS NFS gateway 사용법 하둡 2버전은 잘모르겠지만. 1버전을 이용할때는 리눅스에서 HDFS에 직접 마운트를 해서 사용하고 싶을때가 있었습니다. 그떄 fuse-dfs를 이용해서 마운트 했는데, 2버전때 없어졌나 했는데.. 제가 HDP(Hortonworks Data Platform)을 이용해서 그런지 잘 안보였던것 같더군요.. cloudera에는 fuse-dfs가 그대로 있던것 같았습니다. 홈페이지에서 보기에는 http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.4/bk_hdfs_nfs_gateway/content/hdfs-nfs-gateway-user-guide.html 다른 배포판은 모르겠지만.. 아파치 하둡1을 이용할때는,, fuse-dfs를 사용하기 위해 관련 라이브러리 설치하고.. 2016. 1. 7.
sqoop export : For input string: "\N" (From Hive to MySQL) sqoop export 를 할때 For input string: "\N" 해결 할수 있는 방법Sqoop export 옵션에 --input-null-string '\\N' --input-null-non-string '\\N' 추가 2015/10/29 - [Study/--Hadoop Eco(Apache/HDP)] - Sqoop 1.4.6 설치, 사용 예제(Migrating data using sqoop from Mysql to HBase)2015/11/16 - [Study/--Hadoop Eco(Apache/HDP)] - Hive를 이용해서 Rank 구하기2015/12/23 - [Study/--Hadoop Eco(Apache/HDP)] - Sqoop-export : from hive to mysql 2016. 1. 5.
파이썬으로 병렬처리 하기 3 마지막장 (Parallel Python) 오늘 심각한 고민을 했습니다 ... 자바는 그냥 갔다 버려야되나.. Parallel Python 이거 써보고 할말을 잃었습니다. 생각보다 너무 쉽고. Parallel Python을 사용하기 위해서는 대략 다음 절차를 수행하시면 됩니다. 연산을 하려는 노드, Master노드에 Parallel Python 설치(http://www.parallelpython.com/) [현재 저같은경우 Python 2.7을 사용하고 있습니다.] 그다음 연산하려는 모든 노드에서 네트웍 대역이 같다면, ppserver.py -a (이 의미는 실제 코드 설명할때 설명0 그리고 마스터 노드에서 병렬처리할 코드를 작업하시면 됩니다. 큰틀은 다음과 같습니다. 가장 중요한 부분은 ppserver= ppservers=("*",) 입니다. .. 2016. 1. 2.
파이썬으로 병렬처리 하기 2 (Parallel Python) 잠깐동안 예제를 따라해보면서 해본 느낌은.. 잘 모르겠지만 엄청 간단합니다. 먼저 Parallel Python에서 http://www.parallelpython.com/content/view/18/32/ 에서 다운 받아서, pp를 다운받아서, 돌아갈 머신과 마스터 노드에 python setup.py install 하면 끝.. 그리고 사용방법은 계산노드(slave)에서 ppserver.py -a(auto discovery) 하면 끝.. 물론 포트를 지정해 준다면 -p 옵션을 사용하면됩니다. 그런다음 마스터 노드에서 다음과 같은 방법으로 하면됩니다. (지금 같은경우는 1master node, 1slave node로 구성된 케이스) import sys,thread import pp class myTest: d.. 2016. 1. 2.
파이썬으로 병렬처리 하기 1 (Parallel Python) 몇가지 처리해야할 작업이 있습니다. 몇 가지 케이스에 대해 계속 테스트를 해보고 있지만. 이걸 Hadoop MapReduce로 처리하는것은 정말 성능이 안나오더군요. 흔히 말한는 반복적인 작업... 이걸 Storm, 또는 Spark를 통해 해결해 보고 싶지만. 현재 사정상 신규아키텍처를 도입하는데 문제가 있어서... 물론,,, 현재 환경은 HDP(Hortonworks Data Platform)2.3 이기 때문에, 설치하거나 실행하는데, 문제는 아닙니다. Storm 같은경우 Topology를 만들면 되겠지만.. 약간 제가 생각하는 작업에는 불리할것 같고.. Spark쪽은 아직 제가 지식이 부족해서 시간대비 성과가 부족할것 같은 생각 때문입니다. 물론, 전 아직까지는 언어중에 Java가 좋지만, 요즘 왠만한.. 2016. 1. 2.
반응형