본문 바로가기
반응형

mapreduce11

R 프로그래밍 몇일간 R에 대해서 수업 들으면서 느낀것.. 빅데이터 분석으로 R은 만능은 아님(R자체가 데이터를 메모리에 로드해서 사용하기 때문에 만약 컴퓨터가 가진 메모리보다 데이터가 크다면..?) --> 이래서 데이터를 읽어올때 한줄씩 읽어오는 방법도 사용 --> 때에 따라서는 전처리 단계 필요, 또 R이 오픈소스 이다보니까, R에서 전처리 단계에서 속도가 느려서 이를 개선한 Revolution R(현재 7버전) 이라는게 있음,,(유료인가..?..) 또는 하둡을 이용해서 해결, Rhive, Rhadoop, 등등 ++ Java에서 R호출가능, R에서 자바호출가능(?) 그런데 어느정도 전처리된 단계가 있고 R로 처리를 하면 자동적으로 환상적인 Visualization 대박인듯..(할게 많구나..) R관련 재미있는 사이.. 2014. 8. 11.
R 프로그래밍 사실, 졸업전에 어떻게 기회가 되어서 R프로그래밍을 배우고 있습니다. 전,, 여태까지 R 프로그래밍이 Hadoop MapReduce를 쉽게 하기 위한 방법론? 또는 그런 제품, 관련된거라고 생각했는데, 정말로 잘못알고 있었던거네요. 물론 외국쪽에 자료가 많겠지만. 국내쪽 커뮤티니 주소 첨부합니다. http://r-project.kr/ R 한국 사용자모임https://www.facebook.com/groups/krstudy/ 페이스북 R 사용자 그룹 2014. 7. 27.
Hadoop MapReduce 여러개 Map, Reduce 실행하기 [JobControl 이용시 Stop이 안될때] 현재 MapReduce관련 작업을 하고 있습니다. 기본적으로 MapReudce는 Map작업과 Reduce작업으로 이루어져있습니다. 만약 Map 이 1개 , Reduce가 1개 일때는 문제가 안되지만, Map 작업이 2개 이상이 되거나 Reduce작업이 2개 이상되어야 할경우가 문제가 됩니다. 지금 책을 보면서, 여러가지를 공부하고 있는데, 인터넷검색결과 이럴경우, 3가지 해결방법이 제시가 됩니다. 첫번째는 jobconf를 여러개 생성해서, jobclient를 실행해서 하는 방법입니다.두번째는 책에 가장 많이 나와있는 케이스인데, ChainMapper를 사용해서 여러개의 Map과 Reduce 작업을 하는 방법입니다. 지금 현재 MapRedue를 이용해서 만들고 있는데 저한테는 아직 적합한것 같지 않네요. .. 2014. 4. 2.
하둡 HDFS 폴더의 파일 갯수 확인 방법 FileSystem fs = FileSystem.get(conf); Path pt = new Path("/path"); ContentSummary cs = fs.getContentSummary(pt); long fileCount = cs.getFileCount();https://stackoverflow.com/questions/20381422/file-count-in-an-hdfs-directory MapReduce 프로그래밍 중간에, 생성되는 파일의 갯수를 알아야 했는데, 생각보다 쉬운방법이 있네요. 2014. 3. 18.
맵리듀스 프로그래밍을 할때 log4j로 로그 찍어보기 http://www.jaso.co.kr/265 일딴 김형준님의 블로그 요걸 보시면 편하게 이해하실수 있습니다. 일종의 사전지식이랄까. 일단 이글을 보시는 분들은 아마 저보다는 잘하시는 분들이실겁니다. 전 요즘 이것때문에 죽겠거든요전,, 도저히 저걸 봐도, 하둡 돌아가는게 안보인느것입니다. 일단 제가 필요한 로그은 getsplit 하고 recodereader 이거 맞나요 직접 구현하는 부분이.일단 메인클레스 내부에서는 sysout 찍어버리면 보이는데, 재내들은 그 안에 있으니 보이지도 않고그래서 제가 선택한 방법은 log4j 입니다. http://blog.naver.com/PostView.nhn?blogId=airguy76&logNo=150087115029&categoryNo=3&viewDate=&curr.. 2012. 7. 8.
반응형