본문 바로가기

hadoop

(41)
Strom-kafka : ava.lang.RuntimeException:java.lang.RuntimeException: org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/topics/topic_sdka/partitions 일단 환경은 HortonWorks HDP 플랫폼 위입니다. Storm을 Kafaka의 Consumer로 Spout를 만드는데, 이게 오픈소스라 그런지는 몰라도 잔 버그가 많습니다. Strom-kafka : ava.lang.RuntimeException:java.lang.RuntimeException: org.apache.zookeeper.KeeperException$NoNodeException: KeeperErrorCode = NoNode for /brokers/topics/topic_sdka/partitions 이런 당황스러운 오류가 Spout 쪽에서 날수가 있는데, 스택오버플로우에서는 버전을 맞추라느니, 뭐라느니, 그러는데 결론은 Kafka, Storm, Zookeeper Restart 한다음에 다시..
hive web interface(hwi) 설치하기 생각해보면, hadoop이나, hbase는 web interface를 제공해서 중간 중간 제가 원하는 정보를 얻을수 있습니다. 물론 콘솔로도 얻을수 있으나, 예를들어 어떤 노드가 죽었나, 또는 region들이 제대로 분할되었나(hbase를 처음사용하다보니, 실제 분할되고 하는것들을 보고 싶었거든요) 그런데 hive는 웹인터페이스를 보고 싶었는데, 없다는것이 문제였습니다. 관련해서 검색해보니, 별도로 설정해서 hwi를 실행해야 하는것이였습니다. 일단 저의 환경은 다음과 같습니다.Hadoop 2.6.0Hbase 0.98.9zookeeper 3.4.6hive 0.14.0 출처 : https://cwiki.apache.org/confluence/display/Hive/HiveWebInterface hive.hw..
Hbase, org.apache.hadoop.hbase.TableExistsException: hbase:namespace Unhandled exception. Starting shutdown.org.apache.hadoop.hbase.TableExistsException: hbase:namespaceat org.apache.hadoop.hbase.master.handler.CreateTableHandler.prepare(CreateTableHandler.java:120)at org.apache.hadoop.hbase.master.TableNamespaceManager.createNamespaceTable(TableNamespaceManager.java:230)at org.apache.hadoop.hbase.master.TableNamespaceManager.start(TableNamespaceManager.java:85)a..
R 프로그래밍 몇일간 R에 대해서 수업 들으면서 느낀것.. 빅데이터 분석으로 R은 만능은 아님(R자체가 데이터를 메모리에 로드해서 사용하기 때문에 만약 컴퓨터가 가진 메모리보다 데이터가 크다면..?) --> 이래서 데이터를 읽어올때 한줄씩 읽어오는 방법도 사용 --> 때에 따라서는 전처리 단계 필요, 또 R이 오픈소스 이다보니까, R에서 전처리 단계에서 속도가 느려서 이를 개선한 Revolution R(현재 7버전) 이라는게 있음,,(유료인가..?..) 또는 하둡을 이용해서 해결, Rhive, Rhadoop, 등등 ++ Java에서 R호출가능, R에서 자바호출가능(?) 그런데 어느정도 전처리된 단계가 있고 R로 처리를 하면 자동적으로 환상적인 Visualization 대박인듯..(할게 많구나..) R관련 재미있는 사이..
R 프로그래밍 사실, 졸업전에 어떻게 기회가 되어서 R프로그래밍을 배우고 있습니다. 전,, 여태까지 R 프로그래밍이 Hadoop MapReduce를 쉽게 하기 위한 방법론? 또는 그런 제품, 관련된거라고 생각했는데, 정말로 잘못알고 있었던거네요. 물론 외국쪽에 자료가 많겠지만. 국내쪽 커뮤티니 주소 첨부합니다. http://r-project.kr/ R 한국 사용자모임https://www.facebook.com/groups/krstudy/ 페이스북 R 사용자 그룹
Type mismatch in key from map: expected org.apache.hadoop.io.Text, recieved org.apache.hadoop.io.LongWritable Type mismatch in key from map: expected org.apache.hadoop.io.LongWritable, recieved org.apache.hadoop.io.Text 역시 구글, 타입을 지정안해서 나는 오류 였습니다.스택오버플로 짱 Add these 2 lines in your code :job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(IntWritable.class); You are using TextOutputFormat which emits LongWritable key and Text value by default, but you are emitting Text as key and IntWritabl..
하둡 HDFS 폴더의 파일 갯수 확인 방법 FileSystem fs = FileSystem.get(conf); Path pt = new Path("/path"); ContentSummary cs = fs.getContentSummary(pt); long fileCount = cs.getFileCount();https://stackoverflow.com/questions/20381422/file-count-in-an-hdfs-directory MapReduce 프로그래밍 중간에, 생성되는 파일의 갯수를 알아야 했는데, 생각보다 쉬운방법이 있네요.
하둡(hadoop) 한개 노드 태스크 트래커(tasktracker),데이터노드(datanode) 종료 원본 : http://stevemorin.blogspot.kr/2009/07/hadoop-stop-single-tasktracker-node-how.html Here is how to stop a single tasktracker node in a hadoop cluster. /usr/local/hadoop/bin/hadoop-daemon.sh --config /usr/local/hadoop/bin/../conf stop tasktracker 원본 : http://stevemorin.blogspot.kr/2009/07/example-how-to-stop-single-hadoop.html Here is how to stop a single tasktracker node in a hadoop cluster...