맵리듀스 2

[Bigdata] MapReduce구현 완벽정리

1. 구성요소 HDFS의 구성요소는 클라이언트,네임 노드,데이터 노드 3가지가 있다. 클라이언트는 아시다시피 데이터 송수신을 요청하는 곳이고, 네임노드는 config, mongos같은 역할을 하고 데이터노드는 shard처럼 실제 데이터 저장역할을 한다. (저번에 올린 글에서 config,mongos,shard의 역할을 다루었습니다) *노드=컴퓨터 2. Finalize & 맵리듀스(mapReduce) 하나의 key,value방식으로 다 나누는 것을 맵 리듀스라고 한다 key값이 같은 것들을 모아서=> map( )함수단계 key별로 계산한다=>reduce( )함수단계 다음 mongodb쿼리를 cmd창에 하나씩 입력해준다(//는 설명) use test db.words.save({text:'read a book..

[Bigdata] 1. 빅데이터란? (처리과정 기술 6단계)

빅데이터란? 기존 컴퓨팅 기술로 저장,관리,분석이 불가능할 정도의 큰 데이터집합과 관련기술,인력 등을 포괄하는 의미 TB,PB,EB,ZB,YB (테라,페타,엑사,제타,요타바이트...) 빅 데이터의 생성속도 하루 250경 바이트의 비정형 정보가 증가! (NoSQL: 관계형 데이터베이스와 같은 표준커리(정형화된 데이터)를 처리할 뿐만 아니라 비정형화된 데이터를 처리할 수 있다.) *정형데이터= 문자,숫자,날짜 *비정형데이터= 문자,숫자,날짜+ 동영상,사진,좌표 예시 1. 자라(ZARA)는 전세계에 매장이 있는 의류브랜드로 빅데이터를 이용해 선호도, 수요조사를 한다 2. 택시의 위치정보 전송으로 탑승위치의 정확성 높임 (또는 택시를 요청하는 사람들이 어디에 많이 있는지 택시기사가 알 수 있게 보여주는 기술까지..