IT 업계의 가장 큰 화두 ‘빅데이터(BigData)’와 ‘하둡(Hadoop)’
인류가 지금까지 생산한 데이터보다 최근 2년간 만들어진 데이터가 더 많을 것이라는 이야기가 들릴 정도로 데이터의 양은 급속히 증가하고 있고, 그만큼 데이터의 종류 역시 매우 다양하다. 갑작스런 데이터의 증가에는 여러 이유가 있었겠지만 컴퓨팅, 모바일의 발달과 SNS라는 매체의 힘이 컸다.
특히 페이스북, 트위터와 같은 소셜 네트워크의 출현은 데이터양의 폭발적 증가를 이끌었다. 이렇게 넘처나는 데이터의 수집 및 분석에 있어서 화두가 되는 ‘빅데이터(BigData)’와 ‘하둡(Hadoop)’에 대하여 소개하고자 한다.
빅데이터(BigData)란?
통상적으로 빅데이터는 ‘기존 데이터에 비해 너무 커서 기존 방법이나 도구로 수집, 저장, 검색, 분석, 시각화하기 어려운 정형 또는 비정형 데이터’를 말한다. 하지만 빅데이터의 정의를 단순한 정량적인 차원으로만 생각해서는 안되는 것은 데이터는 지속적으로 발전하는 과정에 있고, 산업별 시장별 구분에 따라 다르게 적용되기 때문이다.
빅데이터란 개념을 이해하기 위해서는 빅 데이터의 3대 요소(3V)를 이해할 필요가 있다. 3대 요소란 바로 ‘크기(Volume)’와 ‘속도(Velocity)’, 그리고 ‘다양성(Variety)’이다.
▣ 크기(Volume)
크기가 어느 정도 되야 빅데이터라 정의하는지에 대해서는 여러 시각 차가 존재한다. 일반 기업에서 수TB(Terabyte) 규모의 데이터를 빅데이터라고 하기도 한다. 구글, 페이스북으로 대변되는 글로벌 인터넷 기업의 경우 수 PB(Petabyte) 이상을 빅데이터라고 정의하기도 한다. 일반기업과 글로벌 인터넷 기업의 경우 일찍이부터 다루어야 할 데이터의 양 자체가 차이가 있었기 때문에 생기는 시각차이기도 한다. 그러나 글로벌 인터넷 기업의 경우 약 10여년 전부터 수PB 이상의 데이터를 수집 및 분석의 목적으로 데이터를 다루고 있었다.
▣ 속도(Velocity)
아무리 대용량의 데이터를 수집하고 저장할 수 있다고 해도 그것을 최소한의 시간으로 분석 및 처리 하지 못한다면 빅데이터의 가치를 잃게 된다. 이러한 대규모의 데이터를 빠른 시간에 처리하고 분석할 수 있어야 빅데이터를 유용하게 사용할 수 있기 때문이다.
▣ 다양성(Variety)
다양한 종류의 데이터를 수용할 수 있는 속성도 중요하다. 폭발적으로 증가하고 있는 데이터의 경우 정형이 아닌 비정형 데이터이다. 일반적인 기업에서는 기업 특성에 맞는 정형화된 틀에 데이터를 맞추어 저장하였고 이러한 데이터를 분석하기 위해 관계형 DB를 주로 사용했다. 하지만 현재 기하급수적으로 늘어나는 데이터들의 경우 대부분이 비정형 데이터이고 관계형DB에서는 이러한 비정형 데이터의 저장 및 관리가 쉽지 않다. 이렇듯 빅데이터 시대에서는 정형화된 데이터와 비정형 데이터가 다양하게 증가하고 있으며 이러한 데이터들을 처리 및 분석할 수 있는 능력이 필요하다.
그렇다면 이러한 빅 데이터가 중요해지는 이유는 무엇일까? 연관 없어 보이는 다량의 데이터를 분석하여 그 속에서 의미 있는 정보나 패턴을 읽어내면 다변화된 현대 사회를 보다 정확하게 예측할 수 있기 때문이다. 그리고 이를 통해 사람들에게 필요한 유의미한 정보를 생성하고 전달할 수 있게 된다. 빅 데이터 활용 사례를 예로 들어보자. 샌프란시스코는 범죄, 부동산 등 100가지의 데이터 묶음을 일반인에게 공개했다. 이 데이터들은 샌프란시스코에서 강력범죄가 도심에서 많이 일어나며 마약범죄는 강력범죄가 많이 일어나는 곳에서 자주 발생한다는 사실 등을 알려주었는데, 이 같은 의미 있는 정보를 통해 사람들은 자신들의 거주지를 결정하는데 도움을 얻었으며, 샌프란시스코에서도 범죄가 일어날만한 곳에 경찰을 배치하여 범죄 발생률을 낮추는 등 범죄 예방 시스템을 구축할 수 있었다.
하둡(Hadoop)
빅데이터 분석 및 처리가 화두가 되던 초기 기업들은 IBM, 오라클, 테라데이타 같은 분석 전문 솔루션 업체를 통해 빅데이타 분석에 나섰다. 이를 위해서는 솔루션 사용 비용, 서버 비용 등 수백만 달러에 달하는 초기 자본금이 필요했다. 또한 솔루션 업체들이 제공하는 소스가 폐쇄적이여서 한번 도입한 후 다른 대안으로 갈아타기가 쉽지 않았다.
이러한 막대한 비용과 유지관리에 빅데이터와 함께 주목받은 것이 바로 ‘하둡(Hadoop)’이다. 더그 커팅과 마이크 카파렐라에 의해 개발된 하둡은 간단히 말해 방대한 양의 데이터를 분산 처리하여 빠른 시간 내 결과를 제공하는 오픈소스 기반 데이터 관리 기술로, 분산시스템에서 대량의 자료를 처리하는 자유 자바 소프트웨어 프레임 워크다. 실제로 하둡은 빅데이터 분석에 가장 많이 쓰이는 추세이다. 많은 엔지니어와 신생 기업들은 하둡을 기본으로 개발과 분석에 나서고 있기 때문이다.
하둡의 뿌리는 구글과 맞닿아있다. 이는 구글이 설립 초기부터 대규모 자료를 검색하고 분석하는데 사용한 분산 파일 시스템GFS(Google File System)과 분산 처리 시스템 MapReduce에 대한 논문을 접한 더그 커팅이 이를 참고하여 구현한 것이기 때문인데, 하둡은 구글 파일 시스템(GFS)을 대체할 수 있는 하둡 분산 파일 시스템(HDFS)과 맵리듀스(MapReduce)* 알고리즘을 구현한 오픈소스 프레임 워크인 것이다.
'하둡'이란 명칭은 더그 커팅의 아들이 가지고 놀던 장난감 코끼리의 이름을 따서 지어졌다고 전해지는데, 그 때문에 하둡의 심볼 역시 노란 코끼리다.
*맵리듀스(MapReduce) : 다수의 컴퓨터에서 데이터를 분산처리하여, 그 결과를 추려내는 데이터 프로세싱 기법
지금까지의 데이터 분석 기술은 대부분 컴퓨터 한 대로 메모리, 파일시스템, 데이터베이스에 데이터를 저장하고, 이를 기반으로 데이터를 분석하는 알고리즘을 실행하는 구조였다. 여전히 메모리에 데이터를 로딩 해야 했고, 그래서 많은 시간이 소요될 수밖에 없었다. 하지만Hadoop이 보급되면서 버려지던 빅데이터에 관심을 가지게 되었고, 이를 분석·처리하기 시작한 것이다.
대표적인 Hadoop 솔루션 업체로는 클라우데라(Cloudera)와 호튼웍스(Hortonworks)가 있다. Cloudera는 빅데이터와 클라우드 시장의 교육 및 기술지원을 제공하고 있고, Hortonworks는 Hadoop 코어 기술과 아키텍처 개선을 담당하고 있다. 또, IBM은 아파지 하둡(Apache Hadoop)을 기반으로 자신들의 Basic, Enterprise 배포판을 가지고 있고, Oracle은 자신들의 하드웨어에 Cloudera를 결합한 Hadoop Appliance를 제공하고 있다.
지금 이 시간에도 데이터는 계속 쏟아지고 있으며, 저장되고, 분석되고 있다. 많은 양의 데이터를 보유하고 있다고 해서 반드시 가치있는 것은 아니지만 잘 처리된 데이터는 의미를 만든다. 데이터 없이는 지식의 폭이 좁아질 수밖에 없다. 또한 데이터가 없다면 어떤 결정을 할 때 객관적인 근거가 결여되어 주관적인 판단을 할 수밖에 없을 것이다. 세상은 복잡하지만 그 안에는 분명 어떤 흐름이 있고, 넘치는 데이터 속에는 유의미한 이야기가 있다. 리눅스의 등장으로 OS 시장이 크게 바뀌었듯이 Hadoop의 등장으로 다양한 빅 데이터 분석을 시도하게 되었고, 이로써 세상의 변화에 대한 데이터의 영향력은 더욱 커질 것이다. 그리고 이것이 우리가 Hadoop에 주목하는 이유다.
< 자료출처> http://blog.daum.net/dbdb/736 - 한국데이터베이스진흥원 공식 블로그 '디비디비' http://nstckorea.tistory.com/418 - 국가과학기술위원회 공식 블로그 |
============================================================================
빅데이터는 현재 IT업계의 큰 화두로 주목받는 것은 사실이다. 빅데이터와 함께 이를 분석 및 처리할 수 있는 '하둡'과 같은 솔루션과 기타 여러 오픈소스형태의 솔루션들이 속속들이 모습을 보이고 있다.
그러나 빅데이터의 3요소 중의 '크기(Volume)'의 시각에서 객관적으로 바라본다면 중소 인터넷 및 IT기업의 축적된 데이터의 양은 빅데이터와 거리가 먼 이야기일 수 있다. 또한, 빅데이터와 함께 데이터 관리 솔루션과 같은 기술들이 나오고 있지만 아직까지 중소업체가 준비해야하는 확실하고 구체적인 비즈니스 모델도 많지 않아 사업화가 되거나, 시장 활성화 단계로 가기까지는 시간이 많이 필요할 것으로 생각된다.
글로벌 IT 업체의 경우 10여년 전부터 빅데이터에 대한 연구와 기술개발이 진행되어 왔지만, 한국의 IT 환경에서는
현재 빅데이터의 시작 단계이므로, 추후 데이터 분석 및 추출에 대한 기술이 더 많이 나올 것으로 예상된다.
'기술자료 > 기술운영자료' 카테고리의 다른 글
[공개SW 역량프라자] 공개SW 테스트 가이드 및 공개SW 라이선스 가이드 발간 (0) | 2016.03.12 |
---|---|
2012년 8월 18일 부터 보안서버인증서(SSL) 구축이 의무화 됩니다. (0) | 2016.03.12 |
18일부터 인터넷 상 주민번호 신규수집 전면 금지 (0) | 2016.03.12 |
윈도우 서버 2012의 10가지 핵심 기능 (0) | 2016.03.12 |
KISA, ‘게시판 스팸 실시간 차단 서비스’ 제공 (0) | 2016.03.12 |