빅 데이터(Big Data)란?
- 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 잇는 범위를 초과하는 규모의 데이터
- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐
빅 데이터의 특징(3V)
- 용량(Volume): 소셜 미디어나 위치 정보 데이터 등은 자료의 양이 많음
- 다양성(Variety): 정형 데이터부터 이미지와 음성처럼 비구조화되어 있는 비정형 데이터까지 다양한 종류의 데이터를 포함
- 속도(Velocity): 데이터가 빠르게 생상되며, 데이터를 빠르게 처리, 분석이 가능
빅 데이터의 새로운 3V
-
정확성(Veracity)
- 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있음
- 정보의 양이 많아지는만큼 데이터의 신뢰성이 떨어짐
- 빅 데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두
-
가변성(Variability)
- 최근 소셜 미디어의 확산으로 자신의 의견을 웹 사이트를 통해 자유롭게 게시하기가 쉬어졌지만 자기 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도와는 달리 다른 사람에게 오해를 불러일으킬 수 있음
- 데이터가 맥락에 다라 의미가 달라진다고 하여 빅 데이터의 새로운 속성으로 가변성이 제시됨
-
시각화(Visualization)
- 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정
- 시각화가 중요한 것은 정보 사용 대상자의 이해 정도가 중요하며, 그렇지않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무의미해짐
빅 데이터 분석 기법
- 아파치 하둡(Apache Hadoop): 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하고, 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크
- 텍스트 마이닝: 비(반)정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공함
- 오피니언 마이닝: 소셜 미디어 등의 정형·비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
- 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
- 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴
'컴퓨터' 카테고리의 다른 글
무결성 (Integrity) (0) | 2021.02.10 |
---|---|
기계 학습(Machine Learning) (0) | 2021.02.08 |
가상기억장치 (Virtual Memory) (0) | 2021.02.04 |
주소 지정 방식의 종류 (0) | 2021.02.03 |
클라우드 컴퓨팅 서비스 모델 (0) | 2021.02.02 |