컴퓨터

빅 데이터 (Big Data)

업무 중 2021. 2. 5. 21:05

빅 데이터(Big Data)란?

  1. 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 잇는 범위를 초과하는 규모의 데이터
  2. 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍쳐

 

빅 데이터의 특징(3V)

  1. 용량(Volume): 소셜 미디어나 위치 정보 데이터 등은 자료의 양이 많음
  2. 다양성(Variety): 정형 데이터부터 이미지와 음성처럼 비구조화되어 있는 비정형 데이터까지 다양한 종류의 데이터를 포함
  3. 속도(Velocity): 데이터가 빠르게 생상되며, 데이터를 빠르게 처리, 분석이 가능

 

빅 데이터의 새로운 3V

  1. 정확성(Veracity)

    • 방대한 데이터의 양을 분석하여 일정한 패턴을 추출할 수 있음
    • 정보의 양이 많아지는만큼 데이터의 신뢰성이 떨어짐
    • 빅 데이터를 분석하는데 있어 기업이나 기관에 수집한 데이터가 정확한 것인지, 분석할 만한 가치가 있는지 등을 살펴야 하는 필요성이 대두
  2. 가변성(Variability)

    • 최근 소셜 미디어의 확산으로 자신의 의견을 웹 사이트를 통해 자유롭게 게시하기가 쉬어졌지만 자기 생각을 글로 표현하게 되면 맥락에 따라 자신의 의도와는 달리 다른 사람에게 오해를 불러일으킬 수 있음
    • 데이터가 맥락에 다라 의미가 달라진다고 하여 빅 데이터의 새로운 속성으로 가변성이 제시됨
  3. 시각화(Visualization)

    • 정형 및 비정형 데이터를 수집하여 복잡한 분석을 실행한 후 용도에 맞게 정보를 가공하는 과정
    • 시각화가 중요한 것은 정보 사용 대상자의 이해 정도가 중요하며, 그렇지않으면 정보의 가공을 위해 소모된 시간적, 경제적 비용이 무의미해짐

 

빅 데이터 분석 기법

  1. 아파치 하둡(Apache Hadoop): 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하고, 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크
  2. 텍스트 마이닝: 비(반)정형 텍스트 데이터에서 자연 언어 처리 기술에 기반을 두어 유용한 정보를 추출, 가공함
  3. 오피니언 마이닝: 소셜 미디어 등의 정형·비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별
  4. 소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정
  5. 군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴

'컴퓨터' 카테고리의 다른 글

무결성 (Integrity)  (0) 2021.02.10
기계 학습(Machine Learning)  (0) 2021.02.08
가상기억장치 (Virtual Memory)  (0) 2021.02.04
주소 지정 방식의 종류  (0) 2021.02.03
클라우드 컴퓨팅 서비스 모델  (0) 2021.02.02