‘빅데이터를 활용한 다차원 공정관리 방안’ 특강을 듣고
안녕하세요, SNS 서포터즈의 허채윤입니다. 요즘 4차 산업혁명이 핫이슈로 떠오르면서 모두 한 번쯤은 들어본 단어가 됐을 것 같은데요, 그 중에서도 빅데이터는 2014년에 가장 화두가 되면서 2015년에 통계학과로의 진학이 껑충 뛰어오르기도 했었습니다.
이번 특강은 KSA에서 회사원과 교직원, 그리고 대학생들을 대상으로 했던 특강이었는데요. 11월 23일, 11월 30일 7시간씩 총 14시간 동안 특강이 진행됐습니다. 빅데이터를 듣고 나면 아마 엄청 많은 데이터라고 생각하시는 분들도 많을 것 같은데요. 정확한 정의는 무엇일까요?
[빅데이터의 정의]
데이터 집합뿐만 아니라 기술도 포함이 되는 단어인데요, 일반적으로 엑셀에 들어가는 양보다 큰 양이라고 합니다. 그런데 여러분, 엑셀에 행이 1,048,576개라는 것을 아시나요? 이것도 많은 수치지만 이것보다 더 많은 양이 바로 빅데이터라고 아시면 아마 수치적인 감이 잡히실 겁니다.
[빅데이터 시대]
정보화 시대를 넘어서 4차 산업혁명 시대로 가고있는 오늘 날, 데이터는 기하급수적으로 증가하고 있습니다. 유튜브만 보더라도 1분에 전 세계에서 36시간에 해당하는 동영상이 올라오니 다른 SNS로 인한 데이터양도 짐작이 가실 겁니다. 그렇다면 이러한 데이터를 이용해서 어떻게 적용해야 할까요? 그리고 어떠한 툴을 이용해야 하는 걸까요?
[산업혁명의 역사에 대해 설명하고 있는 교수님]
이 특강에서는 R 프로그램을 사용하였는데요, R 프로그램은 무료 다운로드 프로그램이지만 그만큼 어렵고 까다롭다는 단점이 있어서 다른 비싼 프로그램을 많이 사용하기도 합니다. R의 경우에는 프로그램 함수를 전부 입력해주고, 하나의 함수가 입력됐을 때 하나의 값만 도출되는 형태를 갖고 있어 멀티 작업이 불가능하기도 합니다. 그러나 몇 백만 원, 몇 천만 원 하는 빅데이터 통계 프로그램에 비해 무료라는 것은 큰 메리트로 작용합니다.
[R 프로그램]
R이란, 수학, 통계, 수치해석 방법을 지원하는 프로그래밍 언어입니다. 자료의 계산, 분석, 시각적 표현뿐만 아니라 여러 가지 프로그램에 유용한 객체 지향적 프로그램이기도 하죠. 많은 사람들의 개발에 의하여 계속 업데이트 되고 있고, 이용자들이 최신 기법들을 빠르게 간편하게 적용할 수 있다는 장점을 갖고 있습니다.

[R 프로그램 실행시의 화면]
R은 https://www.r-project.org/ 홈페이지에서 다운이 가능하며, R과 R-Studio도 함께 설치하는 것이 좋다고 합니다. 스튜디오 프로그램이 초심자들이 사용하기에는 더 편하다고 합니다.
R은 간단한 함수 그래프를 그리는 것부터, 이상 값을 잡아내는 함수로도 쓰일 수가 있는데요, 다음은 제가 R-Studio로 분석한 것입니다.
[R-Studio에 실제 빅데이터를 이용해 분석한 화면]
함수도 매우 복잡하기 때문에 초보자에게는 어려울 수 있지만, 컴퓨터 전공 관련 학생들에게는 익숙하게 다가올 수도 있는 프로그램이라고 합니다.
이러한 빅데이터 중에 우리나라만이 갖고 있고, 그 데이터의 질마저 좋은 것이 있는데요, 바로 의료 관련 데이터입니다. 우리나라처럼 의료보험이 잘 되어 있는 나라는 전 세계에 단 하나 뿐이지만, 이러한 데이터를 빅데이터를 이용해 분석하고, AI를 적용한다면 아마 신약 개발과 같은 분야에서 대한민국이 강국이 될 수 있을 것으로 보입니다.
빅데이터가 무엇이고, R 프로그램에 대해 간단하게 소개해드렸는데요. 이번 겨울 방학에 SAS를 이용하여 데이터를 제공받고, 이를 중소기업과 협력하여 해결책을 찾는 강의가 진행된다고 합니다. SAS는 R 프로그램에 비해서는 익히기 더 좋은 편이니, 혹시라도 관심 있으신 분들은 많은 관심 가져주세요!