산업 전반에서 인공지능(AI) 머신러닝(ML), 빅데이터가 화두다.

IT 공룡 아마존(amazon)은 방대한 고객 데이터를 바탕으로 고객들의 구매 패턴을 읽고 고객이 살만한물건들을 가까운 지역에 미리 구비해 빠르게 배송하고 비용까지 절감하는 예측 배송(anticipatory shipping) 시스템을 구축했다. 경쟁 회사 가격, 재고량, 선호도, 과거 주문 사례 등을 분석해 최적의 가격을 산정하는 등 데이터를 활용하고 있다.

사업성공 여부가 데이터에 의해 좌우되는 시대, 정부도 올해 데이터 경제 활성화를 위해 데이터 바우처 사업 등에 전년보다 4배 증액된 1787억원을 지원할 예정이다.

데이터 과학, 빅데이터, 데이터분석 대해 알아본다.


데이터 사이언스 프로세스

데이터과학(data science)

데이터사이언스는 데이터 수집과 구축, 큐레이션, 통계 분석과 기계학습 등의 다양한 기술과 지식을 활용, 복잡한 데이터로부터 인사이트를 얻거나 지능화된 시스템을 구현하기 위한 모든 업무를 총칭하는 개념이다. 정형, 비정형 데이터에서 인사이트를 추출하기 위해 데이터 정제, 준비, 분석 등 기술들을 포괄적 용어다.

이를 수행하는 데이터 과학자는 통계학, 수학, 프로그래밍, 문제해결능력, 독창성과 통찰력을 갖추어야한다.

데이터 과학의 활용은 산업전반에서 다양하다. 대표적 사례는 먼저 인터넷 검색(Internet Search)이 있다. 검색엔진은 데이터 과학 알고리즘을 사용해 몇 초 만에 최상의 검색 결과를 제공한다. 둘째로 디지털 광고다. 디스플레이 배너부터 디지털 광고판까지의 모든 디지털 마케팅 스펙트럼은 데이터 과학 알고리즘을 사용한다. 이를 통해 광고의 도달률, 즉 클릭률(CTR : Click Through Ratio)을 높인다. 셋째로 추천 시스템(Recommender systems)이 있다. 추천 알고리즘은 수십억 개의 제품에서 관련 상품을 쉽고 빠른시간에 찾는데 도움을 준다. 구글 유튜브, 넷플릭스 등 많은 검색기반 IT기업이 소비자의 니즈와 정보를 기반으로 이 시스템을 사용한다. 이러한 추천 메커니즘은 소비자의 이전 검색 기록과 검색 결과를 활용한다.

credit: codeup.

빅데이터

빅데이터란 기존의 응용 프로그램으로는 효과적으로 처리할 수 없는 엄청난 양의 데이터를 말한다. 빅데이터의 처리는 집계나 조작 전 원 데이터(raw data)로 시작된다. 방대한 크기로 단일 컴퓨터 메모리에 저장하는 것은 거의 불가능하다.

빅데이터를 활용하는 대표적 사례는 금융 서비스다. 신용카드 회사, 은행, 개인 자산 관리자문, 보험회사, 벤처펀드, 투자은행 등이다. 금융서비스의 경우 여러 이질적인 시스템에 존재하는 다차원 데이터의 양이 방대하다. 이런 빅데이터는 고객 분석, 컴플라이언스 분석(Compliance analytics), 사기분석(Fraud analytics), 운영 분석등에 활용된다.

둘째로 통신 빅데이터다. 신규 가입자 확보, 고객 유치 및 현재 가입자 기반 확대는 통신 서비스 제공 업체에게 최우선 순위다. 기하급수적으로 축적되는 고객 생성 데이터 및 기계 생성 데이터의 저장과 결합, 분석하는데 활용된다.

온라인 소매 유통 관련 빅데이터도 방대하다. 매출 확대를 위해 웹 로그, 고객 거래 데이터, 소셜 미디어, 매장 브랜드의 신용 카드 데이터 및 로열티 프로그램 데이터를 포함, 회사가 매일 처리하는 각종의 이질적인 데이터 소스를 분석 할 수 있어야 한다.

데이터 분석

원 데이터에서 인사이트를 도출하기 위해서 적합한 알고리즘과 통계기법을 적용해 해당 정보에 대한 결론을 도출하고 패턴을 찾는 작업이다.

데이터 분석의 핵심은 이미 알고 있는 결론에서부터 또 다른 결론을 도출하는 과정인 추론에 있다. 의미 있는 상관 관계를 찾기 위해 여러 데이터 셋을 실행하기도 한다.

데이터 분석은 조직이 기존 이론이나 모델을 검증하고 반증할 뿐만 아니라 더 나은 의사 결정을 위해 여러 산업분야에서 사용한다.

먼저 헬스케어, 의료 질 향상과 효율적인 치료를 위해 환자 데이터, 진료 및 장비 데이터를 추적하고 최적화하는 데 점점 더 많이 사용되고 있다.

둘째로 여행이나 게임의 경우 모바일/웹 로그 및 소셜 미디어 데이터 분석을 통해 소비자의 구매 경험을 최적화 할 수 있다. 고객의 니즈와 선호도 데이터를 분석 통찰력을 얻고, 현재 판매를 후속 브라우징으로 연결해 더 많은 상품을 판매할 수 있다. 후속 브라우징은 검색에서 구매로 전환을 증가시키는 과정을 뜻한다.

셋재로 에너지 분야는 스마트 그리드, 에너지 최적화, 에너지 분배 및 빌딩 자동화를 포함해 에너지 관리를 위해 데이터 분석을 사용한다. 여기에서 응용 프로그램은 네트워크 제어 및 모니터링, 요원 파견 및 서비스 중단 관리에 중점을 둔다. 수백만 개의 데이터 포인트를 네트워크 성능(network performance)에 통합, 엔지니어가 네트워크 모니터링 분석을 활용할 수 있다.

데이터 과학자(data scientist)

데이터 과학자들은 보통 88%가 석사학위를, 46%는 박사학위를 보유하고 있다.

데이터 과학자에게 R, 파이선(Python) 등 프로그래밍 언어는 필수다. 하둡 플랫폼(Hadoop platform), SQL 데이터베이스에 대한 지식도 필요하다. 데이터 과학자들에게 비정형 데이터(소셜 미디어, 영상, 음성 등)를 다룰 수 있는 능력 또한 매우 중요하다.

SAS, R 등 통계분석과 수학은 추론적 통계 및 실험 설계에 필수다. 기계 학습과 데이터 랭글링(wrangling) 기술은 로데이터를 매핑하고 데이터를 보다 편리하게 사용할 수 있는 다른 형식으로 변환하는데 활용된다. 조직 및 고객과의 의사소통방법과 데이터 시각화 기술도 필요하다.

빅데이터 전문가

분석 능력 : 방대한 데이터를 적절하게 파악해 어떤 데이터가 문제 해결과 가장 밀접한 지 결정할 수 있다.

창의성 : 데이터를 조합, 해석, 분석해 새로운 데이터 전략을 수립하는 능력이 필요하다.

수학과 통계적 기술 : 데이타 수치 처리(number crunching)의 핵심이다.

컴퓨터 과학 : 컴퓨터는 모든 데이터 전략의 기반이다. 프로그래머는 통찰력을 높이는 데이터 처리 알고리즘을 고안해야 한다.

비즈니스 스킬 : 비즈니스 성장 뿐만 아니라 이익을 창출하는 기본 프로세스와 함께 비즈니스의 목표를 이해할 수 있어야 한다.

credit:SAS.com.

데이터과학 업체

글로벌 데이터과학 업체는 아마존, 구글(google), MS 등 IT 공룡을 비롯해 SAS, 어센추어(Accenture), 시스코(Cisco), 디트로이트(Deloitte), 인텔(Intel), NVIDIA(하드웨어 분야) 등이 있다.

특히 SAS는 빅데이터 분석을 넘어 인공지능 기업으로 도약을 목표하고 있다(관련기사). SAS는 앞서 소프트웨어 혁신, 교육 등 전문 서비스 개발에 향후 3 년간 인공지능(AI)에 10 억 달러(한화 1조1300억원 규모)를 투자한다고 밝혔다.

AI 솔루션과 애플리케이션 개발, 기계학습(ML) 교육 프로그램을 운영하고 SAS 인증 전문가자격증을 도입해 업계가 신뢰할 수 있는 AI, ML 전문가를 양성한다는 계획이다.

국내 데이터과학 업체 중 한 곳인 4월 ‘데이터 과학 스위트(Data Science Suite)’ 출시를 앞둔 솔트룩스는 지난해 한국전력 소셜 빅데이터 인지분석 프로젝트에 이어 국토교통부 공간 빅데이터 분석 플랫폼, 한국언론진흥재단 뉴스 빅데이터 분석 시스템 고도화, 한국과학기술연구원 데이터 기반 R&D 환경 조성 등도 진행하고 있다.