라인
왼쪽
오른쪽
  • UPDATE : 2019.6.20 목 15:48
> 기획/연재 > 미래경영포럼
데이터로 발전한 인공지능…이제는 딥러닝 시대다
장청희 기자  |  sweetpea@leaders.kr
폰트키우기 폰트줄이기 프린트하기 신고하기
승인 2018.10.29  09:14:03
페이스북 카카오스토리 미투데이 트위터
   
▲ 이준기 연세대 교수가 지난 25일 더베이101에서 리더스미래경영아카데미 강의를 하고 있다. 장청희 기자

페이스북 ‘좋아요’로 정치성향까지 분석
데이터화 방식…귀납법 오류 한계도 나와
 
강사: 이준기 연세대 교수
주제: 빅데이터, 인공지능 그리고 비즈니스 모델

 
지난 25일 해운대 더베이101 컨퍼런스홀에서 리더스미래경영CEO아카데미 여섯 번째 강의가 열렸다. ‘빅데이터, 인공지능 그리고 비즈니스 모델’이라는 이름으로 열린 강의에서 이준기 연세대 교수는 빅데이터를 이용한 새로운 경향과 인공지능의 발전과정을 설명했다. 그는 모든 것이 데이터화되고 있는 추세라며 많은 기업들이 빅데이터를 이용해 새로운 분석을 내놓고 있다고 말한다. 또 이를 바탕으로 선거운동하기, 주가예측하기, 판매전략 세우기 등이 가능하다. 이 교수는 인공지능이 기존의 전문가 시스템에서 데이터화 방식으로 바뀌면서 획기적으로 발전했다고 말하며 딥러닝의 시대가 도래했다고 말했다.
 
◇ 빅데이터 기술의 발전
 
빅데이터는 망원경을 통해서 천제를 관찰하고 현미경을 통해 세균을 관찰하는 것과 마찬가지로 현실세계를 데이터로 보여주는 것이다. 최근에는 모든 것이 데이터화되고 있는 추세다. 페이스북은 한 시간마다 1000만개의 사진을 업로드하고 있고 트위터는 정서를 데이터화하기 시작했다. 애플은 2009년 이어폰을 이용해 혈중산소치, 심장박동수, 체온을 얻는 방식에 대한 특허를 획득했다. 또 아이폰을 사용해 파킨스병을 예측했다. 구글의 검색 질문은 하루 50억개 이상이며 매일 70억 달러의 주가가 거래되는데 3분의 2는 알고리즘으로 거래된다.
 
많은 기업과 정부들이 빅데이터를 이용해 분석기술을 개발하고 있다. 한 미국의 웨어러블 디바이스 회사는 웨어러블 디바이스 기기 이용자들 분석해 지진의 진앙지를 예측했다. 시간대별로 깨어있는 이용자가 많은 곳일수록 지진의 진앙지에 가깝다는 분석을 한 것이다.
 
서울시는 야간버스 수요를 파악하기 위해 KT와 손을 잡고 유동인구의 밀집도 등을 1km 단위의 헥사셀 단위로 구분해서 시각화했다. 심야시간 통화량과 청구지 주소를 이용해 야간 유동인구 정보를 모으고 스마트카드를 이용해 심야 택시 승하차 정보를 모아, 심야버스 노선을 결정했다. 새롭게 생겨난 2개 심야노선의 경우 사용량이 증가해 현재는 8개 노선으로 증설운영 중이다.

페이스북은 케임브리지 대학과 마이크로소프트와 함께 2013년 5만8000명의 지원자를 대상으로 ‘좋아요’를 분석해 인간의 행동을 분석했다. ‘좋아요’ 누른 것을 보고 이 사람이 누구인지 알아맞히는 것이다. ‘좋아요’를 누른 비율을 분석해서 이 사람이 코카시안 미국인인지 아프리칸 미국인인지 맞추는 비율은 95%에 이른다. 또 이 사람이 공화당 성향인지, 민주당 성향인지 맞추는 비율은 85%에 이른다. 스탠포드 대학교에서 진행한 연구의 경우 빅데이터 정보를 이용해 인간의 개방성을 연구했다. 빅데이터 자료로 이 사람이 개방적인 사람인지 폐쇄적인 사람인지를 알아맞히는 것이다.
 
◇ 빅데이터 기술의 활용
 
이 같은 자료를 보여주는 이유는 이번 미국 대선에서 실제 빅데이터를 이용해 선거유세가 이뤄졌기 때문이다. 최근에 페이스북을 이용해 러시아가 미국대선에 개입했다는 뉴스가 나오지 않았나. 실제로 캐임브리지 대학교 교수들이 만든 ‘캐임브리지 어날러시스’라는 회사에서 미국인 7000만명의 페이스북의 ‘좋아요’ 정보를 이용해 이 사람이 힐러리를 지지할지, 트럼프를 지지할지를 분석했다. 그리고 거기에 맞춰서 선거운동이 이뤄졌다.
 
이제는 빅데이터를 이용한 분석과 예측이 다양하게 이뤄지고 있다. 중국의 한 대학에서는 온라인강의를 이용하는 학생들을 분석해서 학생들의 학점을 90%이상 예측했다. 주식에서도 빅데이터 분석이 이뤄져 로이터통신에 뉴스이슈를 이용해 주가를 65% 정도 예측하는 것이 가능해졌다. 또 검색엔진에서 ‘빚’이라는 검색어를 검색하는 수를 분석해 앞으로의 주가가 오를지 내릴지를 예측할 수도 있다.
 
미국의 제2소매 유통 기업 ‘타깃’은 이용객들의 구매정보를 이용해 여성 고객의 임신여부를 알아맞히고 있다. 50개의 변수를 이용해 분석하고 있는데 분석이 정확해 이 여성고객이 임신 몇 개월 인지까지도 알 수 있다고 한다. 타깃은 이를 이용해 임신용품 관련 쿠폰제공하는 등 판매활동을 세우고 있다.
 
◇ 인공지능의 발전과정1: 전문가 시스템 방식
     
   
▲ 이준기 교수
빅데이터와 함께 인공지능도 주목을 받고 있다. 현재의 인공지능을 이해하기 위해서는 인공지능 기술의 변화과정을 이해할 필요가 있다.
 
1980년대 이뤄지는 초기의 인공지능은 ‘전문가 시스템’이라고 부르는 룰 베이스 인공지능이었다. 이는 전문가의 지식을 인공지능에 옮기는 것이다. 예를 들면 의사와의 인터뷰에서 ‘38도를 고열이라고 하는가’라고 물었을 때 ‘예’와 ‘아니오’로 대답할 수 있듯이 모든 질문을 ‘예’와 ‘아니오’로 설명할 수 있는 로직(디지털논리회로)을 만들었다. 이 같은 전문가 시스템은 의사진단, 커리어 조언, 농업 등에서 활용됐다. 하지만 말이 쉽지 실제로 전문가 시스템을 만들기는 쉽지 않다. 사람은 정확하지 않기 때문에 모든 지식을 ‘예’, ‘아니오’로 만들기 어려운 것이다.
 
인공지능으로 가장 어려운 분야는 사람의 말을 알아듣는 시스템을 만드는 것이다. 초기 인공지능이 ‘전문가 시스템’으로 진행되자 언어이해시스템도 전문가 시스템 방식으로 이뤄졌다. 언어의 모든 룰을 데이터화하는 것이다. 20년의 연구기간이 걸렸지만 전문가시스템 방식은 완전히 실패했다. 그 이유는 언어가 룰에 의해서 되지 않고 룰 자체도 너무 복잡하고 변칙이 많이 나왔기 때문이다. 우리가 예전에 번역기를 사용할 때도 그렇지 않은가. 한국어를 영어로 번역하는 번역기를 돌렸을 때 한국말인지 아닌지도 모를 만큼 이해하기 힘든 결과가 나온다. 이처럼 2000년대 들어서 전문가 시스템 방식이 실패로 돌아가자 많은 연구진들이 인공지능 분야에서 떠나간다.
 
◇ 인공지능의 발전과정2: 데이터화 방식

 
인공지능이 2000년대 들어 비인기분야가 됐는데 요즘 와서 인공지능에 붐이 일어나고 있다. 한국의 경우에는 알바고가 시발점이었다. 앞서 말한 언어분야 인공지능의 경우에도 최근에는 많은 부분 문제가 해결됐다. 최근에는 챗봇이라고 해서 인공지능이 서비스데스크 역할을 한다. 또 사람들 사이에서는 인공지능 스피커가 인기가 많다. 전문가 시스템이 실패했는데 어떻게 인공지능 붐이 일어날 수 있었을까. 이는 단순하다. 그냥 모든 상황에 맞게 시나리오가 짜져 있기 때문이다. 모든 것이 데이터화된 것이다. 최근의 번역기를 사용해보면 놀랄 정도로 잘 돼 있다. 구글이 번역기를 만들 때 지금까지 한국과 미국 사이에 오간 공문을 다 데이터베이스화했다. 또 한글을 영어로 번역된 책을 모두 데이터화했다. 그래서 한국어를 영어로 번역할 때 그 문장과 가장 비슷한 문장을 찾는다. 지금까지 설명하면 많은 사람들이 ‘인공지능이 이렇게 시시한 거야’라고 생각할 수 있지만 그 방식으로 돌아가기 시작하면서 인공지능이 발전하기 시작했다.
 
데이터가 점점 더 많아지면 인공지능이 점점 더 좋아질 것이다. 구글 트랜스레이션도 한국어를 영어로 바꾸는 것보다 한국어를 일본어로 번역해 다시 일본어를 영어로 번역하는 것이 더 낫다고 설명한다. 이는 한국과 미국간에 문서보다 일본과 미국간의 공문 데이터가 훨씬 많기 때문이다.
 
최근에는 인공신경망 방식(Neural Networks)을 사용한다. 과거 데이터와 현재의 데이터를 동시에 넣어서 우리가 원하는 결과를 나오게 하는 방식이다. 이 방식은 1960년대부터 있었던 방식이었으나 노드가 많아지고 단계가 많아지면서 사용하기 힘들어졌다. 하지만 데이터의 증가, 컴퓨터 파워의 증가, 새로운 트레이닝 방법의 발달로 2013년 딥러닝이 세상에 나오게 됐다.
 
이후 자율주행차 등이 나오기 시작한다. 앞으로 인공지능은 딥러닝 알고리즘으로 당뇨성 망막을 진단할 수 있게 된다. 인공지능에게 망막 사진 수백만장을 데이터화하도록 해 당뇨성 망막을 진단할 수 있도록 만드는 것이다. 올해 4월에 미 식약청에서 승인받은 의사를 대체하는 인공지능 시스템이 바로 이 기계다. 망막을 찍으면 올해 내에 심장병에 걸릴 확률을 알려주는 기계도 있다. 이 인공지능 기계가 맞히는 확률이 70%에 이른다.
 
이제는 데이터만 잘 갖추면 인공지능을 트레이닝 시켜서 새로운 예측이 가능하도록 만들 수 있다. 하지만 여기에는 한계가 있다. 우선 데이터화 시키는 것 자체가 귀납법이다. 귀납법에는 오류가 있다. 지금까지 모두 똑같은 결과가 나왔다 해도 그것이 맞다는 보장을 할 수 없는 것이다. 또한 데이터화를 하기 위해서 엄청나게 많은 데이터가 사용돼야 한다는 점도 약점이다.
 
이준기=△서울대 컴퓨터사이언스 학사 △카네기멜론 사회심리학 석사 △남가주대 경영학 박사
△(전) 연세대 CIO △연세대 정보대학원장 △연세대 빅데이터활용연구 센터장 △한국 빅데이터 학회 회장 장청희 기자 sweetpea@leaders.kr
장청희 기자의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 신고하기
페이스북 카카오스토리 미투데이 트위터
기사 댓글 0
전체보기
첫번째 댓글을 남겨주세요.
여백
여백
여백
여백
회사소개기사제보광고문의불편신고개인정보취급방침청소년보호정책이메일무단수집거부
부산광역시 부산진구 중앙대로 594 |  대표전화 : 051-996-2400  |  팩스 : 051-996-2408  |  등록번호 : 부산 가 00020  |  발행·편집인 : 백재현
등록번호 : 아00219 |  등록일자 : 2015년 2월 06일 |  청소년 보호책임자 : 백재현
Copyright © 2014 일간리더스경제신문. All rights reserved.