본문 바로가기
산업과 스타트업 공부

제 3회 BOAZ 빅데이터 컨퍼런스 후기 - 1

by 회사 다니는 약사 2016. 1. 27.

서울시청 서소문 별관에서 열린 제 3회 BOAZ 빅데이터 컨퍼런스에 참가했습니다. 미래학 분야의 책, 기사, 강연을 통해 빅데이터의 개념 정도만 알고 있었는데, 이 컨퍼런스에서는 학생들이 빅데이터를 가지고 수행한 프로젝트를 발표한다고 해서 가봤습니다.

BOAZ라는 동아리는 우리나라 최초의 빅데이터 동아리라고 합니다. 이 날 컨퍼런스는 160명이 참가할 수 있는 장소에서 열렸는데, 온오프믹스에서 참가 신청을 받았고 대기인원이 있을 만큼 성황이었습니다. 대학생 동아리가 제법 규모있는 행사를 성공적으로 연 것인데요. 빅데이터 자체가 얼마나 주목받는 분야인지 실감했습니다.

 

 

 

스크린을 잘 보고 싶어서 두 번째 줄에 앉았는데, 첫 번째 줄에는 교수님들이 앉아계셨습니다. BOAZ 담당 교수님이신 이원석 교수님(연세대 컴퓨터공학과 데이터베이스 연구실)은 옆에 계신 분에게 BOAZ 소속 학생들 자랑을 많이 하시더군요. 자발적으로 흥미를 가지고 열정적으로 임하는 학생들을 참 예뻐하신다는 걸 느꼈습니다. 

 

오늘 세 가지를 소개해드리려고 합니다.

 

1) 뉴스데이터를 활용한 이슈 분석 (학생 프로젝트)
2) 대한약사회 데이터를 활용한 병용 금기 의약제품 시각화 (학생 프로젝트)
3) 장수진 소장님 강의

 

특히 장수진 소장님은 '창의적 인재'와 '통찰'에 대한 이야기를 하셔서 정말 유익했고, 또 한 번 머리가 뻥 뚫리고 가슴이 뛰었습니다. 이번 글에서는 1)과 2)까지 소개하고 3)은 다음 글에서 따로 다루려고 합니다.

 

 

자 그럼 한 가지씩 소개해드릴게요!

 

 

1) 뉴스데이터를 활용한 이슈 분석 (학생 프로젝트)

 

2015년 네이버에 게시된 뉴스데이터(정치, 경제, 사회, 과학 분야 / 총 73만개)를 분석해서 월별 이슈가 무엇이었는지 확인해보는 프로젝트입니다(R shiny라는 프로그램을 사용)

 

빅데이터 활용 방법을 구체적으로 설명해줘서 좋았는데, 분석하는 과정을 요약하면:

 

(1) 명사만 남기고 다른 것은 제외시킵니다. 그리고 단어의 출연한 빈도수를 기준으로 단어의 중요도(TFIDF) 순위를 매겨요

그러나 이렇게 단어 빈도수로 순위를 매기면 막연한 결과가 나옵니다. 아래 사진처럼 '대통령'이 1위가 되면, '그래 대통령이 이슈인 건 알겠는데 대통령이 뭐? 무슨 일인거지? 좀 더 자세한 내용이 뭐야?'이런 의문이 생기는 거죠.

 

따라서 다음 과정이 필요합니다.

 

(2) 평소에는 잘 사용하지 않는 단어인데, 갑자기 사용 빈도가 증가한 단어가 무엇인지 추출합니다. 즉, 평소에 많이 쓰는 단어인 '대통령'은 배제되고, '유승민', '원내대표'라는 단어들이 상위 순위에 랭크되면서 구체적인 키워드를 추출할 수 있게 됩니다.

 

 

 

 

그러면 이슈를 좀 더 상세하게 파악할 수 있습니다. 위의 사진은 5월 4주차 ~ 6월 4주차의 샤회분야 뉴스를 분석한 것인데요. 뉴키를 사용하면, 단순히 '메르스가 이슈였다'라는 결론을 넘어서서

메르스 확진, 격리 -> 휴업, 사망자 -> 마스크, 삼성 -> 종식, 진정

이렇게 메르스 관련 이슈의 세부적인 변화를 알 수 있는 것이죠.

 

(3) 마지막으로 '연관규칙분석(Association Rules / Market Basket Analysis)'을 사용합니다.

(1)과 (2)의 과정을 통해 키워드를 잘 뽑아내어도 아직 한 가지 문제가 더 남아 있기 때문입니다. 예를 들어 키워드 10개 중에 메르스, 확진, 폭염, 격리, 제일모직이 포함되어 있다고 합시다. 메르스에 대한 배경지식이 있다면 이 5개의 단어 중 메르스 이슈와 관련된 키워드는 '메르스, 확진, 격리라는 것을 알 수 있지만 배경지식이 없는 사람은 상위에 랭크된 키워드를 봐도, 어떤 키워드들이 한 묶음인지를 잘 모를 수 있습니다.

따라서 연관규칙분석을 이용해 키워드를 묶어서 제시하게 하는 것입니다.

 

과정 (2)는 'New-Key'를 뽑아내는 방법인데, 뉴키의 정의는 'TFIDF(문서 내에서 단어의 중요도) 순위가 급상승한 키워드'이고 이 동아리 회원들이 직접 정의한 개념이라고 합니다. 흔히 쓰이는 단어는 배제한 상태에서 주요 이슈과 직관되는 단어를 뽑아내는 것이지요.

 

 
2) 대한약사회 데이터를 활용한 병용 금기 의약제품 시각화 (학생 프로젝트)

 

'레고'로 병용금기 약품을 시각화하는 것이었는데요!! 포스터로 전시되있었습니다(원래 목표는 레고를 3D프린터로 인쇄해서 레고를 전시하는 거였는데 시간이 모자랐다고 설명하시더군요 ㅎㅎ) 

 

 

 

쉽게 설명하면 의약품 상자에 레고 블록을 달아 놓는 것입니다. 그래서 만약 약 A에 달린 블록과 약 B에 달린 블록이 딱 맞춰지면 약 A, B는 같이 먹으면 안된다!!는 표시인 셈입니다. 물론 상호작용 일으키는 약들이 많아서 현실적으로 적용하기에는 정말 복잡하겠지만, 기발한 발상입니다!

 

 

 모든 블록을 합치면 이렇게 약국 모형이 되도록 설계했다고 하네요.

 

 


 

강연장 밖 복도에는 컴퓨터 4대를 설치해 팀 프로젝트를 통해 만든 프로그램을 직접 사용해 볼 수 있게 해놓았습니다. 빅데이터를 다루는 프로그램을 직접 실행해볼 수 있어서 정말 좋았습니다. 팀 프로젝트 발표를 듣고 나서 쉬는 시간에 복도에 나가 직접 그 프로그램을 다뤄보며 한 번 더 이해했습니다.

 

 

 

 

 

 

다음 글에서 3) 장수진 소장님 강의 를 이어가겠습니다!

링크: 2016/02/09 - [Technology] - 제 3회 BOAZ 빅데이터 컨퍼런스 후기 - 2