주메뉴 바로가기 본문 바로가기

종합뉴스 경제

DGIST 김민수교수팀, 빅데이터 분석, 컴퓨터 한 대로 처리

전경도 기자 입력 2016.07.07 20:33 수정 2016.07.07 20:33

DGIST는 김민수(정보통신융합공학전공) 교수 연구팀이 슈퍼컴퓨터로 처리하기 어려운 인간 두뇌 신경망 데이터와 같은 대용량 그래프 데이터를 컴퓨터 한 대로 처리할 수 있는 ‘GStream 2.0’ 기술을 개발했다. 김 교수 연구팀이 개발한 GStream 2.0은 뇌과학, 인공지능, IoT, 웹, 소셜네트워크 등 다양한 분야에서 사용하는 그래프 형태의 빅데이터를 두 개의 GPU와 두 개의 PCI-e SSD가 장착된 컴퓨터 한 대로 초당 최대 20억개의 처리속도(2GTEPS)로 2560억개의 간선들을 처리할 수 있는 세계 최고 수준의 성능과 속도를 나타낸다.인간의 뇌 신경망은 시냅스라 불리는 100조개의 간선들로 구성돼 있다. 이 가운데 2560억개의 간선들을 처리할 수 있는 GStream 2.0은 인간의 뇌 400분 1 크기에 해당하는 신경망 데이터를 처리할 수 있는 기술이다.인간 두뇌의 신경망은 정점들 간의 연결이 복잡한 구조의 특성상 여러 대의 컴퓨터에 나눠 저장할수록 일반적으로 통신비용과 메모리 사용량이 기하급수적으로 증가해 슈퍼컴퓨터를 사용하더라도 인간 두뇌의 1000분의 1 크기의 신경망조차 처리하는데 어려움을 겪어왔다. 현재 빅데이터 분석 성능이 가장 우수하다고 알려진 미국 카네기멜론대학교 GraphLab의 경우 480 CPU 코어, 2테라바이트 메모리, 5기가바이트 고속 네트워크를 갖춘 슈퍼컴퓨터에서 최대 320억개의 간선들로 구성된 그래프 형태의 데이터 처리에 1,400초가 걸리고 있는 상황이다.연구팀은 대용량 그래프 데이터를 여러 대의 컴퓨터 메모리에 나눠 저장하는 방식에서 벗어나 컴퓨터 한 대의 PCI-e SSD에 저장하고, SSD로부터 GPU 메모리에 비동기적 방식으로 스트리밍하면서 동시에 GPU의 수천개 계산 코어들을 이용해 데이터를 처리하는 새로운 접근 방법을 시도해 기존의 통신비용 및 메모리 사용량 문제점들을 해결했다.그 결과 GStream 2.0 기술은 두 개의 GPU와 두 개의 PCI-e SSD를 장착한 컴퓨터 한 대 만으로 320억개 간선 규모의 데이터를 500초 만에 처리했으며 최대 2560억개 간선 규모의 대용량 데이터를 처리했다.이는 슈퍼컴퓨터를 이용한 기술보다 GStream 2.0 기술이 그래프 데이터의 처리 용량 및 속도가 월등하다는 것을 시사하며, 기존의 통신비용 및 메모리 사용량 등의 문제점들을 극복하고 대규모 그래프 데이터를 고속으로 처리할 수 있는 기술임을 의미한다.DGIST 정보통신융합공학전공 김민수 교수는 “신경망 형태의 빅데이터를 GPU와 SSD 기반으로 고속 처리할 수 있는 소프트웨어 기술을 확보했다”며 “뇌과학 및 인공지능 분야에서 사용되는 신경망 형태의 데이터 처리나 IoT 데이터 기반의 사이버 보안 등에 활용할 수 있으며, 특히 초대규모 심층 인공신경망을 구현할 수 있는 기반 기술로 사용할 수 있을 것”이라고 말했다.이번 연구 성과는 지난 6월 28일 미국 샌프란시스코에서 열린 데이터베이스 분야 세계적 학술대회인 2016 ACM SIGMOD(시그모드)에서 발표됐다.대구/전경도 기자 newskd@korea.com


저작권자 세명일보 무단전재 및 재배포 금지