책리뷰

빅데이터로 보는 인문학 : 800만권의 책에서 보이는 것은?

네그나 2015. 8. 19. 09:35
반응형

구글은 사명을 통해서 세상에 존재하는 정보를 조직화시켜 어디서든 접속하고 활용할 수 있다고 밝히고 있습니다. 웹을 시작으로 정보를 수집 전세계 위성지도로 모으로, 거리 영상을 수집했습니다. 구글 정보 수집에 지식의 보고인 책도 예외는 아니었습니다. 구글은 3천만원의 책을 스캔하여 디지털화 했습니다. 엄청난 정보인데 하버드의 두 명의 과학자들이 구글의 구축한 디지털 도서관으로 가서 책을 검색하는 '구글 엔그램 뷰어'를 개발했습니다.



엔그램 검색(https://books.google.com/ngrams)에 단어만 입력하면 단어 사용빈도를 보여줍니다. 구글 엔그램에 접속해서 섹스하다(have sex)와 사랑을 나누다(make love)을 입력하면 이런 그래프로 표시됩니다.


단어 사용의 빈도를 알면 변화 양상을 있습니다. <B 급 전성시대>에 보면 이런 에피소드가 있습니다. 박사과정에 있었던 대학원생이 조선왕조실록에 기록된 민란의 빈도를 알아보려고 했습니다. 민란의 빈도에 따라서 왕조의 안정성을 짐작할 수 있습니다. 실록을 하나하나 살펴보던 그를 허탈하게 한 것은 CD로 기록되어 나온 조선왕조실록, 검색창에 민란 한번만 입력하면 끝입니다.



데이터가 디지털화 됨으로써 하나의 책이 아닌 거대한 책의 더미에서 검색할 수 있습니다. 대학이나 도서관에게 가지  집에 있는 컴퓨터로 가능합니다.



빅테이터로 보는 언어의 진화와 자연선택


과학자들은 DNA를 통해서 생명의 기원, 진화, 분화과정을 추적합니다. 빅데이터를 통해서 언어의 진화과정을 추적할 수도 있습니다. 영어에서 동사의 과거 시제를 만드는 것에는 단순한 규칙이 있습니다. 뒤에다 -ed를 갖다 붙이면 됩니다. 예를 들어서 jump가 jumped가 되는 식입니다. 동사 수십만개가 이 단순한 규칙을 따릅니다.



과거시제 만드는 법이 이렇게 단순하게 끝이 났다면 영어 때문에 골치를 썩이는 한국인들에게 조금이나마 위안이 되어겠지만 이 법칙에 예외가 있다는 사실을 알고 있습니다. 300여개 정도 되는 불규칙 동사가 존재합니다.



불규칙 동사중 가장 빈도가 높은 10개는 be/was, have/had, do/did, say/said, go/went, get/got, make/made, know/knew, see/saw, think/thought. 이 동사들은 빈도가 너무 높아서 어떤 동사를 사용하게 된다면 그것이 불규칙 동사일 가능성이 50퍼센트나 됩니다. 이건 다 알만한 사실들이고(몰라도 뭐.)




과거 시제를 나타내기 위해서 -ed를 사용하는 방식은 기원전 500년에서 250년 사이에 스칸디나비아에서 쓰인 게르만 조어에서 등장했습니다. 게르만 조어 사용자들은 새로운 동사에 과거 시제에 -ed를 붙여 과거 시제를 만드는 획기적인 방법을 개발했습니다.




접미사를 통해 과거시제를 만드는 방법은 성공적인 발명이었고 급속도로 퍼져나가기 시작했습니다. 단순하고 기억하기 쉬운 접미사는 지지자들을 끌어모었고 동사들이 바뀌기 시작했습니다.  운석 충돌에 비견될만한(그 정도 급작스럽지는 않지만 ) -ed 규칙은 불규칙 동사를 내쫓았습니다. 1000년전에는 내가 당신을 도웠을(hold) 것이다. 그러나 어제는 내가 당신을 도왔다(helped) 입니다. 동사들은 한 번 규칙화되면 불규칙으로 변하지 않았습니다.



영화 300영화 300. 불규칙 동사는 최후에는 멸종하게 될 것인가?



남아있는 불규칙 동사 300개들은 테르모 필라이의 300 스타르타 용사라는 되는 것처럼 결연하게 규칙화 공격을 물리치고 있습니다. 불규칙 동사를 놓고 벌이는 싸움은 2,500년 동안 계속되었고 영어가 사용되는 모든 곳에서 이루어지고 있습니다. 덕분에 우리처럼 영어가 모국어가 아닌 사람들을 괴롭히게 되었습니다.



흥미로운 사실 중 하나는 동사에 반감기가 있다는 사실입니다. 반감기는 과학시간에 한 번 들어봤을 단어입니다. 배운지 오래 되어서 기억이 잘 나지 않아서 설명하면. 어떤 물질속에 있는 원자 가운데 절반으로 붕괴하는데 평균적으로 걸리는 시간을 말합니다. 동사의 반감기는 그것의 빈도의 제곱근과 같았습니다. 예를 들어 drink와 speak와 같이 빈도가 백 번에 한 번 혹은 천 번에 한 번 사이인 동사들은 반감기가 대략 5400년입니다. 이는 탄소14의 반감기와 비슷합니다.(5715년)



불규칙 동사의 반감기를 계산할 수 있다면 미래의 예측도 가능합니다. 계속 반을 줄어들면 언제가는 소멸할테므로. 현재의 추세가 계속된다면 2500년경에는 불규칙 동사 177개 가운데 83개만이 불규칙으로 남아있을 겁니다.



언어에도 생명현상과 같은 자연선택과 멸종 현상이 나타나는게 흥미롭습니다.  참고로 언어와 물질만이 아닌 지식에도 반감기가 있습니다. 이에 대해서는 다음 글을 참고 [ 지식의 반감기 : 세상의 변화에는 규칙성이 있다]



얼마전 국립국어원에서 '너무'의 뜻풀이가 수정되었습니다. 이전에는 '너무'라는 단어가 지나치게 부정적인 의미로 사용되기 때문에 긍정적인 의미를 지닌 단어에 사용할 수 없었습니다. '너무 좋다' '너무 예쁘다'는 말이 틀렸다고 했습니다. 국립국어원이나 국어학자들이 사용하지 말라고 했지만  너무는 부정적인 의미로만 머무르고 있는데 만족하지 못했습니다. 너무가 결국 승리했습니다.



빅데이터로 분석해보면 너무가 긍정적인 의미로 사용된 시점도 알아 볼 수 있을 겁니다. 문제가 있다면, 한국어의 빅테이터가 너무 적어 분석이 어렵다는 점, 상대적으로 맞춤법과 표준어를 잘 지키는 출판물로만 분석해보면 보이기가 쉽지 않을 수 있을 거 같는 거. 하나의 예를 든것이고 빅테이터속 언어의 화석을 추적하다보면 진화와 선택, 멸종과정이 보이겠죠.




20세기 중반에 아기(baby)를 돌보는데 돈 받고 애보는 사람(sitter)을 이용하는 것이 아주 좋은 아이디어로 받아들여졌다. 아기와 돈 받고 애 보는 사람이 이처럼 서로 양립하는 이해를 가지게 된 이후로 둘은 함께 오랜 시간을 보내게 되었고 , 베이비 시터(baby sitter)의 빈도가 지속적으로 늘어났다.


곧이어 사람들은 그들이 일심동체인 것처럼 보기 시작했다. 이 같은 결합을 사람들은 붙임표로 표현했다. 관계가 점점 더 진지해지면서 베이비-시터(baby-sitter)의  빈도는 늘어났고 베이비 시터를 대체하기 시작했다.


마침내 아기와 돈 받고 애 보는 사람은 자신들이 하늘이 맺어준 짝이라는 사실을 알았다. 이들의 결합으로 아이(child)가 탄생했다. (p.103)



엔그램으로 보는 명성.  가장 빠르게 명성을 얻는 방법은?



우리는 명성에 대해서 직관적으로 파악하고 있지만 정의하기가 만만치 않습니다. 명성은 사랑이나 아름다움처럼 정의하기가 어렵고 측정하기가 쉽지 않습니다. 예수가 가수 존 레넌 보다 유명하다는 것을 알고 있듯이 명성의 크기를 재어볼 수 있습닏니다. 명성의 크기는 사람들이 얼마나 이름을 언급하느냐 입니다.



목표가 명성을 얻는 일이라면 빅데이터는 이렇게 말하고 있습니다. 젊었을 때 유명해지고 싶다면 배우가 되어야 합니다. 배우들은 20대말이나 30대 초에 유명해지는 경향이 있으며, 사는 내내 명성을 즐깁니다. 작가들은 30대 후반에 유명해지는 경향이 있는데 위대한 고전을 쓴 유명작가는 배우들보다 휠씬 더 유명해집니다. 노년에 유명해지고 싶다면 정치인이 적절합니다. 정치인들은 40대, 50대 심지어 60대까지도 별로 유명하지 않습니다.



과학자들 역시 명성을 얻는데 시간이 오래 걸립니다. 명성을 얻는뎅는 빅뱅이론을 공부하는 것보다

시트콤 빅뱅이론에 출연하는 편이 낫습니다. 유명해지는데 최악의 일은 바로 수학을 하는수학자들입니다. 카를 프리드리히 가우스는 19세에 모듈러 연산을 고안하고, 이차상반법칙을 증명하고 소수정리를 유추하고, 정수를 삼각수로 분해하는 심오한 해답을 발견했습니다. 이 모든 일을 석달만에 해냈지만 대중은 카를 프리드리히처럼 젊은 수학자가 하는 일에 관심을 보이지 않습니다.



명성을 얻는데 가장 확실한 방법은 무엇일까? 지난 200년 동안 가장 유명한 사람 가운데 10명입니다.


아돌프 히틀러, 카를 마르크스, 지그문트 프로이트, 로널드 레이건, 이오시프 스탈린, 블라디미르 레닌, 드와이트 아이젠하워, 찰스 디킨스, 베니토 무솔리니, 리하르트 바그너



여기에는 대량 학살자가 세명이나 있습니다. 존 레넌을 죽인 마크 데이비트 채프먼은 "관심을 끌려고 그랬습니다. 존 레논의 명성을 조금이라도 훔쳐서 내 것으로 만들고 싶어서 그랬습니다."



엔그램을 통해서 명성을 탐구하는 일에는 흥미로운 점도 많지만 어두운 점도 드러납니다. 사악한 행동이보다 더 효율적으로 명성을 만들어내는 것은 없다는 겁니다. 우리는 명성으로 가는 가장 확실한 길이 사람을 죽이는 일인 세계에 살고 있습니다. 우리는 어려운 사람을 도와준 사람보다 인분교수에 관심을 가지는 것처럼 좋은 뉴스보다는 나쁜 뉴스에  집중하는 경향이 작용할겁니다.




한국어 라이브러리 미약함



구글 북스 라이브러리가 3천만권 책을 디지털화 시켰습니다. 아쉽게도 한국어 검색은 되지 않습니다. 검색하기 위해서는 데이터를 채워넣어야 하는데,  우리는 한글을 사용한지 150년 밖에 되지 않아 디지털화 시킬 수 있는 자료가 많지 않습니다.


그나마 있다면 신문 데이터입니다. 네이버 뉴스 라이브러리 통해서 옛날 신문(동아일보, 경향신문, 매일경제, 한계레,  매일경제) 내용을 검색할 수 있습니다. http://newslibrary.naver.com/



한국고전 종합DB에서는 <조선왕조 실록>, <승정원일기>등의 자료가 디지털화 되어 구축되어 있습니다. http://db.itkc.or.kr/itkcdb/mainIndexIframe.jsp




 빅 데이터를 보는 미래는 놀이터일까? 통제된 감옥이 될까?



사람들은 1년에 1만 5,000통과 함께 5000개의 이메일 첨부 파일을 주고 받습니다. 140가지 좋아요를 투르고 페이스북에 18장의 사진을 올리고 인스타그램에는 두 장을 더 올립니다. 9번의 트윗을 하고 유튜브에 20초짜리 비디오를 올립니다. 이는 단지 온라인에서 공유한 것만을 계산한 것입니다.게다가 아직 세계 인구의 4분의 3은 인터넷에 연결되지 않았습니다.



오늘날 살아있는 사람은 1년에 평균 1테라 바이트보다 약간 적은 데이터를 만들어 냅니다. 과거에는 데이터가 없어서 문제였다면 지금은 데이터가 쏟아져 나옵니다. 앞으로는 자신의 삶이 통재로 기록되는 라이프 로그가 등장할 수도 있습니다.



지금이야 그럴 필요가 있을까 생각하기 쉽지만 어떤 사람들은 자신들의 삶 전체를 기록하기 시작할 겁니다. 우리 대다수는 특별히 신경쓰지 않아도 모든 것이 그대로 기록된다는 사실을 알게 될겁니다.좋은 점은 더 이상 잊어버리지 않을테고 경험했던 모든 일을 다시 들여다 볼 수 있습니다. 모든게 기록되는 사회에서는 범죄에서도 더 안전해질 수 있습니다. 데이터를 쉽게 공유함으로써 나를 알리기도 다른 사람들에게 도움을 받기도 편해질겁니다.



반대로 말하면 무언가를 기록에서 제외하고자 한다면 의도적인 노력이 필요합니다. 누군가 나의 인생기록을 들여다 볼 수 있다면 감옥에 갇힌 죄수나 다를 바 없습니다. 그렇다면 무엇을 기록하고 기록되지 말아야 할 것은 무엇인가? 기록에 접근할 권리를 가진 사람은 누구에게 있는지 물을 수 밖에 없습니다.



우리의 삶이 디지털로 변해갈 수록 그림자도 짖게 드리워져 갑니다. 우리의 역사를 소유할 권리와 그것에 접근할 권리의 충돌. 자유로운 놀이터가 될 수도 감시 국가로의 전환을 앞둘 수도 있습니다. 어쨋든 권력, 정부나 거대기업은 이 블랙박스를 그냥 가만히 두고 싶지 않을겁니다.좋든 싫든 간에 데이터로 인해 우리의 삶과 인식은 재정의 될 것입니다.




아이작 아시모프의 공상과학 소설인 <파운데이션>에서 셀던이라는 수학자은  집단의 미래를 계산해 냅니다. 원자 하나가 어떻게 될지는 모르지만 반으로 붕괴되는게 걸리는 시간을 알 수 있는것처럼 인간 개개인은 무엇을 할지 모르지만 전체로서의 하나는 무었을 할지 계산할 수 있었습니다.  셀던은 수천 년 넘게 지배해 온 제국이 곧 멸망할 것을 계산합니다. 




빅데이터로 하고자 하는 일이 과거의 데이터를 모아 어두침침한 미래를 밝혀보자는데 있으니까 궁극적으로 미래를 예측할 수 있을지도 모릅니다. 제국과 국가의 흥망을 논하지 않더라도 나는 당신이 무엇을 할 지 알고 있다. 거나 '~할 것이다' 고 예측만 할 수 있어도 성공입니다. 물론 이 또한 헛된 공상일지도 모릅니다. 과거의 기술진보로 막역한게 그렸던 장미빛 미래가 그랬듯이.새로운 가능성을 발견했다는 것에 의미가 있을겁니다.

반응형