책리뷰

대량살상 수학무기 : 숫자는 사실만을 말하고 공정할 것입니다

네그나 2019. 3. 28. 14:32

대량 살상 수학 무기 ( 캐시 오닐 Cathy O'Neil) Weapons of Math Destruction

 

뉴스에 이런 댓글이 있었습니다. '빨리 판사도 AI를 도입해야 하는데.' 사법 농단 사건도 그렇고 세상이 돌아가는 모양을 보고 있자면 그리 생각할만합니다. 얼마 전에 억울한 누명을 쓴 사례가 기억이 납니다. 누명을 쓴 피해자는 지적장애 2급을 장애인으로부터 성폭행범으로 지목을 받았습니다.

 

 

누명임이 밝혀지기는 했지만. 가해자로 지목받은 사람에게는 씻을 수 없는 상처를 입은 뒤입니다. 이 사건은 여러 가지를 생각하게 만드는 예인데. 세상 살아가면서 명심해야 할 게 있습니다. '약자는 선하지 않다.' 약자의 주장을 덮어놓고 진실이라고 생각하는 사람들 많습니다. 강자는 악, 약자는 선. ( 보통 진보언론의 논조가 이렇습니다.) 이와 같은 프레임을 가지고 살아가면 현실이 왜곡되어 버립니다. 강자만이 탐욕스럽고 이기적인 게 아니라 약자도 그렇습니다. 약자는 그럴 위치가 아닌 것일 뿐.

 

 

진술만을 토대로 확인도 수사도 제대로 하지 않은 경찰. 버닝 썬 사태로도 알 수 있듯 놀랍지도 않습니다. 클럽 시다 노릇하면서 경찰 코스프레한다고 얼마나 수고가 많으십니까? 가장 황당했던 게 따로 있습니다. 누명을 쓴 억울한 피해자는 최초 6년형을 선고받았고, 진범은 2년 6개월형을 받았습니다. 

 

 

'아니 도대체 기준이 뭔데' 하나의 사건을 가지고 들쑥 날쑥한 형량이 나오는 건가. 납득할 수 없는 판결입니다. 차라리 편견에 휩싸여 있고 오류를 숫하게 범하는 인간들 대신 인공지능에 맡겨버리는 게 더 낫지 않을까? 생각해 볼 만합니다.

 

 

 

 

대량살상 수학 무기. 숫자는 진실하고 공정?

 

빅데이터와 그를 기반으로 한 인공지능 많은 일을 빠르게 처리할 수 있을 뿐만 아니라 공정하고 객관적이라는 믿음을 줍니다. 편견을 가진 인간이 서류를 보고 판단하는 게 아니라 감정이 없는 기계가 객관적인 수치만을 조사한다는 믿음입니다.

 

저자 캐시 오닐은 빅데이터를 기반으로 한 수학 모형은 일부 선한 의도를 가지고 있지만 대다수 모형은 인간의 편견, 오해, 편향성을 코드화 시켰다고 말합니다. 더욱 문제는 이 코드들이 우리 자신들도 모르는 사이에 삶에 침투해 영향을 끼치고 있습니다.

 

수학적인 예측 모형의 유명한 사례가 영화로도 제작된 바 있는 마이클 루이스의 머니볼 <money ball>입니다. 이제 야구는 감에 의존하는 주먹구구식 운영이 아니라 경기 데이터를 철저하게 분석해 데이터를 기반으로 선수를 배치해 승률을 높이는 방식입니다.

 

야구의 머니볼의 대표적인 착한 모형입니다. 야구 모형은 공정합니다. 누구나 야구 통계 자료를 볼 수 있고, 그 자료가 어떻게 해석되는지 어렵지 않게 이해될 수 있습니다. 해석에 따라 홈런타자에게 더 높은 가치를 부여하는 모형이 있고, 거포들이 삼진을 당할 확률이 높다는 이유로 가치를 낮게 잡는 모형도 있습니다. 야구 모형의 가장 중요한 점은 모형과 실제 경기 결과와 비교해 어디가 어떻게 잘못되었는지 확인할 수 있습니다. 피드백을 통한 끊임없이 업데이트로 모형을 현실에 맞게 수정합니다.

 

 

 

 

 

 

반면에 수학을 비롯한 알고리즘은 여러 가지로 신과 닮았습니다. 신처럼 불투명합니다. 각 영역의 최고의 사제들이 수학자와 컴퓨터 과학자들을 제외하고 내부의 작동방식을 보여주지 않습니다. 그리고 신의 평결처럼 잘못되거나 유해한 판결을 내릴지라도 반박하거나 수정해 달라고 요구할 수 없습니다. 무엇보다 약자와 가난한 사람들을 차별하고 부자를 더 부유하게 만드는 방향으로 움직입니다. 해악이 크기 때문에 저자는 대량살상 수학 무기로 부릅니다.

 

 

 

알고리즘은 대표적인 영업비밀자료입니다. 검색엔진 기업에게는 특히 그렇습니다. 블로그를 하는 사람이라면 알겠지만 검색엔진 첫 페이지, 최상단에게 올라갈 경우 그 혜택이 정말 어마어마합니다. 인터넷에서 트래픽은 수익으로 전환시킬 수 있고 다시 말해 돈이 됩니다. 그래서 기를 쓰고 네이버, 구글에서 점수를 따 올라가려고 합니다. 검색엔진 최적화 기법을 통해서 웹이 영양가 없는 자료들로 이유 중 하나입니다.

 

 

반대로 검색엔진 결과에서 뒤로 밀려났다면 그 이유를 도통 알 수 없습니다. 검색엔진 기업은 후순위로 밀려난 이유를 절대로 알려주지 않습니다. 채점 검증이 불가능한 시험문제로 그저 추측만 해야 합니다. '내 글이 오래되었나? 새로운 자료가 더 좋을까? 블로그에 광고가 많았나?' 사용자는 그저 판결을 받아들여야 합니다.  억울하게 성폭행범으로 지목된 사람처럼 악의적으로 분류되어 피해를 입을 수도 있습니다.

 

 

 

 

 

 

이것은 블로그나 웹의 경우일 뿐입니다. 검색 결과에 몸을 담고 있는 기업과 사람이 아니라면 이런 것 따위 아무래도 좋잖아? 정말 이런 사례들이 웹에서만 일까요? 어떤 분야에서 하나의 방식이 성공적이라고 평가를 받으면 다른 분야로 멀리멀리  퍼져 나갑니다. 한 분야에서 성공의 맛을 못 빅데이터를 통한 수학 모형과 알고리즘은 우리 삶에 직접적인 영향을 끼치는 분야로 뻗어 나갑니다.

 

 

입사지원을 할 때 당신이 어떤 사람인지 분류할 것이고, 은행 대출을 받을 때 자격이 있는지 없는지,  근무평가를 할 때 당신이 승진을 할지 말지, 재판을 받을 때 당신이 유죄 일지 아닐지가 결정됩니다. 지금은 아니더라도 앞으로는 이렇게 바뀔 가능성이 큽니다. 야구와 달리 검증을 하기도 어렵고 내부가 어떻게 돌아가는지도 모릅니다.

 

 

편견에 휩싸인 인간과 진실만을 말하지 않는 숫자 사이에서

 

 

우리는 나름대로의 예측 모형을 가지고 있습니다. 예를 들어 '고학력자는 신용할 수 있다.' '고학력자는 인성이 좋다.' 한 인터넷 강사의 에피소드가 떠오르네요. 한 때, 당구장을 운영하는 그 강사는 학생이 돈이 없어 외상을 하려고 했습니다. 너를 어떠게 믿니? 하니 옆에 있던 친구가 ' 이 친구는 공부를 잘해요. 믿어요 돼요' 엄밀하게 말하면 학력 수준과 신용은 상관없습니다. 지지하는 이념에 따라서 신용도가 달라질까요? 진보가 보수보다 더 믿을 수 있다던가? 그 반대일까요?

 

책에서도, 빅데이터 모델에서 저신용자는 입사와 신용대출에서 불이익을 받습니다. 이는 악순환으로 이어집니다.  신용이 떨어져서 구직기회를 찾기 어렵고 경제적으로 열악한 상황에 놓이게 됩니다. 한편으로는 기업주 입장에서는 이해가 가기도 합니다. 채용하는 사람의 신용도와 업무능력에는 상관이 없음을 받아들이기 어렵습니다. 한 사람을 어떻게 해서든 평가를 해야 하는데. 평가 가능한 데이터를 보려고 하겠죠. 한 가지 알게 된 건. 저자에 따르면 데이터가 많으면 많을수록 좋다는 사고를 버려야 한다는군요.

 

자고 일어나면 보게 되는 인공지능과 빅데이터 단어.  통계는 거짓말을 하지 않는다. 고 하지만 네. 거짓말을 하기도 합니다. 그걸 이용하는 사람에 의해서요. 빅데이터와 앞으로 더 많이 등장하게 될 인공지능 기술 역시 이용하는 인간에 의해서 편향성 논란이 일어날 겁니다. 일어나는 건 다행입니다. 아예 우리가 모르고 지나가는 분야도 있을 테니까.

 

 

 

 

사람은 여전히 믿음직스럽지 못합니다. 우수한 근무평가에 받았음에도 정치적인 결정으로 인해서 불이익을 받는 일이 얼마나 많습니까?  ( 넌 막내니까 조금 참아라, 여자니까 등등 ) 납득이 가지 않는 들쭉날쭉한 판결을 하는 판사도 그렇고요. 그렇다고 해서 숫자가 공정하냐. 그것도 아니니까요. 인간도 이해하기 어려운 공정이란 개념을 기술이 이해할 수 있을 거 같지 않습니다.

 

 

대량살상 무기 이 책은 숫자는 거짓말을 하지 않는다. 사고를 깨듯이 알고리즘은 진실을 말한다는 통념을 깨 주는 책입니다. 기술 만능 주의에 일침을 가하는 좋은 책이지만.  이런 책이 다 그렇듯 편견을 가진 인간과 공정을 이해하지 못하는 알고리즘 사이에서 우리가 어떻게 해야 할지 여전히 모르겠습니다.

 

 

 

 

 

반응형