본문 바로가기

도서관

웹2.0을 이용한 집단 데이터노가다

사용자 삽입 이미지

최근 미국 의회도서관은 플러커 사이트에 많은 양의 사진을 올려서 사람들이 메타데이터(태그)를 입력하도록 하는 파일럿 프로젝트를 시작했다. 도서관에서 하는 중요한 업무 중에 하나가 도서의 저자와 서명 등등의 메타데이터를 작성하는 목록이다. 요즘에는 종합목록이라는 것이 있어서 어느 기관에서 먼저 작성하면 그걸 자관에 맞게 수정해서 사용하는 경우나 상업용으로 작성된 걸 사용하는 경우가 많다.  하지만 사진같은 자료는 보는 사람에 따라 메타데이터의 내용이 달라질 뿐더라 양도 많아서 일일이 메타데이터를 작성하는 것은 정말 데이터 노가다와 다름없다.
그래서, 생각해낸 것이 집단지성, 집단노가다를 활용하는 웹2.0 방식이다. 도서관은 플러커에 저작권이 소멸된 사진을 올려둔다. 그러면, 엄청난 플러커의 이용자들이 사진을 보고 태그를 달기 시작한다. 그러면 자연히 사진들의 메타데이터가 작성되는 것이다. 결국 태그로 인해서 전에는 찾기 힘들었던 다양한 사진들이 검색을 통해서 발견될 수 있는 놀라운 결과를 만들어 낸다. 도서관과 이용자가 윈윈할 수 있는 멋진 아이디어다.

사용자 삽입 이미지
이와 비슷한 것이 구글의 Image Labeler라는 게임을 활용한 메타데이터 수집이다. 구글이 전세계 웹사이트에서 긁어와서 인덱싱하는 것은 텍스트와 이미지들이다. 텍스트는 나중에 검색하는데 문제가 없지만 이미지는 내용을 기술한 메타데이터가 없다면  검색 효율이 현저히 떨어지는 것이 당연하다. 그래서 생각해낸 것이 놀이를 통한 메타데이터 입력이다. 이 게임은 두사람이 참여해서 하게 되는데 하나의 이미지를 보여주고 각각이  생각나는 단어를 입력하게 된다.  가장 구체적이나 많이 입력한 사람이 더 높은 점수를 얻게 된다.  경쟁심리를 부추켜서 게임에 몰두하게 만든다. 이미 여러번의 게임을 통해서 공통적으로 나온 단어들은 금지어로 들어가 있어 다름 다양한 동의어나 구체적인 태그를 유도한다. 이를 통해 수집된 메타데이터는 검색효율을 높이는데 사용될 것이다.

사용자 삽입 이미지
최근들어 사이트의 회원가입을 하게 되면 마지막에 뒤틀린 문자를 보고 입력하는 과정이 있다. 이것을 CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart)라고 한다. 이것은 스팸머들이 로봇을 통해서 스팸용 아이디를 양산하는 것을 막기 위해서 고안한 것이다. 아직까지 컴퓨터나 기계가 이미지를 인식하는 것이 떨어지는 점을 노린 것이다. 결국 뒤틀려도 그걸 보고 유추할 수 있는 사람만이 가입할 수 있도록 만든 것이다. 아무리 기계가 성능이 좋아도 인간만이 할 수 있는 분야가 아직 남아있다는 것이 위안인지 모르겠다. 카네기멜론 대학에서는 고서를 스캔해서 디지털화작업을 하는데 워낙 오래된 책이라 OCR로인식이 안되는 인쇄가 흐릿하거나 뒤틀린 곳은 인간이 해결해야 된다고 한다. 그래서 이런 부분들만 모아 여러 사이트들에 보내 CAPCHA로 활용한다고 한다. 그리고, 사람들이 가입할 때나 인증할 때 그런 부분의 글씨를 유추해서 입력하게 되면 나중에 공통된 것이 모아지면 고서를 복원하는데 도움이 된다고 한다.

태안사태도 마찬가지다. 기계나 장비가 할 수 없는 부분을 인간들이 나서서 해결하고 있다. 인간이라서 할 수 있는 일이 있다는 것이 아직까지는 다행인지 불행인지 모르겠다. 하지만 웹2.0의 참여, 공유, 개방을 통한 협업이 비록 노가다일지라도 사회적으로 문화적으로 가치를 만들어내고 있는 건 사실이다.