생각나누기

구글 블로그스팟에서 챗GPT봇 차단하는 방법. 인공지능 학습은 돈 싸움이다.💸

네그나 2023. 12. 31. 14:49

구글 블로그스폿(blogspot)만이 아니라 공통된 방법입니다. 오픈 AI를 챗GPT 봇을 차단하는 방법은 robots.txt에  다음과 같이 추가해 주면 됩니다.

User-agent: GPTBot
Disallow: /

 

블로그스폿에서 차단하는 방법.

구글의 블로그 서비스인 블로그스폿에서 차단하는 방법은 아주 쉽습니다. 블로그 소유주가 robot.txt 편집할 수 있기 때문입니다.

 

블로그스폿. 설정을 클릭합니다.

 

크롤러 및 색인성생 메뉴에서 맞춤 robots.txt 사용설정을 하고. 맞춤 robots.txt를 클릭합니다.

 

위의 문구를 그대로 입력하면 됩니다.

User-agent: GPTBot
Disallow: /

 

티스토리의 경우에는 robots.txt를 수정할 수 없습니다. 그리고 티스토리를 공지를 통해서 아예. 기계학습에 사용할 거라고 밝혔습니다. 아래에서 말하겠지만 이것도 문제라고 보는데요.

 

 

 

 

 


 

AI 학습봇을 차단하는 이유.

 

저는 챗GPT는 사용을 해보지 않았고 빙챗만 써봤습니다. 아니지. 코파일럿이라고 불러야 하지요. 네이밍 센스는 별로인 거 같은데. 챗봇에게 질문을 해보면 바로 알 수 있습니다. 무언가 궁금해서 질문을 하면 네. 답변을 간단하게 요약을 해줍니다. 학습되지 않은 내용은 웹을 검색해서 요약 알려주기도 합니다. 여기서 뭐가 문제일까요?

 

챗봇을 이용하면 사용자가 직접 방문을 해야 할 필요가 없습니다. 궁금한 내용을 답을 통해서 알았다면 거기서 끝이 나버립니다. 여태껏 많은 사이트나 블로그가 검색을 통하든 직접 입력을 하든, 직접 온다는 전에 하에 만들어졌습니다. 그로 인해 비즈니스 모델이 만들어졌습니다. 콘텐츠는 공짜로 제공을 하고, 대신 광고를 달아서 수익을 올린다는 전략.

 

AI봇에게 물으면 답이 다 나와버리니까. 방문할 이유가 없습니다. 여태껏 유지해 왔던 전략이 무너지게 되어 버립니다. 비슷한 뉴스가 나오더군요. 인공지능 봇이 나와서 득세를 해버리면,  콘텐츠 제공 생태계가 무너질 수 있다면서요. 질문을 해보면, 빙챗은 요약을 한 다음에 티스토리나 네이버 블로그 등의 출처를 표기시켜 주기도 합니다. 출처가 표기되면 블로그 소유주에게 이득이 아닌가? 글쎄요.

 

저만 해도요. 직접 출처까지 들어가 본 적 없습니다. 질문에 대한 답이 다 나왔으니까 더 이상 볼일이 없습니다. 긴 글 읽기 싫다고 세 줄 요약하고 짤방 만드는 시대입니다. 친절하게 떠 먹여 주니. 직접 방문을 할 이유가 없습니다. 답이 안 나오면? 질문을 더하지. 직접 보러 들어가지 않습니다.

 

현재 인공지능봇 모델에서는요. 콘텐츠 제공자는 아무런 이득이 없습니다. 이득을 보는 건 오픈 AI나 마이크로소프트 정도. 굳이 따지고 보면 마소 주주인 저에게는 이득이기는 한데, 블로그 운영 소유주 입장에서는 실익이 없습니다. 그래서 차단을 시켰습니다.

 

AI이미지. 많은 자료를 학습하는 인공지능 로봇, 지식에 통달하는 느낌
AI 이미지 빙 이미지 크리에이터.

 

 

인공지능 학습에는 대가를 지불해야 한다.

 

얼마 전 뉴스기사에 흥미로운 기사가 실렸습니다. 애플이 AI개발에 언론사와 뉴스를 이용하는데 650억 원을 제안했다는 내용입니다.  뉴욕타임스는 마이크로소프트와 오픈 AI를 상대로 소송을 걸었습니다. 인공지능 학습에 무단으로 사용을 했다는 게 그 이유입니다.

 

아직, 결론이 나오지는 않았지만 추세가 재미있게 돌아가고 있습니다. 대규모 기계학습에 인터넷에 있는 방대한 자료를 이용하면 될 거 같지만, 상업적인 이용에는 용인될 수 없는 분위기가 만들어지고 있습니다. 인공지능 학습은 공짜 점심이 아니며, 과외 선생님에게 돈을 지불해야 합니다. 정확하게 표현을 하자면, 지불하는 분위기로 가고 있습니다.

 

학습에 대한 대가를 지불은 여러 가지를 생각해 보게 만듭니다. 국내 언론사들은 해외 사례를 보면서 인공지능 학습료를 기대를 하는 분위기인 거 같습니다. 기사 논조를 보면 말이죠. 가만히 생각을 해보면, 뉴스 기사도 복제를 하는 경우가 많습니다. 사람들이 올린 블로그 글, 개인 유튜브 영상, 커뮤니티의 글, 트위터(X라는 단어는 참 입에 안 붙네) 한 마디, 인스터그램의 사진. 공익이라면서 대가를 제대로 지불하지 않습니다. 언론사가 저작권료를 지불했다는 선진적인 사례는 들어보지 못했습니다.

 

뉴스 기사에 대한 학습료가 지급이 된다면 언론사에 제공된 ( 자신들이 직접 만들지 않은 사진과 글)  자료 역시 더 이상 공익 목적이 아니게 됩니다. 상업적인 이용이죠. 관련 콘텐츠에 대가를 지불하거나 학습에 대해서 배제를 시켜야 합니다.

 

현재 분위기를 보면, 카카오가 얼마나 양아치 같은 짓을 하고 있는지 알 수 있습니다. 약관 하나 고치고 나서 티스토리 자료 기계학습에 쓸 거야. 이러는 거 보면요. 많은 노력이 들어가는 창작품은 티스토리에 올리지 말아야 한다고 봅니다.

 

신뢰할 수 있는 원본 자료만 학습에 이용할 수 있다면

 

저는 블로그스폿에서 챗GPT 봇을 차단시켰습니다. 그래서 한 가지 문제를 생각을 해볼 수 있습니다. 챗GPT봇을 허용한 사이트나 블로그나 나의 글과 사진을 무단으로 복제를 했다면? 그걸 학습에 사용을  했다면 어떻게 할 것인가? 나는 분명히 거부를 했는데 말이죠. 나의 블로그에 있는 자료가 얼마나 가치가 있는지에 대한 건 떠나서요.

 

조금 더 생각을 해보면, AI에 아무 자료나 쑤셔 넣어서 함부로 학습에 사용할 수 없다는 결론이 나오게 됩니다. 출처가 어디인지 원본이 어떤지 생각하지도 않고, 아무 자료나 입력시킬 수 없게 됩니다. 그렇다면 신뢰할 수 있는 믿을 수 있는 자료에 선택해야 합니다. 그것은 돈이 들어가는 일이 됩니다. 인공지능 학습에 하드웨어 구축에도 상당한 돈이 들어 간다고 하는데요. 학습자료를 구매하는 비용도 만만치 않게 들어갈 수 있게 됩니다.

 

인공지능 학습에는 거대한 돈이 들어가는 산업이 될 겁니다. 그 자체로 진입장벽이 되고, 이는 빅테크 같이 기술, 자본이 충분한 기업들에게 유리한 구조가 될 수도 있을 거 같습니다.

반응형