본문 바로가기
마케팅

웹 크롤링(Web Crawling/Scraping)은 과연 합법일까?

by 찌노오 2022. 6. 12.

1. 웹 크롤링(Web Crawling)

웹크롤링은 무엇인가?

 웹 크롤러(web crawler)는 하나 이상의 웹사이트의 일부 또는 전체를 자동으로 정보를 수집하는 프로그램으로 정의할 수 있다. 웹 스파이더(web spider), 자동 인덱서(automatic indexer) 등으로 불리기도 한다.

 웹 크롤링(web crawling)이란 이러한 프로그램을 통해 이루어지는 작업을 의미한다.

웹 크롤러가 하는 작업을 '웹 크롤링'(web crawling) 혹은 '스파이더링'(spidering)이라 부른다. 검색 엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링한다. 웹 크롤러는 대체로 방문한 사이트의 모든 페이지의 복사본을 생성하는 데 사용되며, 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해 인덱싱한다. 또한 크롤러는 링크 체크나 HTML 코드 검증과 같은 웹 사이트의 자동 유지 관리 작업을 위해 사용되기도 하며, 자동 이메일 수집과 같은 웹 페이지의 특정 형태의 정보를 수집하는 데도 사용된다.
-위키백과

 

2. 웹크롤링은 불법인가?

크롤링 행위와 이용에 관한 정의

  • 크롤링 행위에 대한 어떠한 법률 근거가 없음
  • 크롤링의 법적리스크는 행위 자체의 문제가 아닌 크롤링의 방식과 이용에 초점을 맞춰야함

웹크롤링의 Robots.TXT

  • 로봇 배제 프로토콜은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약
  • 법적 제약이 없음
"웹크롤링 행위 자체는 불법이 될 수 없다."

 

그런데 왜 뉴스에서는 크게 다뤄지는가?

크롤링 행위 자체가 범죄가 아님에도 자극적인 기사가 양산됨, 해당 분야의 전문 법무법인이 자주 언급된다.

“그러나 데이터의 가치가 높아진 지금도 ‘크롤링은 범죄’라는 인식이 부족한 상황이다.”

[로펌의기술]㉞ “여기어때 크롤링은 DB권 침해”…최고 손배액 10억원 받아 낸 법무법인 민후 - 김종용 기자 2021.09.29

 

문제가 되는 크롤링은?

  1. 수집한 데이터의 상업적 이용
  2. 크롤링 과정에서 해당 서버의 문제 야기
  3. 수집한 데이터가 사용자의 민감한 정보인지
  4. 사이트의 이용방침, 의사(ex. robots.txt, 이용목적)을 위반하지 않는지

 

3. 대표적인 국내 사례

잡코리아 - 사람인

서울중앙지방법원 2016. 2. 17. 선고 2015가합517982 판결 [저작권침해금지 등 청구의 소]
서울고등법원 2017. 4. 6. 선고 2016나2019365 판결 [저작권침해금지 등 청구의 소]

1심

원고 - 잡코리아 / 피고 -사람인

(주)사람인의 웹사이트에 잡코리아의 채용 정보를 크롤링하여 기재한 사건

 

주문 요약

  • 피고의 웹사이트에 저장, 게시된 잡코리아 HTML 소스 폐기
  • 원고와 피고 사이의 조정조서 5항에 관해서만 집행문 부여
  • 소송비용 중 1/3은 원고, 나머지는 피고가 각 부담

1) 법원의 조정결정 부작위의무에 대한 판단

  • 배경: 이미 2011, 2013년 관련 내용으로 양사가 법원의 조정을 받은 적이 있음
  • 판단: 세부 내용, 오타까지 일치해 직접 입력하였다고 인정하기 어렵고, 조정결정의 1항은 예외는 엄격하게 해석되어야함으로 부작위의무를 위반했다고 봄이 상당함

2) 저작권 침해 주장에 대한 판단

  • 원고 주장: HTML 소스는 편집저작물로서 이를 크롤링하여 일부 변경하여 피고 웹사이트에 게재하는 것은 전송권, 복제권, 2차적 저작물작성권을 침해하는 행위임
  • 판단: 채용정보를 화면에 표시하기 위한 문법은 별도의 프로그래밍요소가 포함되어 있지 않고, 일반적인 채용정보 사이트의 구성과 내용이 유사하여 원고의 HTML소스에 창작성이 있다고 인정하기 어려움

3) 부정경쟁행위 해당 여부에 대한 판단

  • 원고 주장: 마케팅,개발 비용, 시간을 들여 축척한 HTML 소스를 피고가 무단 복제 및 게제하여 피고는 비용절감, 수수료 등의 상당의 이익을 취했다. 이는 부정경쟁방지법에 정한 부정경쟁행위에 해당한다.
  • 판단: HTML 소스에 대한 노력과 비용 인정, 피고가 적법한 크롤링 방법인 아닌 VPN 등을 통한 우회 접속을 한 점, 피고와 원고가 동종의 영업을 하는 점 등을 비춰 볼때 부정경쟁방지법 제2조 제1호 차.목의 부정경쟁행위에 해당함(*현재 카.목으로 변경됨) (다만, 원고의 손해액을 인정할 근거가 없어 손해을 인정하지 않았음)

 

2심

주문 요약

  • 피고는 원고에 2억5천여만원 지급
  • 원고는 피고에게 2억원 범위에서 집행문 부여
  • 소송 총비용 1/2은 원고가, 나머지는 피고가 각 부담

 1) 데이터베이스 제작자의 권리 침해 주장에 관한 판단배경

  • 원고는 저작권법 제4장 데이터베이스제작자의 보호 관련 법규로 항소
  • 원고 주장: 원고 웹사이트는 저작권법에 따른 데이터베이스이며, 원고는 데이터베이스 제작자의 권리를 가진다.
  • 판단: 원고의 웹사이트는 채용정보의 체계적인 배열, 이용자가 각 분류별로 원하는 기준에 모아서 열람하거나 검색할 수 있도록 한 사실을 인정하여 데이터베이스에 해당 / 원고 또한 해당 데이터베이스를 제작하기 위해 인적, 물적 상당한 투자가 인정되어 데이터베이스 제작자에 해당(이를 통해 원고의 마케팅 비용과 당기순이익을 근거로 손해를 인정함)



 

야놀자-여기어때 (항소심 진행 중)

서울중앙지법 2021. 8. 19. 선고 2018가합508729 판결

1심

원고 - 야놀자 / 피고 -여기어때

사건 - 야놀자의 제휴 숙박업소, 목록, 주소, 정보, 가격 정보 등을 API를 통해 크롤링하여 여기어때 서비스에 무단으로 복제한 사건

 

주문 요약

  • 피고는 원고에게 10억원 지급
  • 원고의 나머지 청구 기각
  • 소송비용 중 40% 은 원고, 나머지는 피고가 각 부담

 1) 성과 도용 부정경쟁행위에 관한 판단

배경: 수기로 야놀자의 숙박정보를 수집하고 있던 여기어때 직원이 크롤링을 통해 대량/자동으로 야놀자의 숙박정보를 수집, 이를 영업에 활용한 사건

피고 주장: 크롤링은 인정하나 해당 숙박정보는 공개된 정보이며, 가치로 따지면 한국콘텐츠미디어에서 발간한 DB가격(17만 4천원)에 불과하여 원고의 성과라고 볼 수 없다. 또한 프로그램의 역할이 1명이 수작업으로 충분히 할 수 있는 일을 간편하게 한 것에 불과하기 때문에 부당이득이 없었다.

판단: 서버를 옮겨 크롤링을 한 점, 원고의 서버의 본래 이용목적과 다른 기능을 강제로 수행 한점, 취득한 데이터를 통해 영업 전략을 수립/시행하는데 사용한 점을 근거로 피고의 주장을 받아들이지 않음 이 사건 제휴 숙박업소 정보에 포함되어 있는 개별 정보들 각각을 정상적인 애플리케이션 이용을 통해 알 수 있거나 제휴 숙박업소와의 개별 접촉 등을 통해 확인할 가능성도 있다고 하더라도 방대한 정보를 모아서 체계적으로 분류하고 정리한 내용까지 공개된 것이라거나 누구나 자유롭게 이용할 수 있는 이른바 공공영역에 속한 것이라고 볼 수는 없다.

‘야놀자 크롤링 프로그램’을 개발ㆍ이용하여 이 사건 제휴 숙박업소 정보를 수집하고 이를 피고의 영업을 위하여 사용함으로써 원고의 성과인 이 사건 제휴 숙박업소 정보를 공정한 상거래 관행이나 경쟁질서에 반하는 방법으로 피고의 영업을 위하여 무단으로 사용한 것이고, 그 결과 원고의 경제적 이익을 침해하였다고 봄이 타당하다.

 

 

 

 

반응형

'마케팅' 카테고리의 다른 글

바이럴 마케팅의 효과는 어떻게 측정할까?  (0) 2022.06.12

댓글