Chuyên gia Semalt cho biết cách thức quét dữ liệu web đã được hợp pháp hóa với phán quyết của tòa án

Mặc dù có thể là bất hợp pháp để cạo dữ liệu từ các trang web mà không có sự cho phép rõ ràng của chủ sở hữu trang web, một thẩm phán gần đây đã phán quyết khác trong một số trường hợp. hiQ Labs gần đây đã đệ đơn kiện LinkedIn vì đã ngăn họ trích xuất dữ liệu từ các trang LinkedIn.

Nó đến như một cú sốc thô lỗ đối với hầu hết mọi người rằng LinkedIn được cho phép người khởi nghiệp truy cập miễn phí vào các trang web của mình. hiQ đã sử dụng thuật toán của mình để phát hiện khi người dùng LinkedIn đang tìm kiếm một công việc dựa trên những thay đổi mà người dùng thực hiện đối với hồ sơ công khai của anh ấy / cô ấy.

Các thuật toán chạy trên dữ liệu trích xuất từ các trang web LinkedIn. Đúng như dự đoán, LinkedIn đã không thích điều đó và các biện pháp đối phó đã được đưa ra để ngăn hiQ tiếp tục trích xuất dữ liệu. Ngoài các rào cản kỹ thuật được đưa ra, các cảnh báo pháp lý mạnh mẽ cũng được ban hành.

Các startup không có lựa chọn nào khác ngoài việc đưa vấn đề lên một cách hợp pháp. hiQ đã phải tìm kiếm sự sửa chữa hợp pháp. Công ty muốn LinkedIn ra lệnh gỡ bỏ các rào cản kỹ thuật. hiQ cũng muốn quá trình trích xuất dữ liệu của mình trên LinkedIn được hợp pháp hóa.

May mắn cho các startup, nó đã có được những gì nó muốn. Phán quyết có lợi cho hiQ. LinkedIn đã được lệnh loại bỏ tất cả các biện pháp đối phó cản trở hiQ khỏi việc cạo các trang web (LinkedIn) của mình và cũng trao tay miễn phí cho hiQ vì hành động này là hoàn toàn hợp pháp. Thẩm phán đã đưa ra phán quyết của mình về thực tế rằng những gì hiQ muốn cạo là dữ liệu đã được hiển thị cho công chúng xem.

Thẩm phán không chỉ ra lệnh cho bị cáo loại bỏ tất cả các cơ chế phòng ngừa được đưa ra để chống lại hiQ, mà ông ta còn ra lệnh rằng bị cáo nên từ bỏ các hành vi đó trong tương lai.

Thúc đẩy dữ liệu web mở

Trong khi phán quyết vẫn chỉ là một lệnh tạm thời, thật ấm lòng khi biết rằng luật hỗ trợ dữ liệu web mở và truy cập miễn phí thông tin trên Internet vì phán quyết này xác nhận điều đó. Ngay cả khi quyết định cuối cùng có lợi cho bị đơn, thì thực tế này đã được thiết lập.

Thẩm phán đã thúc đẩy chính sách này bằng cách tắt hầu như tất cả các lập luận của LinkedIn. Trong khi LinkedIn cố gắng chứng minh rằng nguyên đơn vi phạm quyền riêng tư của mình, thẩm phán đã phản bác lại với thực tế là bị đơn cũng đang bán dữ liệu.

Khi tranh luận không giữ được nước, bị cáo cũng tuyên bố rằng hành vi của hiQ là vi phạm thô bạo Đạo luật Lừa đảo và Lạm dụng Máy tính (CFAA) vì startup đã truy cập máy chủ của họ để thu thập dữ liệu bất hợp pháp. Một lần nữa, cuộc tranh cãi đã bị đâm thủng. Nó đã bị từ chối rằng hiQ chỉ quét nội dung trên các trang công khai, không được bảo vệ.

Thẩm phán đã tương tự trường hợp như một người nào đó bước vào một cửa hàng mở trong giờ làm việc. Một người như vậy không thể nói là xâm phạm. Vì vậy, hiQ đã không xâm phạm. Thật thú vị, thẩm phán đã đi xa hơn để giải thích lý do tại sao phán quyết của ông là vì lợi ích công cộng.

Tóm lại, tòa án chấp nhận rằng lợi ích chung là cho phép dữ liệu được thu thập, trích xuất và phân tích. Vì vậy, nó sẽ là một chính sách bất lợi để khuyến khích đặt các rào cản đối với luồng thông tin tự do.

Bạn nên học gì từ phán quyết

Mặc dù bạn có thể không có lý do để trích xuất dữ liệu trực tiếp từ LinkedIn, bạn nên học hỏi từ phán quyết. Tốt hơn là chơi an toàn bằng cách đọc và tôn trọng tệp robot.txt của tất cả các trang web. Hãy nhớ rằng, phán quyết vẫn là một lệnh tạm thời. Cuối cùng nó có thể có lợi cho LinkedIn.

Mặc dù phán quyết có thể không ảnh hưởng trực tiếp đến bạn, nhưng thật đáng buồn khi một tòa án liên bang tán thành chính sách giữ cho trang web mở cho công chúng. Vì vậy, thông tin nên có sẵn và có thể truy cập được cho những người có thể tìm kiếm và sử dụng nó tốt.

Dữ liệu web cực kỳ hữu ích cho mọi người, đặc biệt là các nhà phân tích truyền thông, nhà phát triển, nhà khoa học dữ liệu và một số chuyên gia khác. Như vậy, phán quyết là một sự phát triển đáng hoan nghênh.