Các đại công ty công nghệ, các trang web lớn bị phát hiện đánh cắp dữ liệu cá nhân

Một người đàn ông sử dụng máy điện toán xách tay. (Ảnh: Bench Accounting/Unsplash)

Thứ hai, 16/5/2022

bigger smaller

Các nhà nghiên cứu từ Đại học KU Leuven, Đại học Radboud, và Đại học Lausanne đã tiến hành một nghiên cứu (pdf) cho thấy hàng chục ngàn trang web đã thu thập – mà không có sự cho phép – mọi từ ngữ được nhập vào một biểu mẫu trực tuyến, ngay cả khi người dùng rời khỏi trang web mà không gửi thông tin của họ, theo một bài báo trên tạp chí Fortune hôm 12/05.

Các tác giả của nghiên cứu này đã cảnh báo: “Xem xét về quy mô, mức độ xâm phạm, và các tác dụng phụ ngoài ý muốn của nó, vấn đề về quyền riêng tư mà chúng tôi điều tra đáng được các nhà cung cấp trình duyệt, nhà phát triển công cụ bảo mật, và cơ quan bảo vệ dữ liệu quan tâm hơn.”

Nhiều người dùng đã vô tình nghĩ rằng dữ liệu cá nhân của họ được an toàn khi điền địa chỉ thư điện tử của họ trên một trang web, đăng ký tài khoản, mua vé, hoặc đăng ký nhận bản tin.

Theo Fortune, nghiên cứu của các trường đại học trên đã phân tích hơn 100,000 trang web.

Bằng nhu liệu (software), các nhóm nghiên cứu đã tạo các hồ sơ giả mạo bắt chước một người dùng trực tiếp để truy cập hàng ngàn trang web và sau đó điền thông tin đăng nhập hoặc đăng ký mà không nhấp vào nút gửi.

Họ phát hiện ra rằng 1,844 trang web ở Liên minh Âu Châu đã thu thập các địa chỉ thư điện tử cá nhân mà không có sự đồng ý của người dùng, trong khi 2,950 trang web tại Hoa Kỳ cũng làm như vậy.

Theo nghiên cứu này, trong số các trang web có lượng người dùng lớn nhất của Hoa Kỳ nơi mà dữ liệu cá nhân như thư điện tử bị thu thập bằng nhu liệu theo dõi, có USAToday, Time, Fox News, và Trello, trong khi Newsweek, Shopify, và Marriott đứng đầu danh sách của EU.

“Điều đó chắc chắn vượt quá kỳ vọng của chúng tôi rất nhiều,” ông Güneş Acar, một giáo sư và nhà nghiên cứu tại Đại học Radboud, giải thích rằng nhóm của ông ban đầu nghĩ rằng họ sẽ chỉ tìm thấy vài trăm trang web lấy dữ liệu người dùng.

“Dựa trên những phát hiện của chúng tôi, người dùng nên cho rằng thông tin cá nhân mà họ nhập vào các biểu mẫu trên web có thể được thu thập bởi các trình theo dõi – ngay cả khi biểu mẫu đó chưa bao giờ được gửi đi,” các tác giả của nghiên cứu cho biết.

Kết quả cho thấy rằng trong một số trường hợp, các trang web tự thu thập dữ liệu ngay cả trước khi gửi, nhưng hầu hết dữ liệu thu thập được chỉ được thu thập bởi các dịch vụ tiếp thị và quảng cáo của bên thứ ba như Taboola, Bizible, và Glassbox, vốn được tích hợp vào các trang web để kiếm tiền từ nội dung.

Thuật toán được các bên thứ ba sử dụng để thu thập dữ liệu rất giống với thuật toán “keylog”, một kỹ thuật mà các chương trình nhu liệu độc hại sử dụng để ghi lại các lần gõ phím của người dùng, thường để đánh cắp mật khẩu và các thông tin bí mật khác, nhưng hiếm khi thu thập địa chỉ thư điện tử.

Ngoài ra, các nhà nghiên cứu “đã tìm thấy việc thu thập mật khẩu ngẫu nhiên trên 52 trang web bằng tính năng phát lại phiên duyệt trang (session replay script) của bên thứ ba,” vốn cũng đang thu thập dữ liệu mật khẩu trước khi gửi.

Kể từ đó, nhóm nghiên cứu đã thông báo cho các nhà điều hành các trang web khác nhau rằng các vấn đề trong việc thu thập mật khẩu đã được giải quyết.

Trong một cuộc điều tra tiếp nối, họ phát hiện ra rằng Meta và TikTok đã sử dụng công cụ theo dõi tiếp thị vô hình nội bộ để thu thập thông tin cá nhân từ các biểu mẫu web mà không có sự đồng ý.

Các trang web sử dụng phần mềm Pixel của Meta hoặc Pixel của TikTok — cho phép các miền của một trang web theo dõi hoạt động của khách truy cập — sẽ kích hoạt tính năng “tự động kết hợp nâng cao” (“automatic advanced matching”) để cho phép hai đại công ty truyền thông xã hội này lấy dữ liệu từ trang web của một nhà quảng cáo.

Mỗi thư điện tử hoặc phần dữ liệu được nhập một phần vào một trang web bằng phần mềm Pixel, ngay cả sau khi nhấp chuột vào trang khác, sẽ dẫn đến việc Meta hoặc TikTok lấy thông tin cá nhân.

Ông Acar cho biết, “Tài liệu mà chúng tôi đã xem xét cùng với Asuman tuyên bố rằng [Meta] chỉ thu thập dữ liệu này khi người dùng nhấp vào nút Gửi, nhưng chúng tôi đã xem xét mã của họ và họ đang thu thập tất cả các thao tác nhấp chuột vào bất kỳ nút nào, bất kỳ liên kết nào trên trang.”

Giáo sư này phát hiện ra rằng 8,438 trang web của Hoa Kỳ có thể đã bị rò rỉ dữ liệu sang Meta thông qua Pixel, trong khi đối với người dùng ở Liên minh Âu Châu 7,379 trang web đã bị xâm phạm.

Anh Bryan S. Jung là người bản xứ và cư trú tại Thành phố New York với kiến thức chuyên sâu về chính trị và pháp luật. Anh tốt nghiệp Đại học Binghamton.

Thanh Tâm biên dịch
Quý vị tham khảo bản gốc từ The Epoch Times

Xem thêm:

CHUYÊN ĐỀ

Các đại công ty công nghệ, các trang web lớn bị phát hiện đánh cắp dữ liệu cá nhân

Ủy ban Thượng viện thông qua dự luật chống độc quyền đối với Big Tech

Tin nổi bật

Cập nhật giá vàng mới nhất hôm nay

Bệnh bạch hầu: Nguyên nhân và cách nhận biết

VF 5 bắt đầu được bán tại Indonesia, giá quy đổi thấp hơn tại Việt Nam

Thành tâm hướng Phật, được bảo hộ biến nguy thành an

Tại sao người xưa treo ngải cứu và xương bồ trước cửa nhà vào ngày Tết Đoan ngọ?