- Kebingungan terlihat mengabaikan sinyal seperti robot.txt untuk mengikis situs online
- Bahkan ditemukan situs uji terlindungi dan tersembunyi dari cloudflare
- Openai menganut merangkak yang bertanggung jawab, tetapi kebingungan tenang untuk saat ini
Cloudflare telah menuduh raksasa AI mempercantik situs web yang mengikis yang secara eksplisit melarang merangkak melalui robot.txt dan aturan tingkat jaringan lainnya dengan menyembunyikan identitasnya dan melakukan aktivitas merangkak yang dikaburkan.
Para peneliti dari perusahaan mengatakan mereka mengamati kebingungan menggunakan beberapa agen pengguna, termasuk satu google chrome pada macOS, serta memutar alamat IP dan ASNS untuk menghindari deteksi.
Yang mengkhawatirkan, Cloudflare mendeteksi jutaan permintaan harian di seluruh puluhan ribu domain, menyoroti skala gesekan yang tidak sah oleh salah satu perusahaan terbesar di ruang angkasa.
Kebingungan sedang menggores situs yang seharusnya tidak
Menurut analisis CloudFlare, dalam banyak kasus, kebingungan mengabaikan atau tidak mengambil file robots.txt – yang merupakan file teks sederhana yang ditempatkan pada akar situs untuk memberi tahu agen otomatis (seperti mesin pencari, crawler AI dan tautan pemeriksa) URL yang mungkin atau mungkin tidak diambil.
Yang mengejutkan, kebingungan juga berusaha mengakses situs web uji yang dibuat Cloudflare, meskipun mereka diblokir melalui robot.txt dan tidak dapat ditemukan secara publik, sambil menggunakan crawler yang tidak dideklarasikan yang bahkan tidak terkait dengan rentang IP resminya.
“Meskipun kebingungan awalnya merangkak dari agen pengguna yang dinyatakan, ketika mereka disajikan dengan blok jaringan, mereka tampaknya mengaburkan identitas merangkak mereka dalam upaya untuk menghindari preferensi situs web,” tulis para peneliti.
Menanggapi temuannya, Cloudflare telah tidak masuk daftar bot dari daftar bot yang diverifikasi. Perusahaan juga telah menambahkan heuristik aturan terkelola baru untuk mendeteksi dan memblokir siluman merangkak.
Sebaliknya, crawler Openai sejauh ini telah menghormati robot.txt dan blok halaman, menggunakan pengidentifikasi transparan dan perilaku terdokumentasi untuk mendapatkan informasi.
Kebingungan membantah melakukan kesalahan, menyebut postingan Cloudflare sebagai “promosi penjualan”, menambahkan bot yang diidentifikasi bahkan bukan milik mereka. Techradar Pro telah meminta komentarnya.
Cloudflare mendesak operator bot untuk menghormati preferensi situs web dengan menjadi transparan, menjadi netizen yang berperilaku baik, melayani tujuan yang jelas, menggunakan bot terpisah untuk kegiatan terpisah dan aturan dan sinyal berikut seperti robot.txt.