Robot firmy Anthropic ignoruje zasady dotyczące scrapowania danych przez strony internetowe

cyberfeed.pl 2 miesięcy temu


Robot ClaudeBot, z którego Anthropic korzysta w celu zbierania danych treningowych dla modeli sztucznej inteligencji, takich jak Claude, zaatakował witrynę internetową iFixit prawie milion razy w ciągu 24 godzin, najprawdopodobniej naruszając przy tym warunki korzystania z serwisu firmy zajmującej się naprawami.

„Gdyby któraś z tych próśb uzyskała dostęp do naszych warunków korzystania z usługi, powiedziano by ci, iż korzystanie z naszych treści jest wyraźnie zabronione. Ale nie pytaj mnie, zapytaj Claude’a!” powiedział Dyrektor generalny iFixit Kyle Wiens o Xpublikując obrazy, na których chatbot Anthropic przyznaje, iż treść iFixit jest niedostępna. „Nie tylko bierzesz naszą treść bez płacenia, ale także blokujesz nasze zasoby DevOps. jeżeli chcesz porozmawiać o licencjonowaniu naszej treści do użytku komercyjnego, jesteśmy tutaj”.

Zasady korzystania z serwisu iFixit stwierdza, iż ​​„powielanie, kopiowanie lub dystrybucja” jakichkolwiek treści ze strony internetowej jest „surowo zabronione bez uprzedniej wyraźnej pisemnej zgody” firmy, ze szczególnym uwzględnieniem „szkolenia modelu uczenia maszynowego lub sztucznej inteligencji”. Kiedy Anthropic był zapytany o to przez 404 Mediajednak firma zajmująca się sztuczną inteligencją podała link do strony z FAQ z którego wynika, iż ​​jego robota można zablokować tylko dzięki rozszerzenia pliku robots.txt.

Wiens mówi, iż iFixit od tego czasu dodano rozszerzenie opóźnienia indeksowania do pliku robots.txt. Poprosiliśmy Wiensa i Anthropic o komentarz i zaktualizujemy tę historię, jeżeli otrzymamy odpowiedź.

iFixit nie wydaje się być osamotniony, ponieważ współzałożyciel Read the Docs Eric Holscher i dyrektor generalny Freelancer.com Matt Barrie powiedzieli w wątku Wiensa, iż ​​ich strona również została agresywnie zeskrobana przez crawlera Anthropic. Nie wydaje się to również nowym zachowaniem ClaudeBot, ponieważ kilka miesięcy Wątki Reddita raportowanie dramatyczny wzrost scrapowania sieci przez Anthropic. W kwietniu tego roku, forum internetowe Linux Mint uznało, iż przerwa w działaniu witryny była spowodowana przeciążeniem spowodowanym przez scrapowanie danych przez ClaudeBot.



Source link

Idź do oryginalnego materiału