A Wikipedia az AI fejlesztőknek egy edzési adatkészletet kínál, hogy esetleg letakarja a kaparó robotokat

Mária Zentai2 days agoLast Updated: 17 April 2025

A Wikipedia küzdött azzal a hatással, amelyet az AI robotok – a szöveget és a multimédiát az enciklopédia kaparó botok, a generatív mesterséges intelligencia modellek kiképzésére – a szervereire gyakoroltak, és bizonyos esetekben lassabb költségekhez vezetnek az emberi felhasználók számára. Talán annak érdekében, hogy megakadályozzák a robotokat a nyilvános Wikipedia weboldalának pumbálásában és a túl sok sávszélesség felszívódásában, a Wikimedia Alapítvány (amely a Wikipedia adatait kezeli) az AI fejlesztőknek olyan adatállományt kínál, amelyet szabadon felhasználhat.

A szervezet összeállt a Kaggle -val, az adattudományi platformon, hogy felajánlja egy strukturált adatkészlet béta -kiadását mind angol, mind francia nyelven. A Google szerint – amely a Kaggle tulajdonosa – az adatkészlet a gépi tanuláshoz formázza, hogy hasznosabbá tegye a képzést, a fejlesztést és az adattudományt.

A Wikimedia Enterprise megjegyzi, hogy az adatkészlet tartalmazza "Absztraktok, rövid leírások, Infobox-stílusú kulcsérték-adatok, kép-linkek és egyértelműen szegmentált cikkszakaszok." Nincsenek hivatkozások vagy más "nem prózis elemek," például videoklipek. A referenciák hiánya az adatkészletben az információkhoz való hozzárendelés kérdését kissé ködössé teheti. A Wikimedia Enterprise (a Wikimedia Alapítvány egy olyan része, amelynek célja a Wikipedia adatok elérhetőségének elérése az API -n keresztül), azt mondja, hogy az adatkészlet tartalma szabadon engedélyezett a Creative Commons, a Public Domain és így tovább, mivel mind a Wikipedia -ból származik.

Ez a cikk eredetileg az Engadget-en jelent meg a https://www.enggadget.com/ai/wikipedia-thers-ai-developers-a-training-dataSet-maybe-caper-bots-bots-back-14325593.html?src=rsss

Mária Zentai2 days agoLast Updated: 17 April 2025