Krytyczny brak przejrzystości w zbiorach danych do szkolenia dużych modeli językowych
Badacze opracowali narzędzie, które pozwala ekspertom sztucznej inteligencji łatwiej wybierać dane najlepiej dopasowane do ich modeli, co może zwiększyć dokładność modeli i zmniejszyć stronniczość.
W szkoleniu potężnych modeli językowych badacze polegają na obszernych zbiorach danych, które obejmują różnorodne informacje zebrane z tysięcy stron internetowych. Jednakże, gdy te zbiory danych są łączone i ponownie wykorzystywane w różnych kolekcjach, kluczowe szczegóły dotyczące ich pochodzenia często giną lub stają się niejasne.
Brak tych informacji nie tylko budzi obawy prawne i etyczne, ale także może negatywnie wpłynąć na wydajność modelu. Na przykład, jeśli zbiór danych jest błędnie sklasyfikowany, badacz szkolący model do określonego zadania może nieumyślnie użyć danych, które nie są odpowiednie do tego celu.
Co więcej, dane z nieznanych źródeł mogą zawierać stronniczość, która prowadzi do niesprawiedliwych prognoz, gdy model jest używany w rzeczywistych sytuacjach, takich jak ocena zdolności kredytowej lub interakcje z klientami w centrach obsługi.
Aby zwiększyć przejrzystość danych, zespół multidyscyplinarnych badaczy z MIT i innych instytucji przeprowadził systematyczny przegląd ponad 1 800 zbiorów danych tekstowych na popularnych stronach internetowych. Odkryli, że więcej niż 70 procent tych zbiorów danych brakowało kluczowych informacji o licencjonowaniu, podczas gdy około 50 procent zawierało błędy w dokumentacji.
Rozwój narzędzi dla większej przejrzystości danych
Badacze opracowali narzędzie o nazwie Data Provenance Explorer, które umożliwia ekspertom łatwe przeglądanie i ocenianie pochodzenia zbiorów danych. Narzędzie to generuje przegląd autorów, źródeł, licencji i dozwolonych metod użycia, co może znacznie poprawić odpowiedzialne korzystanie z technologii AI.
Data Provenance Explorer nie tylko pomaga w wyborze odpowiednich zbiorów danych do konkretnych zadań, ale również pozwala użytkownikom pobierać karty z szczegółowymi informacjami o zbiorach danych, co ułatwia zrozumienie ryzyka i ograniczeń związanych z używanymi danymi.
Ryzyka stronniczości i nieetycznego użycia
Badanie ujawniło również, że prawie wszyscy twórcy zbiorów danych pochodzą z rozwiniętych krajów, co może ograniczyć zdolność modelu do prawidłowego funkcjonowania w różnych regionach. Na przykład, zbiór danych dla języka tureckiego opracowany przez badaczy w USA i Chinach może nie obejmować ważnych aspektów kulturowych, co może wpłynąć na dokładność modelu w kontekście tureckim.
Badacze zauważyli znaczny wzrost restrykcji w zbiorach danych stworzonych w 2023 i 2024 roku, co wskazuje na rosnące obawy społeczności akademickiej, że ich dane mogą być niewłaściwie wykorzystywane w celach komercyjnych.
Wyzwania i przyszłe kierunki badań
Aby ułatwić zbieranie tych informacji bez potrzeby ręcznego przeglądu, Data Provenance Explorer oferuje użytkownikom możliwość sortowania i filtrowania zbiorów danych według różnych kryteriów. Narzędzie to umożliwia pobieranie podsumowanych przeglądów cech zbiorów danych, co jest krokiem naprzód w kierunku lepszego zrozumienia danych używanych do trenowania modeli AI.
W przyszłości badacze planują rozszerzyć swoją analizę na dane multimodalne, w tym wideo i dźwięk, oraz zbadać, jak warunki korzystania z witryn internetowych, które służą jako źródła danych, odzwierciedlają się na używaniu zbiorów danych. Zamierzają również współpracować z organami regulacyjnymi, aby zająć się specyficznymi kwestiami praw autorskich i etyki związanymi z dopasowaniem danych.
Badania MIT podkreślają potrzebę przejrzystości danych, kładąc fundamenty pod bardziej etyczny i zgodny z prawem rozwój sztucznej inteligencji w przyszłości.
Erstellungszeitpunkt: 31 sierpnia, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!