Brak przejrzystości w zestawach danych treningowych modelu sztucznej inteligencji

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Niedawne badanie mit ujawniło poważne niedociągnięcia w zakresie przejrzystości danych wykorzystywanych do szkolenia dużych modeli językowych. Nowe narzędzie pomaga badaczom lepiej zrozumieć źródła danych, zmniejszając w ten sposób ryzyko błędu systematycznego i poprawiając wydajność modelu.

Photo by: objava za medije/ objava za medije

Krytyczny brak przejrzystości w zbiorach danych do szkolenia dużych modeli językowych
Badacze opracowali narzędzie, które pozwala ekspertom sztucznej inteligencji łatwiej wybierać dane najlepiej dopasowane do ich modeli, co może zwiększyć dokładność modeli i zmniejszyć stronniczość.

W szkoleniu potężnych modeli językowych badacze polegają na obszernych zbiorach danych, które obejmują różnorodne informacje zebrane z tysięcy stron internetowych. Jednakże, gdy te zbiory danych są łączone i ponownie wykorzystywane w różnych kolekcjach, kluczowe szczegóły dotyczące ich pochodzenia często giną lub stają się niejasne.

Brak tych informacji nie tylko budzi obawy prawne i etyczne, ale także może negatywnie wpłynąć na wydajność modelu. Na przykład, jeśli zbiór danych jest błędnie sklasyfikowany, badacz szkolący model do określonego zadania może nieumyślnie użyć danych, które nie są odpowiednie do tego celu.

Co więcej, dane z nieznanych źródeł mogą zawierać stronniczość, która prowadzi do niesprawiedliwych prognoz, gdy model jest używany w rzeczywistych sytuacjach, takich jak ocena zdolności kredytowej lub interakcje z klientami w centrach obsługi.

Aby zwiększyć przejrzystość danych, zespół multidyscyplinarnych badaczy z MIT i innych instytucji przeprowadził systematyczny przegląd ponad 1 800 zbiorów danych tekstowych na popularnych stronach internetowych. Odkryli, że więcej niż 70 procent tych zbiorów danych brakowało kluczowych informacji o licencjonowaniu, podczas gdy około 50 procent zawierało błędy w dokumentacji.

Rozwój narzędzi dla większej przejrzystości danych
Badacze opracowali narzędzie o nazwie Data Provenance Explorer, które umożliwia ekspertom łatwe przeglądanie i ocenianie pochodzenia zbiorów danych. Narzędzie to generuje przegląd autorów, źródeł, licencji i dozwolonych metod użycia, co może znacznie poprawić odpowiedzialne korzystanie z technologii AI.

Data Provenance Explorer nie tylko pomaga w wyborze odpowiednich zbiorów danych do konkretnych zadań, ale również pozwala użytkownikom pobierać karty z szczegółowymi informacjami o zbiorach danych, co ułatwia zrozumienie ryzyka i ograniczeń związanych z używanymi danymi.

Ryzyka stronniczości i nieetycznego użycia
Badanie ujawniło również, że prawie wszyscy twórcy zbiorów danych pochodzą z rozwiniętych krajów, co może ograniczyć zdolność modelu do prawidłowego funkcjonowania w różnych regionach. Na przykład, zbiór danych dla języka tureckiego opracowany przez badaczy w USA i Chinach może nie obejmować ważnych aspektów kulturowych, co może wpłynąć na dokładność modelu w kontekście tureckim.

Badacze zauważyli znaczny wzrost restrykcji w zbiorach danych stworzonych w 2023 i 2024 roku, co wskazuje na rosnące obawy społeczności akademickiej, że ich dane mogą być niewłaściwie wykorzystywane w celach komercyjnych.

Wyzwania i przyszłe kierunki badań
Aby ułatwić zbieranie tych informacji bez potrzeby ręcznego przeglądu, Data Provenance Explorer oferuje użytkownikom możliwość sortowania i filtrowania zbiorów danych według różnych kryteriów. Narzędzie to umożliwia pobieranie podsumowanych przeglądów cech zbiorów danych, co jest krokiem naprzód w kierunku lepszego zrozumienia danych używanych do trenowania modeli AI.

W przyszłości badacze planują rozszerzyć swoją analizę na dane multimodalne, w tym wideo i dźwięk, oraz zbadać, jak warunki korzystania z witryn internetowych, które służą jako źródła danych, odzwierciedlają się na używaniu zbiorów danych. Zamierzają również współpracować z organami regulacyjnymi, aby zająć się specyficznymi kwestiami praw autorskich i etyki związanymi z dopasowaniem danych.

Badania MIT podkreślają potrzebę przejrzystości danych, kładąc fundamenty pod bardziej etyczny i zgodny z prawem rozwój sztucznej inteligencji w przyszłości.

Czas utworzenia: 31 sierpnia, 2024

Uwaga dla naszych czytelników:
Portal Karlobag.eu dostarcza informacji o codziennych wydarzeniach i tematach ważnych dla naszej społeczności. Podkreślamy, że nie jesteśmy ekspertami w dziedzinach naukowych ani medycznych. Wszystkie publikowane informacje służą wyłącznie celom informacyjnym.
Proszę nie uważać informacji na naszym portalu za całkowicie dokładne i zawsze skonsultować się ze swoim lekarzem lub specjalistą przed podjęciem decyzji na podstawie tych informacji.
Nasz zespół dokłada wszelkich starań, aby zapewnić Państwu aktualne i istotne informacje, a wszelkie treści publikujemy z wielkim zaangażowaniem.

Zapraszamy do podzielenia się z nami swoimi historiami z Karlobag!
Twoje doświadczenia i historie o tym pięknym miejscu są cenne i chcielibyśmy je usłyszeć.
Możesz je przesłać napisz do nas na adres karlobag@karlobag.eu.
Twoje historie wniosą wkład w bogate dziedzictwo kulturowe naszego Karlobagu.
Dziękujemy, że podzieliłeś się z nami swoimi wspomnieniami!