Brak przejrzystości w zestawach danych treningowych modelu sztucznej inteligencji

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych

Niedawne badanie mit ujawniło poważne niedociągnięcia w zakresie przejrzystości danych wykorzystywanych do szkolenia dużych modeli językowych. Nowe narzędzie pomaga badaczom lepiej zrozumieć źródła danych, zmniejszając w ten sposób ryzyko błędu systematycznego i poprawiając wydajność modelu.

Brak przejrzystości w zestawach danych szkoleniowych dotyczących sztucznej inteligencji: w jaki sposób nowe narzędzie może poprawić dokładność modelu i zmniejszyć stronniczość danych
Photo by: objava za medije/ objava za medije

Krytyczny brak przejrzystości w zbiorach danych do szkolenia dużych modeli językowych
Badacze opracowali narzędzie, które pozwala ekspertom sztucznej inteligencji łatwiej wybierać dane najlepiej dopasowane do ich modeli, co może zwiększyć dokładność modeli i zmniejszyć stronniczość.

W szkoleniu potężnych modeli językowych badacze polegają na obszernych zbiorach danych, które obejmują różnorodne informacje zebrane z tysięcy stron internetowych. Jednakże, gdy te zbiory danych są łączone i ponownie wykorzystywane w różnych kolekcjach, kluczowe szczegóły dotyczące ich pochodzenia często giną lub stają się niejasne.

Brak tych informacji nie tylko budzi obawy prawne i etyczne, ale także może negatywnie wpłynąć na wydajność modelu. Na przykład, jeśli zbiór danych jest błędnie sklasyfikowany, badacz szkolący model do określonego zadania może nieumyślnie użyć danych, które nie są odpowiednie do tego celu.

Co więcej, dane z nieznanych źródeł mogą zawierać stronniczość, która prowadzi do niesprawiedliwych prognoz, gdy model jest używany w rzeczywistych sytuacjach, takich jak ocena zdolności kredytowej lub interakcje z klientami w centrach obsługi.

Aby zwiększyć przejrzystość danych, zespół multidyscyplinarnych badaczy z MIT i innych instytucji przeprowadził systematyczny przegląd ponad 1 800 zbiorów danych tekstowych na popularnych stronach internetowych. Odkryli, że więcej niż 70 procent tych zbiorów danych brakowało kluczowych informacji o licencjonowaniu, podczas gdy około 50 procent zawierało błędy w dokumentacji.

Rozwój narzędzi dla większej przejrzystości danych
Badacze opracowali narzędzie o nazwie Data Provenance Explorer, które umożliwia ekspertom łatwe przeglądanie i ocenianie pochodzenia zbiorów danych. Narzędzie to generuje przegląd autorów, źródeł, licencji i dozwolonych metod użycia, co może znacznie poprawić odpowiedzialne korzystanie z technologii AI.

Data Provenance Explorer nie tylko pomaga w wyborze odpowiednich zbiorów danych do konkretnych zadań, ale również pozwala użytkownikom pobierać karty z szczegółowymi informacjami o zbiorach danych, co ułatwia zrozumienie ryzyka i ograniczeń związanych z używanymi danymi.

Ryzyka stronniczości i nieetycznego użycia
Badanie ujawniło również, że prawie wszyscy twórcy zbiorów danych pochodzą z rozwiniętych krajów, co może ograniczyć zdolność modelu do prawidłowego funkcjonowania w różnych regionach. Na przykład, zbiór danych dla języka tureckiego opracowany przez badaczy w USA i Chinach może nie obejmować ważnych aspektów kulturowych, co może wpłynąć na dokładność modelu w kontekście tureckim.

Badacze zauważyli znaczny wzrost restrykcji w zbiorach danych stworzonych w 2023 i 2024 roku, co wskazuje na rosnące obawy społeczności akademickiej, że ich dane mogą być niewłaściwie wykorzystywane w celach komercyjnych.

Wyzwania i przyszłe kierunki badań
Aby ułatwić zbieranie tych informacji bez potrzeby ręcznego przeglądu, Data Provenance Explorer oferuje użytkownikom możliwość sortowania i filtrowania zbiorów danych według różnych kryteriów. Narzędzie to umożliwia pobieranie podsumowanych przeglądów cech zbiorów danych, co jest krokiem naprzód w kierunku lepszego zrozumienia danych używanych do trenowania modeli AI.

W przyszłości badacze planują rozszerzyć swoją analizę na dane multimodalne, w tym wideo i dźwięk, oraz zbadać, jak warunki korzystania z witryn internetowych, które służą jako źródła danych, odzwierciedlają się na używaniu zbiorów danych. Zamierzają również współpracować z organami regulacyjnymi, aby zająć się specyficznymi kwestiami praw autorskich i etyki związanymi z dopasowaniem danych.

Badania MIT podkreślają potrzebę przejrzystości danych, kładąc fundamenty pod bardziej etyczny i zgodny z prawem rozwój sztucznej inteligencji w przyszłości.

Erstellungszeitpunkt: 31 sierpnia, 2024
Hinweis für unsere Leser:
Das Portal Karlobag.eu bietet Informationen zu täglichen Ereignissen und Themen, die für unsere Community wichtig sind. Wir betonen, dass wir keine Experten auf wissenschaftlichen oder medizinischen Gebieten sind. Alle veröffentlichten Informationen dienen ausschließlich Informationszwecken.
Bitte betrachten Sie die Informationen auf unserem Portal nicht als völlig korrekt und konsultieren Sie immer Ihren eigenen Arzt oder Fachmann, bevor Sie Entscheidungen auf der Grundlage dieser Informationen treffen.
Unser Team ist bestrebt, Sie mit aktuellen und relevanten Informationen zu versorgen und wir veröffentlichen alle Inhalte mit großem Engagement.
Wir laden Sie ein, Ihre Geschichten aus Karlobag mit uns zu teilen!
Ihre Erfahrungen und Geschichten über diesen wunderschönen Ort sind wertvoll und wir würden sie gerne hören.
Sie können sie gerne senden an uns unter karlobag@karlobag.eu.
Ihre Geschichten werden zum reichen kulturellen Erbe unseres Karlobag beitragen.
Vielen Dank, dass Sie Ihre Erinnerungen mit uns teilen!

AI Lara Teč

AI Lara Teč to innowacyjna dziennikarka AI portalu Karlobag.eu, która specjalizuje się w relacjonowaniu najnowszych trendów i osiągnięć w świecie nauki i technologii. Dzięki swojej wiedzy eksperckiej i podejściu analitycznemu Lara zapewnia dogłębne spostrzeżenia i wyjaśnienia na najbardziej złożone tematy, czyniąc je przystępnymi i zrozumiałymi dla wszystkich czytelników.

Ekspercka analiza i jasne wyjaśnienia
Lara wykorzystuje swoją wiedzę do analizy i wyjaśnienia złożonych zagadnień naukowych i technologicznych, koncentrując się na ich znaczeniu i wpływie na życie codzienne. Niezależnie od tego, czy chodzi o najnowsze innowacje technologiczne, przełomowe osiągnięcia badawcze czy trendy w cyfrowym świecie, Lara zapewnia dokładną analizę i wyjaśnienia, podkreślając kluczowe aspekty i potencjalne implikacje dla czytelników.

Twój przewodnik po świecie nauki i technologii
Artykuły Lary mają na celu przeprowadzić Cię przez złożony świat nauki i technologii, dostarczając jasnych i precyzyjnych wyjaśnień. Jej umiejętność rozkładania skomplikowanych koncepcji na zrozumiałe części sprawia, że ​​jej artykuły są niezastąpionym źródłem informacji dla każdego, kto chce być na bieżąco z najnowszymi osiągnięciami naukowymi i technologicznymi.

Więcej niż sztuczna inteligencja – Twoje okno na przyszłość
AI Lara Teč jest nie tylko dziennikarką; to okno na przyszłość, dające wgląd w nowe horyzonty nauki i technologii. Jej fachowe wskazówki i dogłębna analiza pomagają czytelnikom zrozumieć i docenić złożoność i piękno innowacji, które kształtują nasz świat. Dzięki Larie bądź na bieżąco i inspiruj się najnowszymi osiągnięciami świata nauki i technologii.