Britská firma zabývající se rozpoznáváním řeči tvrdí, že její software funguje lépe než software velkých technologických společností jako Google a Amazon, pokud jde o porozumění afroamerickým hlasům.
Speechmatics, která sídlí v Cambridge v Anglii, v úterý uvedla, že její systém má celkovou míru přesnosti 83 % pro afroamerické hlasy.
pro srovnání:
To je více než Microsoft (73 %), Amazon (69 %), Google (69 %), IBM (62 %) a Apple (55 %),
podle výzkumu zveřejněného Stanfordskou univerzitou v roce 2020, který porovnával výsledky velkých technologických společností, jak přesně jejich programy fungovali v rozpoznávání řeči Afriameričanů.
Systémy od Amazonu, IBM, Google, Microsoftu a Applu totiž hlásily při interpretaci slov Afroameričanů téměř dvakrát více chyb než u bělochů, tvrdí výzkumníci ze Stanfordu.
Speechmatics hlásí, že jejich systém chybně identifikoval slova z řad černochů v 17 % případů, oproti 31 % u Googlu.
Technologie zabývající se rozpoznáváním hlasu se rychle začlenila do každodenního života a to díky rozšíření virtuálních asistentů na chytrých zařízeních, jako jsou telefony a reproduktory.
Apple byl úplně prvním, tedy průkopníkem v používání hlasově aktivovaného softwaru na mobilních zařízeních a to se svojí digitální asistentkou Siri, zatímco Amazon byl jedním z prvních, kdo přinesl rozpoznávání řeči do domácností se svými reproduktory Echo a virtuální asistentkou jménem Alexa.
Výzkumní pracovníci, pracující na vylepšování rozpoznávání řeči, se stále více obávají zkreslení v algoritmech, které používají tyto systémy k rozpoznávání. Odborníci se domnívají, že mnoho programů pro rozpoznávání hlasu je zkoušeno na omezených sadách dat, což snižuje jejich účinnost a úspěšnost.
Zatímco aplikace pro rozpoznávání řeči mají drobné problémy s přepisem, v Applu nemají stejnou úroveň přesnosti a je to dáno s nedostatečně zastoupenými hlasy. Zato my učíme svou umělou inteligenci téměř stejným způsobem jako dítě," tvrdí Will Williams, viceprezident Speechmatics.
”Stejně jako u všech těchto věcí jde o kvalitu dat v tréninkových sadách,“ řekla Stephanie Hare, zabývající se etikou. "V technologii rozpoznávání řeči již dlouhou dobu existuje rasová, genderová a regionální zaujatost.Tato technologie zatím nefunguje pro všechny stejně," dodala Hare.
Ve Speechmatics zkoušeli svou umělou inteligenci pomocí neoznačených dat ze sociálních médií a podcastů, aby jí pomohly naučit se různé aspekty řeči, včetně přízvuku, jazyka a intonace.
Firma uvedla, že její technologie má nazkoušeno celkem 1,1 milionu hodin zvuku.
Speechmatics označila tento vývoj za „průlom“ a uvedla, že doufá, že technologické společnosti budou v budoucnu transparentnější a budou počítat s širší testovací skupinou.
Techničtí giganti v poslední době navyšují své investice do těchto technologií, přičemž Microsoft v dubnu učinil akvizici, tedy nabytí, softwarové firmy Nuance Communications za 16 miliard dolarů.
Zdroje: cnbc.com; unsplash