Jak nauczyć maszynę mówić

Pierwsze próby nauczenia maszyn – jeszcze nie komputerów – rozumienia mowy to lata 30. ubiegłego wieku.
Czyta się kilka minut

Maszyny nie były lotnymi uczniami, bo i nasza mowa jest o wiele bardziej skomplikowana, niż by się wydawało. Nieistotne dla naszych mózgów, a kluczowe dla komputerów różnice w akcencie, tempie czy wymowie to tylko początek problemów. Gdyby komputery mogły płakać, do załamania nerwowego doprowadziłyby je np. homofony (jak „może” i „morze”). Po 20 latach prac naukowcy z Bell Labs opracowali system, który był w stanie rozpoznać 10 słów, najczęściej liczb, pod warunkiem, że wypowiadał je jeden, konkretny człowiek. Wkrótce potem laboratorium przerwało prace. Jeden z jego szefów oświadczył, że te badania przypominają „próby produkcji benzyny z wody albo odfiltrowywania złota z morza”.

Ale poszukiwania trwały. W latach 60., dzięki amerykańskim i radzieckim badaniom, powstały systemy rozumiejące 200 słów. W 1971 r. należąca do Pentagonu agencja badawcza DARPA zleciła opracowanie systemu rozpoznającego ich tysiąc. W połowie lat 80. zbudowana przez IBM elektroniczna maszyna do pisania Tangora rozpoznawała nawet 20 tys. słów.

Problemów jest bez liku: od rozróżnienia słów i szumu tła, przez ustalenie, gdzie kończy się jedno słowo, a zaczyna kolejne (problem znany każdemu, kto uczy się nowego języka), po odróżnienie od siebie zbliżonych fonemów. To wszystko wymagało kolosalnej pracy teoretyków: lingwistów, matematyków, akustyków.

Olbrzymie znaczenie miała tutaj rosnąca wydajność komputerów. Dla najszybszych, wyposażonych w 4MB RAM maszyn z lat 70. rozszyfrowanie półminutowego nagrania było zadaniem na półtorej godziny. Ale prawdziwą rewolucję przyniosło dopiero Google i algorytmy maszynowego uczenia się: komputer, któremu udostępniono miliony godzin nagrań – np. pytań zadawanych przez użytkowników wyszukiwarki – sam może się nauczyć rozpoznawania poszczególnych słów. Dzisiejsze systemy rozpoznają ich dziesiątki tysięcy, i to w kilkudziesięciu językach. Ale wciąż wymowa, szumy i inne czynniki sprawiają, że 10-15 proc. błędów w rozpoznawaniu słów uchodzi za dobry wynik. ©

Cały artykuł dostępny tylko dla subskrybentów

„Tygodnik Powszechny” – jedyny polski tygodnik społeczno-kulturalny.
30 tys. Czytelniczek i Czytelników. Najlepsze Autorki i najlepsi Autorzy.
Wspólnota, która myśli samodzielnie.

Najlepsza oferta

Czytaj 1 miesiąc za 1 złotówkę dzięki promocji z

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po miesiącu promocyjnym. Rezygnujesz, kiedy chcesz

Najniższa cena przed promocją 29,90 zł

1.00 zł
Najniższa cena z 30 dni przed obniżką 1.00 zł

Wypróbuj TP Online: 7 dni za darmo

  • Nieograniczony dostęp do treści w serwisie i wersji audio artykułów
  • Tematyczne newslettery i dodatkowe publikacje tylko dla subskrybentów
  • 29 zł miesięcznie po zakończeniu okresu próbnego
  • Wymagane podpięcie karty. Rezygnujesz, kiedy chcesz
0.00 zł
Najniższa cena z 30 dni przed obniżką 29.90 zł

TP Online: Dostęp roczny online

Grafika na okładce: Nikodem Pręgowski dla „TP”

Artykuł pochodzi z numeru TP 38/2016