Czym jest synteza mowy: 3 ważne czynniki z nią związane?

Robot zamiany tekstu na mowę

Synteza mowy

Metoda generowania sztucznej mowy podobnej do człowieka za pomocą maszyn nazywa się syntezą mowy. System komputerowy, który jest używany do wykonywania tej procedury, nazywany jest syntezatorem mowy. System wymaga dalszej implementacji zarówno programowej, jak i sprzętowej i możemy zauważyć jedną jego aplikację w systemie Text-to-Speech (TTS). System zamiany tekstu na mowę przyjmuje codzienny ludzki język w formie tekstu jako dane wejściowe i konwertuje go na mowę jako wyjście.

Synteza mowy odbywa się poprzez sekwencjonowanie nagranej mowy w postaci jednostek przechowywanych w bazie danych. Systemy różnią się wielkością przechowywanych jednostek głosowych; najszerszy zakres wyjściowy zapewnia system przechowujący telefony lub diphony z możliwością utraty czytelności.

Przechowywanie całych słów lub zdań pozwala na wysokiej jakości produkcję dla określonych domen użytkowników. Metodę tę można zastąpić przez włączenie modelu przewodu głosowego i różnych innych cech należących do ludzkiego głosu oraz generowanie sztucznego głosu.

Synteza mowy
Przegląd systemu TTS

Jakość wyjściowa syntezatora mowy zależy od jego bliskości do prawdziwego ludzkiego głosu i łatwości jego zrozumienia. Stosowanie syntezatora mowy jest powszechne od lat 1990-tych XX wieku i zostało ono gruntownie opracowane z myślą o pomocy osobom ze specyficznymi niepełnosprawnościami i dysfunkcjami.

Przegląd systemu zamiany tekstu na mowę

Istnieją dwie istotne części mowy syntezatora mowy:

  • Front End- Jest odpowiedzialny za konwersję tekstu wejściowego, który zawiera różne symbole, liczby i skróty do równoważnej formy zrozumiałych i konwertowalnych danych. Ten proces jest określany jako normalizacja tekstu lub wstępne przetwarzanie danych. Każdemu słowu jest następnie przypisywana transkrypcja fonetyczna oraz oddziela i taguje tekst na jednostki prozodyczne, takie jak zdania, klauzule i frazy, w procesie zwanym zamianą tekstu na fonem lub grafem na fonem. Te dwa aspekty są następnie łączone w celu wygenerowania danych wyjściowych zawierających symboliczną reprezentację językową.
  • Back end- Ogólnie określany jako „syntezator”, ta część odpowiada za symboliczne językowe przedstawienie dźwięku. W systemie zaawansowanym po tym procesie następuje dalej obliczenie docelowej prozodii (kontur wysokości tonu, czasy fonemów), która zostanie wykorzystana w mowie wyjściowej.
Obudowa komputera i syntezatora mowy 19 9663804888
Syntezator mowy używany przez Stephena Hawkinga; Źródło pliku: Muzeum Nauki w Londynie / Biblioteka obrazów Nauki i SpołeczeństwaObudowa komputera i syntezatora mowy, 19 (9663804888)CC BY-SA 2.0

Technologie wykorzystywane w syntezie mowy

Naturalność i zrozumiałość to najważniejsze cechy, które decydują o jakości urządzenia do syntezy mowy. Naturalność jest definiowana przez zdolność urządzenia do możliwie najdokładniejszego odtwarzania ludzkiego głosu, a zrozumiałość określa, jak łatwo urządzenie może zrozumieć dźwięk wyjściowy. Syntezatory mowy dążą do uzyskania optymalnych wyników w obu tych aspektach.

Synteza konkatenatywna i synteza formantów to dwie podstawowe technologie generujące syntetyczne przebiegi mowy. Każda technologia ma swoje mocne i słabe strony, a typowe zastosowania metody syntezy zwykle narzucają wybór jednego z tych podejść.

Synteza konkatenatywna

Sekwencjonowanie fragmentów nagranej mowy w określony sposób nazywa się syntezą konkatenatywną. Ten proces zazwyczaj daje najbardziej naturalnie brzmiącą syntezowaną mowę. Jednak niespójności między naturalnymi zmianami mowy a konstrukcją metod automatycznej segmentacji przebiegów często powodują słyszalne zakłócenia wyjściowe.

Istnieją trzy ważne podtypy syntezy konkatenatywnej.

  1. Synteza wyboru jednostek- Wejściem dla tej techniki selekcji jest obszerna baza danych nagrań mowy. Segmentacja bazy danych jest wykonywana przy użyciu aparatu rozpoznawania mowy ustawionego w trybie wymuszonego wyrównania. Segmentacja daje w wyniku jednostki takie jak fony, dwufony, słowa, frazy, sylaby, morfemy, zdania itp. Indeksowanie tych jednostek opiera się na różnych parametrach, takich jak wysokość dźwięku, czas trwania, pozycja w sylabie i sąsiednie głoski. Proces drzewa decyzyjnego wybiera najbardziej odpowiednie jednostki do utworzenia łańcucha do wykonania. Im obszerniejsza baza danych, tym bardziej naturalna jest mowa wyjściowa. Technika ta zapewnia najbardziej niezwykłą naturalność mowy wyjściowej na podstawie nagranych danych.
  2. Synteza Diphone- Baza danych dla tej techniki składa się tylko z dwufonów, co czyni ją stosunkowo małą. Fonotaktyka wybranego języka określa zbiór wszystkich unikalnych dwufonów, które należy uwzględnić. Baza danych mowy składa się z jednego nagrania każdego diponu. Różne techniki cyfrowego przetwarzania sygnałów, takie jak PSOLA, MBROLA, liniowe kodowanie predykcyjne, są wykorzystywane do nakładania zdania docelowego na te jednostki dipofonowe. Wykorzystanie syntezy diphone ogranicza się do badań, ponieważ mowa jest pozbawiona naturalności, brzmi bardzo robotycznie i zawiera zakłócenia dźwiękowe.
  3. Synteza specyficzna dla domeny Baza danych dla tej techniki jest ograniczona do wcześniej nagranych słów i fraz. Możliwość zastosowania tej metody syntezy ogranicza się do domeny, na podstawie której generowana jest baza danych, np. Zapowiedzi stacji kolejowych, prognozy pogody, mówiące zegary itp. Wdrożenie tej technologii jest proste, a jednocześnie zapewnia wysoki poziom Naturalność można osiągnąć dzięki ograniczonym zdaniom wyjściowym. Aby uzyskać płynne połączenie słów z naturalną mową, należy uwzględnić wiele odmian językowych.

Synteza formantów

W wielu zastosowaniach naturalność mowy nie jest celem; ważniejsze są raczej niezawodność, inteligencja i duża dokładność. Można to osiągnąć za pomocą syntezy formantów, która tworzy syntezowaną mowę z wykorzystaniem syntezy addytywnej i modelowania akustycznego. Ta metoda, zwana również syntezą opartą na regułach, tworzy sztuczną falę mowy poprzez zmianę parametrów, takich jak częstotliwość, poziom hałasu i dźwięczność.

Jest bardzo mało prawdopodobne, aby sztuczna, przypominająca robota mowa stworzona przez technologię syntezy formantów została pomylona z mową ludzką. W tej technice eliminuje się przede wszystkim usterki akustyczne, które są powszechne w systemach konkatenacyjnych. Ze względu na brak obszernej bazy danych nagrań mowy programy te są stosunkowo niewielkie, ponieważ znajdują zastosowanie w systemach wbudowanych, w których moc przetwarzania jest ograniczona.

Możliwe jest przekazanie różnych tonów głosu i emocji poza standardowymi pytaniami i stwierdzeniami, ponieważ systemy oparte na formacie zapewniają pełną kontrolę nad wszystkimi aspektami wyniku. Na przykład wiele znanych gier wideo wykorzystuje technologię syntezy formatów do interaktywnej mowy.

Synteza artykulacyjna

Metoda używana do generowania dźwięków mowy w oparciu o model ludzkiego układu głosowego nosi nazwę syntezy artykulacyjnej. Ma na celu symulację artykulatorów mowy na jeden lub więcej sposobów. Jest to sposób na zrozumienie rozwoju mowy i zbadanie fonetyki.

Koartykulacja jest naturalnie występującym efektem w takim modelu i teoretycznie powinno być możliwe poprawne zajęcie się właściwościami źródła głośni, stosunkiem drogi głosowej do fałdów głosowych oraz tego, jak układ podgłośniowy, przewód nosowy i W tym modelu jamy zatokowe wpływają na generowanie mowy podobnej do ludzkiej.

Synteza artykulacyjna składa się zazwyczaj z dwóch odrębnych komponentów: przewodu głosowego, który jest podzielony na kilka pod-składowych, oraz odpowiadających im obszarów przekroju poprzecznego, które są wykorzystywane parametrycznie w celu odzwierciedlenia cech strun głosowych. W modelu akustycznym elektryczna analogowa linia transmisyjna przybliża każde pole przekroju poprzecznego.

Symulacja przewodu głosowego podlega zmianom zachodzącym w zakresie funkcji czasu. Konfiguracja docelowa przypisana do każdego dźwięku określa tempo ruchu dróg głosowych. Prawidłowo skonstruowany syntezator artykulacyjny może odtworzyć każdy istotny efekt w opracowywaniu frykatywów i materiałów wybuchowych oraz modelowaniu przejść koartykulacji w celu odtworzenia procesów zaangażowanych w prawdziwą produkcję mowy.

W połowie lat 1970. w Haskins Laboratories Philip Rubin, Tom Baer i Paul Mermelstein stworzyli pierwszy syntezator artykulacyjny powszechnie używany w eksperymentach laboratoryjnych.

Synteza oparta na HMM

Jest to statystyczna synteza parametryczna według „ukrytych modeli Markowa”. HMM w tej metodzie jednocześnie modeluj widmo częstotliwości, częstotliwość podstawową i długość mowy. Przebiegi mowy utworzone na podstawie kryterium największej wiarygodności są tworzone z samych HMM.

Ukryty model Markowa (HMM) w biologii obliczeniowej to technika matematyczna stosowana głównie do modelowania sekwencji biologicznych. Sekwencja jest modelowana jako wynik dyskretnej metody stochastycznej w jej implementacji, która przechodzi przez zestaw sekwencyjnych stanów, które są „ukryte” przed obserwatorem.

Synteza fal sinusoidalnych

Synteza fal sinusoidalnych lub głos sinusoidalny to metoda syntezy mowy polegająca na zastąpieniu formantów (wyraźnymi pasmami energetycznymi) czystych dźwięków gwizdków. Philip Rubin stworzył pierwsze oprogramowanie do syntezy fal sinusoidalnych (SWS) do zautomatyzowanej produkcji bodźców do eksperymentów percepcyjnych w Haskins Laboratories w latach 1970.

Mowa sinusoidalna jest osobliwym zjawiskiem, w którym niektóre cechy mowy przejmowane są przez niewielką liczbę połączonych razem sinusoid - do których wcale nie przypominają pod wieloma względami. Wysoką zrozumiałość można osiągnąć za pomocą trzech sinusoid, które śledzą częstotliwość i amplitudę pierwszych trzech formantów mowy.

Synteza oparta na głębokim uczeniu się

W przeciwieństwie do metody opartej na HMM, metoda oparta na głębokim uczeniu się wyraźnie odwzorowuje charakterystykę językową na charakterystykę akustyczną z głębokimi sieciami neuronowymi, które okazały się niezwykle skuteczne w uczeniu się nieodłącznych właściwości danych. Ludzie sugerowali różne modele w długiej tradycji badań, które stosują metody oparte na głębokim uczeniu się do syntezy mowy.

Stało się użytecznym narzędziem do syntezy mowy głęboka nauka zdolne do wykorzystywania ogromnych ilości danych szkoleniowych. Ostatnio przeprowadzono coraz więcej badań nad technikami głębokiego uczenia, a nawet nad systemami typu end-to-end, i osiągnięto najnowocześniejszy sukces.

AIML DL 1
Źródło obrazu: Oryginalny plik: Avimanyu786 Wersja SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Wrzesień 2016 był początkiem WaveNet przez DeepMind, głęboki model generatywny surowych przebiegów audio. Okazało się, że modele oparte na głębokim uczeniu się mogą modelować surowe przebiegi i dobrze sprawdzają się na podstawie charakterystyk akustycznych, takich jak spektrogramy lub specyficzne wstępnie przetworzone właściwości językowe w celu wygenerowania ekspresji.

Zalety kompleksowych systemów

  • Ograniczona możliwość analizy tekstu przy użyciu jednego systemu.
  • Ograniczona ilość inżynierii funkcji.
  • Bogate uwarunkowanie istniejących atrybutów i łatwa adaptacja do nowszych.
  • Zwiększona naturalność i zrozumiałość
  • Bardziej wytrzymały w porównaniu do modeli wieloetapowych.

Wady kompleksowych systemów

  • Istnienie problemu powolnego wnioskowania.
  • Mniejsza ilość danych skutkuje mniej solidną mową wyjściową.
  • Ograniczona zdolność kontrolowania niż podejście konkatenatywne.
  • Prozodia płaska jest opracowywana z uśrednieniem danych treningowych.

Wyzwania związane z syntezą mowy

  1. Dostosowanie do różnych słów wymawianych w tej samej pisowni na podstawie kontekstu.
  2. Wnioskowanie o tym, jak rozszerzyć nie. na podstawie otaczającego słowa, liczby i interpunkcji. Na przykład 1465 można odczytać jako „jeden tysiąc czterysta sześćdziesiąt pięć”, „jeden cztery sześć pięć”, „czternaście sześćdziesiąt pięć” lub „czterysta sześćdziesiąt pięć”.
  3. Niejednoznaczność w skrótach. Na przykład „w” zamiast „cali” należy odróżnić od słowa „w”.
  4. Podejście słownikowe (wyszukiwanie każdego słowa w słowniku i zastępowanie pisowni wymową wyszczególnioną w słowniku w celu wybrania właściwej wymowy każdego słowa) procesu zamiany tekstu na fonem całkowicie zawodzi dla żadnego słowa, które można znaleźć w słownik.
  5. Podejście oparte na regułach (aby ocenić ich wymowę na podstawie pisowni, do słów stosuje się zasady wymowy lub podejście polegające na `` nauce czytania '') procesu zamiany tekstu na fonem zawodzi, ponieważ schemat uwzględnia nietypową pisownię lub wymowę, ponieważ złożoność reguł znacznie wzrasta.
  6. Trudność w rzetelnej ocenie systemów syntezy mowy ze względu na brak ogólnie przyjętych obiektywnych standardów wykonania.
  7. Przesunięcie konturu tonu zdania w zależności od tego, czy jest to wyrażenie twierdzące, pytające czy wykrzyknikowe.

W poprzednim artykule na temat robota kołowego Mecanum, Kliknij tutaj.

Przeczytaj także: