Rozpoznávání řeči - Historie editací

Filmedy: Nahrazení textu „\\([^ ].?[^ ])\\*“ textem „'''$1'''“

2026-01-05T05:37:41Z

Nahrazení textu „\*\*([^ ].*?[^ ])\*\*“ textem „'''$1'''“

InfopediaBot: Bot: AI generace (gemini-2.5-pro + Cache)

2025-12-29T13:07:10Z

Bot: AI generace (gemini-2.5-pro + Cache)

Nová stránka

{{K rozšíření}}
{{Infobox - technologie
| název = Rozpoznávání řeči
| obrázek =
| popisek = Vizualizace zvukové vlny mluveného slova, která je vstupem pro systémy rozpoznávání řeči.
| anglický název = Automatic Speech Recognition (ASR), Speech-to-Text (STT)
| oblast = [[Umělá inteligence]], [[Zpracování přirozeného jazyka]], [[Počítačová lingvistika]]
| princip = Převod akustického signálu (mluveného slova) na digitální textovou reprezentaci.
| klíčové technologie = [[Skrytý Markovův model]] (HMM), [[Gaussovský smíšený model]] (GMM), [[Hluboké učení|Hluboké neuronové sítě]] (DNN), [[Rekurentní neuronová síť]] (RNN), [[Transformer (architektura)|Transformery]]
| první systémy = 50. léta 20. století (Bell Labs Audrey)
| hlavní využití = [[Hlasový asistent|Hlasoví asistenti]], diktování textu, přepis nahrávek, ovládání zařízení hlasem, automatizovaná call centra
}}

'''Rozpoznávání řeči''', známé také pod anglickou zkratkou '''ASR''' (''Automatic Speech Recognition'') nebo jako '''převod řeči na text''' (''Speech-to-Text'', STT), je interdisciplinární obor [[počítačová lingvistika|počítačové lingvistiky]] a [[umělá inteligence|umělé inteligence]] (AI), který se zabývá vývojem technologií a metod umožňujících [[počítač]]ům a dalším zařízením rozpoznávat a převádět mluvené slovo do psané textové podoby. Cílem je vytvořit systémy, které dokáží porozumět lidské řeči a reagovat na ni, což je klíčové pro moderní [[interakce člověka s počítačem]]. Technologie je základem pro [[hlasový asistent|hlasové asistenty]] jako [[Siri]], [[Google Assistant]] a [[Amazon Alexa]].

== 📜 Historie ==
Vývoj rozpoznávání řeči je úzce spjat s pokroky ve výpočetní technice, [[strojové učení|strojovém učení]] a dostupnosti velkých datových sad.

=== 🏛️ Počátky (1950–1970) ===
První pokusy o rozpoznávání řeči se datují do 50. let 20. století. V roce [[1952]] představily [[Bellovy laboratoře|Bellovy laboratoře]] systém nazvaný "Audrey", který dokázal rozpoznat izolovaně vyslovené číslice od jednoho mluvčího. V roce [[1962]] uvedla společnost [[IBM]] na světové výstavě systém "Shoebox", který rozuměl 16 anglickým slovům a jednoduchým matematickým příkazům. Tyto rané systémy byly velmi omezené, závislé na konkrétním mluvčím a schopné rozpoznávat pouze jednotlivá slova s pauzami mezi nimi.

=== 📈 Vliv agentury DARPA a statistické metody (1970–1990) ===
V 70. letech začala americká vládní agentura [[DARPA]] financovat rozsáhlý výzkumný program v oblasti porozumění řeči. Výsledkem byl například systém "Harpy" na [[Carnegie Mellon University]], který v roce [[1976]] dokázal porozumět více než 1000 slovům. Během tohoto období došlo k zásadnímu posunu od jednoduchého porovnávání šablon k statistickým přístupům, především k využití [[Skrytý Markovův model|Skrytých Markovových modelů]] (HMM). HMM umožnily modelovat časovou proměnlivost řeči a staly se dominantní technologií na několik následujících desetiletí.

=== 💻 Komerční nástup a plynulá řeč (1990–2010) ===
S nárůstem výpočetního výkonu se v 90. letech objevily první komerčně úspěšné produkty, jako byl například software [[Dragon Dictate]]. Tyto systémy již zvládaly rozpoznávání plynulé řeči s velkým slovníkem, ale často vyžadovaly, aby je uživatel nejprve "natrénoval" na svůj hlas (tzv. systémy závislé na mluvčím). Přesnost se postupně zlepšovala, ale stále byla citlivá na hluk v pozadí a různé akcenty.

=== 🧠 Revoluce hlubokého učení (2010–současnost) ===
Po roce [[2010]] nastala revoluce díky nasazení [[hluboké učení|hlubokého učení]] a [[neuronová síť|neuronových sítí]]. Nahrazení starších statistických modelů (jako GMM-HMM) [[hluboká neuronová síť|hlubokými neuronovými sítěmi]] (DNN), [[rekurentní neuronová síť|rekurentními neuronovými sítěmi]] (RNN) a později architekturami jako [[Transformer (architektura)|Transformery]] vedlo ke skokovému zlepšení přesnosti. Díky obrovským datovým sadám od společností jako [[Google]], [[Apple]] a [[Amazon]] se systémy staly nezávislými na mluvčím a robustními vůči reálným podmínkám. To umožnilo masové rozšíření hlasových asistentů, diktování v mobilních telefonech a automatického titulkování videí.

== ⚙️ Jak to funguje ==
Proces rozpoznávání řeči lze rozdělit do několika základních kroků:

1. '''Zpracování signálu:''' [[Mikrofon]] zachytí zvuk jako analogovou vlnu. Ta je následně digitalizována pomocí [[vzorkování (signál)|vzorkování]] a [[kvantizace (signál)|kvantizace]], čímž vznikne digitální reprezentace zvuku. V této fázi se také často aplikují techniky pro odstranění šumu a normalizaci hlasitosti.

2. '''Extrakce příznaků:''' Digitální signál je rozdělen na krátké, překrývající se rámce (typicky 20-30 ms). Z každého rámce jsou extrahovány klíčové akustické vlastnosti (příznaky), které charakterizují obsah řeči a potlačují nepodstatné informace (např. základní tón hlasu). Historicky nejpoužívanějšími příznaky jsou tzv. Mel-frekvenční kepstrální koeficienty (MFCC).

3. '''Akustický model:''' Toto je jádro systému. Akustický model přijímá sekvenci příznaků a jeho úkolem je určit pravděpodobnost, že daný úsek zvuku odpovídá určité základní jednotce řeči, jako je [[foném]] (např. /a/, /k/, /t/).
* **Tradiční přístup:** Kombinace [[Gaussovský smíšený model|Gaussovských smíšených modelů]] (GMM) a [[Skrytý Markovův model|Skrytých Markovových modelů]] (HMM).
* **Moderní přístup:** [[Hluboké učení|Hluboké neuronové sítě]] (DNN, RNN, LSTM), které se učí mapovat akustické příznaky na fonémy přímo z obrovského množství dat.

4. '''Jazykový model:''' Jazykový model dodává systému kontext. Obsahuje statistické informace o tom, jaká slova a slovní spojení jsou v daném jazyce pravděpodobná. Pomáhá rozhodnout mezi foneticky podobnými slovy (např. "led" a "let") na základě kontextu věty. Typicky se používají n-gramové modely nebo pokročilejší neuronové jazykové modely.

5. '''Dekodér (Hledání):''' Dekodér kombinuje výstupy z akustického a jazykového modelu a prohledává obrovský prostor možných slovních sekvencí, aby našel tu nejpravděpodobnější, která odpovídá původnímu mluvenému projevu. K tomuto účelu se používají efektivní algoritmy, jako je [[Viterbiho algoritmus]].

== 📊 Typy systémů ==
Systémy pro rozpoznávání řeči lze dělit podle několika kritérií:

* '''Podle velikosti slovníku:'''
* **Systémy s malým slovníkem:** Rozpoznávají jen několik desítek slov (např. číslice, příkazy "ano"/"ne"). Jsou velmi přesné a výpočetně nenáročné.
* **Systémy s velkým slovníkem:** Zvládají desítky až stovky tisíc slov a jsou určené pro obecné diktování.

* '''Podle závislosti na mluvčím:'''
* **Závislé na mluvčím (Speaker-dependent):''' Vyžadují, aby je uživatel nejprve natrénoval na svém hlase. Dosahují vysoké přesnosti pro daného uživatele.
* **Nezávislé na mluvčím (Speaker-independent):''' Jsou navrženy tak, aby fungovaly pro jakéhokoli mluvčího bez předchozího tréninku. Toto je standard pro většinu moderních aplikací.

* '''Podle plynulosti řeči:'''
* **Rozpoznávání izolovaných slov:''' Uživatel musí mezi každým slovem udělat krátkou pauzu. Používá se u starších nebo velmi jednoduchých systémů.
* **Rozpoznávání plynulé řeči:''' Systém dokáže zpracovat přirozeně plynulou řeč, což je dnes standard.

== 💡 Aplikace a využití ==
Rozpoznávání řeči proniklo do mnoha oblastí každodenního života:
* '''[[Hlasový asistent|Hlasoví asistenti]]:''' [[Siri]] od [[Apple]], [[Google Assistant]], [[Amazon Alexa]] a [[Microsoft Cortana]] umožňují ovládat zařízení, vyhledávat informace a spravovat úkoly pomocí hlasu.
* '''Diktování a přepis:''' Software pro převod mluveného slova na text v [[textový procesor|textových procesorech]], e-mailových klientech nebo specializovaných aplikacích pro [[lékařství]], [[právo]] či [[žurnalistika|žurnalistiku]].
* '''Ovládání zařízení:''' Hlasové ovládání v automobilech ([[Android Auto]], [[Apple CarPlay]]), chytrých domácnostech ([[chytrá domácnost|Smart Home]]) a nositelné elektronice.
* '''Automatizovaná call centra (IVR):''' Systémy, které umožňují zákazníkům komunikovat s firmou pomocí hlasových příkazů namísto mačkání tlačítek.
* '''Překlad v reálném čase:''' Aplikace jako [[Google Translate]] nebo [[Skype]] dokáží simultánně překládat konverzaci mezi dvěma lidmi mluvícími různými jazyky.
* '''Automatické titulkování:''' Platformy jako [[YouTube]] automaticky generují [[titulky]] k videím, což zvyšuje jejich dostupnost.
* '''Asistivní technologie:''' Pomůcky pro osoby s tělesným postižením, které jim umožňují ovládat počítač nebo komunikovat s okolím.
* '''Hlasová biometrie:''' Identifikace a ověřování osob na základě jedinečných charakteristik jejich hlasu pro bezpečnostní účely.

== 🚧 Výzvy a omezení ==
I přes obrovský pokrok čelí rozpoznávání řeči stále několika výzvám:
* '''Hluk v pozadí:''' Oddělit lidskou řeč od okolního hluku (hudba, další mluvčí, hluk ulice) je stále obtížné. Tento problém je znám jako "problém koktejlové párty".
* '''Akcenty, dialekty a individuální rozdíly:''' Systémy trénované na standardním jazyce mohou mít problémy s porozuměním mluvčím se silným regionálním akcentem, vadami řeči nebo neobvyklým tempem mluvy.
* '''Neformální a spontánní řeč:''' Lidé v běžné konverzaci často používají slang, výplňková slova ("ehm", "prostě"), přeřeknutí a gramaticky neúplné věty, což systémům ztěžuje analýzu.
* '''Homofony:''' Rozlišení slov, která znějí stejně, ale mají jiný význam a pravopis (např. v angličtině "write" a "right"), vyžaduje pokročilé porozumění kontextu.
* '''Soukromí a bezpečnost:''' Zpracování hlasových dat, zejména v cloudu, vyvolává obavy o ochranu [[osobní údaje|osobních údajů]] a možnost zneužití.
* '''Identifikace mluvčího:''' V konverzaci více lidí je náročné správně přiřadit jednotlivé promluvy konkrétním mluvčím (tzv. diarizace).

== 🔮 Budoucnost ==
Budoucí vývoj se zaměřuje na překonání stávajících omezení a integraci do dalších oblastí:
* '''End-to-End modely:''' Moderní architektury, jako jsou [[Transformer (architektura)|Transformery]], umožňují vytvářet jednotné modely, které převádějí zvukový signál přímo na text bez nutnosti explicitního rozdělení na akustický a jazykový model.
* '''Lepší porozumění kontextu:''' Systémy budou lépe chápat širší kontext konverzace, což jim umožní lépe řešit nejednoznačnosti a efektivněji reagovat.
* '''Učení s menším množstvím dat:''' Výzkum se soustředí na techniky, které umožní trénovat kvalitní modely pro jazyky nebo dialekty, pro které nejsou k dispozici obrovské datové sady (tzv. ''few-shot'' nebo ''zero-shot learning'').
* '''Zpracování na zařízení (On-Device):''' Přesun výpočtů z cloudu přímo na koncové zařízení (mobilní telefon, chytré hodinky) zvýší rychlost odezvy a posílí soukromí uživatelů.
* '''Multimodální systémy:''' Kombinace rozpoznávání řeči s dalšími vstupy, jako je analýza obrazu (např. odezírání ze rtů), může dramaticky zvýšit přesnost v hlučném prostředí.

== 🧑‍🏫 Pro laiky ==
Představte si, že učíte počítač poslouchat a zapisovat to, co slyší, podobně jako člověk. Tento proces má dva hlavní kroky:

1. **Poslouchání zvuků:** Počítač nejprve rozloží mluvené slovo na základní "zvukové cihličky" (odborně fonémy). Tomuto kroku pomáhá tzv. '''akustický model''', který je jako ucho počítače. Naučil se z milionů hodin nahrávek, jak zní jednotlivé hlásky v různých kontextech.

2. **Skládání slov a vět:** Poté, co počítač identifikuje možné hlásky, musí z nich poskládat smysluplná slova a věty. K tomu používá '''jazykový model''', což je v podstatě obrovská "chytrá příručka gramatiky a slovní zásoby". Tento model ví, která slova se v jazyce vyskytují a jaká je pravděpodobnost, že po slově "dám si" bude následovat "zmrzlinu" spíše než "židli".

Když tedy řeknete "Dám si zmrzlinu", akustický model rozpozná zvukové stopy a jazykový model potvrdí, že tato věta dává v [[čeština|češtině]] smysl. Díky kombinaci těchto dvou modelů dokáže počítač s vysokou přesností převést vaši řeč na text.

{{DEFAULTSORT:Rozpoznavani reci}}
{{Aktualizováno|datum=29.12.2025}}
[[Kategorie:Umělá inteligence]]
[[Kategorie:Zpracování přirozeného jazyka]]
[[Kategorie:Počítačová lingvistika]]
[[Kategorie:Interakce člověka s počítačem]]
[[Kategorie:Strojové učení]]
[[Kategorie:Vytvořeno Gemini 2.5 Pro]]

← Starší verze		Verze z 5. 1. 2026, 07:37
Řádek 37:		Řádek 37:

	3. '''Akustický model:''' Toto je jádro systému. Akustický model přijímá sekvenci příznaků a jeho úkolem je určit pravděpodobnost, že daný úsek zvuku odpovídá určité základní jednotce řeči, jako je [[foném]] (např. /a/, /k/, /t/).		3. '''Akustický model:''' Toto je jádro systému. Akustický model přijímá sekvenci příznaků a jeho úkolem je určit pravděpodobnost, že daný úsek zvuku odpovídá určité základní jednotce řeči, jako je [[foném]] (např. /a/, /k/, /t/).
	* Tradiční přístup: Kombinace [[Gaussovský smíšený model\|Gaussovských smíšených modelů]] (GMM) a [[Skrytý Markovův model\|Skrytých Markovových modelů]] (HMM).		* '''Tradiční přístup:''' Kombinace [[Gaussovský smíšený model\|Gaussovských smíšených modelů]] (GMM) a [[Skrytý Markovův model\|Skrytých Markovových modelů]] (HMM).
	* Moderní přístup: [[Hluboké učení\|Hluboké neuronové sítě]] (DNN, RNN, LSTM), které se učí mapovat akustické příznaky na fonémy přímo z obrovského množství dat.		* '''Moderní přístup:''' [[Hluboké učení\|Hluboké neuronové sítě]] (DNN, RNN, LSTM), které se učí mapovat akustické příznaky na fonémy přímo z obrovského množství dat.

	4. '''Jazykový model:''' Jazykový model dodává systému kontext. Obsahuje statistické informace o tom, jaká slova a slovní spojení jsou v daném jazyce pravděpodobná. Pomáhá rozhodnout mezi foneticky podobnými slovy (např. "led" a "let") na základě kontextu věty. Typicky se používají n-gramové modely nebo pokročilejší neuronové jazykové modely.		4. '''Jazykový model:''' Jazykový model dodává systému kontext. Obsahuje statistické informace o tom, jaká slova a slovní spojení jsou v daném jazyce pravděpodobná. Pomáhá rozhodnout mezi foneticky podobnými slovy (např. "led" a "let") na základě kontextu věty. Typicky se používají n-gramové modely nebo pokročilejší neuronové jazykové modely.
Řádek 48:		Řádek 48:

	* '''Podle velikosti slovníku:'''		* '''Podle velikosti slovníku:'''
	* Systémy s malým slovníkem: Rozpoznávají jen několik desítek slov (např. číslice, příkazy "ano"/"ne"). Jsou velmi přesné a výpočetně nenáročné.		* '''Systémy s malým slovníkem:''' Rozpoznávají jen několik desítek slov (např. číslice, příkazy "ano"/"ne"). Jsou velmi přesné a výpočetně nenáročné.
	* Systémy s velkým slovníkem: Zvládají desítky až stovky tisíc slov a jsou určené pro obecné diktování.		* '''Systémy s velkým slovníkem:''' Zvládají desítky až stovky tisíc slov a jsou určené pro obecné diktování.

	* '''Podle závislosti na mluvčím:'''		* '''Podle závislosti na mluvčím:'''
Řádek 90:		Řádek 90:
	Představte si, že učíte počítač poslouchat a zapisovat to, co slyší, podobně jako člověk. Tento proces má dva hlavní kroky:		Představte si, že učíte počítač poslouchat a zapisovat to, co slyší, podobně jako člověk. Tento proces má dva hlavní kroky:

	1. Poslouchání zvuků: Počítač nejprve rozloží mluvené slovo na základní "zvukové cihličky" (odborně fonémy). Tomuto kroku pomáhá tzv. '''akustický model''', který je jako ucho počítače. Naučil se z milionů hodin nahrávek, jak zní jednotlivé hlásky v různých kontextech.		1. '''Poslouchání zvuků:''' Počítač nejprve rozloží mluvené slovo na základní "zvukové cihličky" (odborně fonémy). Tomuto kroku pomáhá tzv. '''akustický model''', který je jako ucho počítače. Naučil se z milionů hodin nahrávek, jak zní jednotlivé hlásky v různých kontextech.

	2. Skládání slov a vět: Poté, co počítač identifikuje možné hlásky, musí z nich poskládat smysluplná slova a věty. K tomu používá '''jazykový model''', což je v podstatě obrovská "chytrá příručka gramatiky a slovní zásoby". Tento model ví, která slova se v jazyce vyskytují a jaká je pravděpodobnost, že po slově "dám si" bude následovat "zmrzlinu" spíše než "židli".		2. '''Skládání slov a vět:''' Poté, co počítač identifikuje možné hlásky, musí z nich poskládat smysluplná slova a věty. K tomu používá '''jazykový model''', což je v podstatě obrovská "chytrá příručka gramatiky a slovní zásoby". Tento model ví, která slova se v jazyce vyskytují a jaká je pravděpodobnost, že po slově "dám si" bude následovat "zmrzlinu" spíše než "židli".

	Když tedy řeknete "Dám si zmrzlinu", akustický model rozpozná zvukové stopy a jazykový model potvrdí, že tato věta dává v [[čeština\|češtině]] smysl. Díky kombinaci těchto dvou modelů dokáže počítač s vysokou přesností převést vaši řeč na text.		Když tedy řeknete "Dám si zmrzlinu", akustický model rozpozná zvukové stopy a jazykový model potvrdí, že tato věta dává v [[čeština\|češtině]] smysl. Díky kombinaci těchto dvou modelů dokáže počítač s vysokou přesností převést vaši řeč na text.

Rozpoznávání řeči - Historie editací

Filmedy: Nahrazení textu „\*\*([^ ].*?[^ ])\*\*“ textem „'''$1'''“

InfopediaBot: Bot: AI generace (gemini-2.5-pro + Cache)

Filmedy: Nahrazení textu „\\([^ ].?[^ ])\\*“ textem „'''$1'''“