Hloubka kódování zvuku je co? Definice, vzorec
Kódování zvuku se týká způsobů ukládání a přenosu zvukových dat. Následující článek popisuje, jak tyto kódy fungují.
Obsah
Všimněte si, že toto je poměrně složité téma - "Hloubka kódování zvuku". Definice tohoto konceptu bude také uvedena v našem článku. Pojmy uvedené v tomto článku jsou určeny pouze k obecnému přezkoumání. Ukážeme koncepce hloubky zvukové kódování. Některé z těchto referenčních dat mohou být užitečné pro pochopení toho, jak API funguje, a jak formulovat a zpracovávat zvuk ve vašich aplikacích.
Jak najít hloubku kódování zvuku
Formát zvuku není ekvivalentní kódování zvuku. Například populární formát souboru, například WAV, určuje formát hlavičky zvukového souboru, ale sám o sobě není kódování zvuku. WAV audio soubory často, ale ne vždy používat lineární PCM kódování.
Na druhou stranu FLAC je formát souboru i kódování, což někdy vede k určitému zmatku. V rozhraní Speech API FLAC je hloubka kódování zvuku jediným kódováním, které vyžaduje, aby audio data obsahovala hlavičku. Všechna ostatní kódování označují tichá zvuková data. Když odkazujeme na rozhraní FLAC ve rozhraní API pro řeč, odkazujeme vždy na kodek. Když odkazujeme na formát souboru FLAC, použijeme formát ".FLAC".
Nemusíte specifikovat kódování a vzorkovací frekvenci pro soubory WAV nebo FLAC. Je-li tento parametr vynechán, rozhraní Cloud API automaticky určí kódování a vzorkovací frekvenci pro soubory WAV nebo FLAC na základě záhlaví souboru. Pokud zadáte hodnotu kódování nebo vzorkovací frekvenci, která neodpovídá hodnotě v záhlaví souboru, rozhraní cloud API vrátí chybu.
Hloubka kódování zvuku je co?
Audio sestává z oscilogramů skládajících se z interpolačních vln různých frekvencí a amplitud. Pro reprezentaci těchto průběhů v digitálním prostředí musí být signály odmítnuty rychlostí, která může představovat nejvyšší kmitočtové zvuky, které chcete reprodukovat. Je také nezbytné, aby ukládaly dostatečnou hloubku bitů, aby reprezentovaly správnou amplitudu (hlasitost a měkkost) oscilogramů podle vzorku zvuku.
Schopnost zařízení pro zpracování zvuku znovu vytvářet frekvence je známá jako frekvenční odezva a schopnost vytvářet správnou hlasitost a měkkost je známá jako dynamický rozsah. Společně jsou tyto termíny často nazývány věrností zvukových zařízení. Hloubka kódování zvuku je prostředkem, kterým můžete obnovit zvuk pomocí těchto dvou základních principů, stejně jako schopnost efektivně ukládat a přenášet tato data.
Vzorkovací frekvence
Zvuk existuje jako analogová vlnová forma. Segment digitálního zvuku se blíží této analogové vlně a vzorkuje její amplitudu dostatečně vysokou rychlostí pro simulaci přirozených frekvencí vlny. Vzorkovací frekvence digitálního audio signálu určuje počet vzorků odebraných z původního audio materiálu (za sekundu). Vysoká vzorkovací frekvence zvyšuje schopnost digitálního zvuku přesně reprezentovat vysoké frekvence.
Jako důsledek vzorkovací teorém Nyquist-Shannon, obvykle je nutné, aby se pokusili alespoň dvakrát frekvenci jakékoliv zvukové vlny, které mají být zaznamenány v digitální podobě. Například reprezentovat zvuk v rozsahu lidského sluchu (20-20.000 Hz), digitální audio formát by měl zobrazovat alespoň 40.000 krát za sekundu (což je důvod, že zvuk CD používá vzorkovací frekvenci 44100 Hz).
Hloubka hloubky
Hloubka kódování zvuku je účinek na dynamický rozsah daného zvukového vzorku. Vyšší bitová hloubka umožňuje přesnější amplitudy. Pokud máte ve stejném zvukovém souboru hodně hlasitých a měkkých zvuků, budete potřebovat více bitů pro správné vysílání těchto zvuků.
Vyšší bitové hloubky také snižují poměr signálu k šumu u zvukových vzorků. Pokud je hloubka kódování zvuku 16 bitů, hudební zvuk CD se přenáší pomocí těchto hodnot. Některé metody komprese mohou kompenzovat menší bitové hloubky, ale jsou to obvykle ztráty. DVD Audio používá 24 bitů hloubky, zatímco u většiny telefonů je hloubka kódování zvuku 8 bitů.
Nekomprimovaný zvuk
Většina zpracování digitálního zvuku používá tyto dvě metody (vzorkovací frekvence a bitová hloubka) pro jednoduché ukládání zvukových dat. Jedna z nejoblíbenějších technologií digitálního zvuku (popularizovaná pomocí CD) je známá jako modulace pulzního kódu (nebo PCM). Zvuk je vybrán v nastavených intervalech a amplituda vzorkované vlny v tomto bodě je uložena jako digitální hodnota pomocí bitové hloubky vzorku.
Lineární PCM (což znamená, že amplitudová odezva je lineárně homogenní ve vzorku) je standard použitý na CD a v kódování API řeči LINEAR16. Obě kódování vytvářejí nekomprimovaný bajtový tok odpovídající přímo zvukovému datu a obě standardy obsahují 16 bitů hloubky. Lineární PCM využívá vzorkovací frekvenci 44,100Hz na CD, která je vhodná pro rekompozici hudby. Avšak vzorkovací frekvence 16 000 Hz je vhodnější pro rekompozici řeči.
Lineární PCM (LINEAR16) je příklad nekomprimovaného zvuku, protože digitální data jsou uložena podobným způsobem. Při čtení jednokanálového bajtového proudu zakódovaného pomocí Linear PCM můžete každých 16 bitů (2 bajty) počítat, abyste získali jinou hodnotu amplitudy signálu. Prakticky všechna zařízení mohou zpočátku manipulovat s takovými digitálními daty - můžete trimrovat zvukové soubory Linear PCM pomocí textového editoru, ale nekomprimovaný zvuk není nejúčinnější způsob přenosu nebo ukládání digitálního zvuku. Z tohoto důvodu většina audia používá metody digitální komprese.
Komprimovaný zvuk
Audio data, stejně jako všechna data, jsou často komprimovaná, což usnadňuje jejich ukládání a přepravu. Komprese v kódování zvuku může nastat buď bez ztráty nebo se ztrátou. Kompresi bez ztráty lze dekomprimovat a obnovit digitální data do původní podoby. Komprese nutně odstraní některé informace během dekompresní procedury a je parametrizována tak, aby indikovala stupeň tolerance ke kompresní technice pro vymazání dat.
Bez ztráty
Bez ztráty je digitální zvuk komprimován pomocí komplexních permutací uložených dat, což nevede ke zhoršení kvality původního digitálního vzorku. S bezztrátovou kompresí, pokud jsou data vybalena do původní digitální podoby, informace se neztratí.
Takže proč kompresní metody bez ztráty mají někdy optimalizační parametry? Tyto parametry často zpracovávají velikost souboru pro dekompresní čas. FLAC například používá parametr úrovně komprese od 0 (nejrychlejší) do 8 (nejmenší velikost souboru). Vyšší komprese FLAC neztratí žádné informace ve srovnání s kompresí nižší úrovně. Místo toho komprimační algoritmus prostě potřebuje vynaložit více výpočetního výkonu při vytváření nebo dekonstrukci původního digitálního zvuku.
Speech API podporuje dvě bezztrátové kódování: FLAC a LINEAR16. Technicky LINEAR16 není "bezztrátová komprese", protože komprese se primárně nepoužívá. Pokud je pro vás důležitá velikost souboru nebo přenos dat, vyberte možnost FLAC jako možnost kódování zvuku.
Ztráta komprese
Komprese zvukových dat eliminuje nebo snižuje některé typy informací při vytváření komprimovaných dat. Speech API podporuje několik ztrátových formátů, i když je třeba je vyhnout, protože ztráta dat může ovlivnit přesnost rozpoznávání.
Populární MP3 kodek je příkladem metody ztrátového kódování. Všechny metody komprese MP3 odstraňují zvuk mimo běžný rozsah zvuku osoby a upravují úroveň komprese úpravou efektivní přenosové rychlosti MP3 kodeku nebo počtu bitů za sekundu pro uložení data zvuku.
Například stereo CD používající lineární PCM 16 bitů má efektivní přenosovou rychlost. Vzorec pro hloubku kódování zvuku:
441000 * 2 kanály * 16 bitů = 1411200 bitů za sekundu (bps) = 1411 Kbps
Komprese MP3 například odstraňuje takové digitální data za použití datových rychlostí, jako je 320 kbit / s, 128 kb / s nebo 96 kb / s, což vede ke zhoršení kvality zvuku. MP3 také podporuje proměnné bitové rychlosti, které mohou dále komprimovat zvuk. Obě metody ztrácejí informace a mohou ovlivnit kvalitu. S jistotou můžeme říci, že většina lidí může určit rozdíl mezi kódovanou hudbou ve formátu MP3 96 kbit / s nebo 128 kbps.
Jiné formy komprese
MULAW - 8-bitové PCM kódování, kde je vzorek modulován amplitudy logaritmické spíše než lineárně. Výsledkem je, že uLaw snižuje efektivní dynamický rozsah komprimovaného zvuku. Ačkoli ulaw byla zavedena speciálně pro optimalizaci kódování řeči na rozdíl od jiných typů audio, 16-bitový LINEAR16 (nekomprimovaný PCM) je stále mnohem lepší než 8-bitového stlačeného zvuku ulaw.
AMR a AMR_WB moduly zakódované zvukové kazety zavedením variabilní bitové rychlosti do původního zvukového vzorku.
Přestože Speech API podporuje několik ztrátových formátů, měli byste se jim vyhnout, pokud máte kontrolu nad zdrojovým zvukem. I když smazání takových dat ztrátovou kompresí nemusí mít významný vliv na zvuk, který slyší lidské ucho, ztráta takových dat pro mechanismus rozpoznávání řeči může významně snížit přesnost.
- Práce s textem. Jak zjistit kódování souboru
- Jak efektivní je kódování alkoholu a jak se provádí?
- Jaký je rozdíl mezi formátem FLAC a ostatními kodeky digitálního zvuku?
- Co je formát AAC?
- Zvukový soubor je jaký formát a jaké rozšíření?
- Kódování a dekódování je obtížné?
- Proč je binární kódování univerzální? Programovací metody
- Informační objekt: definice, typy a funkce
- Kódování textu
- Chcete se otevřít?
- Jak v aplikaci Excel změnit kódování. Tři způsoby
- Existují dva způsoby, jak změnit kódování v aplikaci Word
- Dva způsoby, jak změnit kódování v aplikaci Word
- Programy pro změnu formátu hudby a videa
- Bezhlučné kódování: jak to všechno začalo?
- Přehled nejlepších konvertorů zvuku
- Kódování html. Jak jsou webové stránky vymalovány
- Jak změnit formát VOB
- Jak mohu kódovat video?
- Kódování textových informací v počítači
- Formát MOV a jeho výhody