Kódování Unicode: standardní kódování znaků
Každý uživatel internetu při pokusu o nastavení jedné nebo několika jeho funkcí alespoň jednou viděl na displeji napsaný text v latinkách
Obsah
Definice
Kódování Unicode je standard kódování znaků. Byla navržena neziskovou organizací Unicode Inc. v roce 1991. Standard je navržen tak, aby v jednom dokumentu kombinoval co nejvíce různých typů symbolů. Stránka, která je na jejím základě vytvořena, může obsahovat písmena a hieroglyfy z různých jazyků (z ruštiny do korejštiny) a matematické znaky. Všechny znaky v tomto kódování jsou zobrazeny bez problémů.
Důvody pro vytvoření
Jednou, dlouho před objevením systému Unicode, bylo kódování vybráno na základě preferencí autora dokumentu. Z tohoto důvodu často četl jeden dokument, museli jste použít různé tabulky. Někdy to muselo být provedeno několikrát, což značně komplikovalo život běžného uživatele. Jak již bylo řečeno, řešení tohoto problému v roce 1991 navrhla nezisková organizace Unicode Inc., která navrhla nový typ kódování znaků. Byl povolán, aby spojil morálně zastaralé a rozmanité standardy. "Unicode" - kódování, které umožnilo dosáhnout v té době nemyslitelné: vytvořit nástroj, který podporuje obrovské množství znaků. Výsledek překonal mnoho očekávání - objevily se dokumenty, které současně obsahovaly anglický i ruský text, latinské a matematické výrazy.
Vytvoření jediného kódování však předcházelo potřeba vyřešit řadu problémů, které vznikly kvůli velkému množství standardů, které v té době existovaly. Mezi nejčastější patří:
- elfické spisy nebo "karkozyabry";
- omezená sada znaků;
- problém kódování konverze;
- duplikace písem.
Krátké historické odbočení
Představte si, že na dvoře 80.. Počítačový hardware není tak časté a má tvar odlišný od dnešního dne. Zatímco každý OS je jedinečný a rafinované specifickým potřebám každého nadšenec. Potřeba výměny informací se převádí do dalšího přepracování a všechno. Snaží číst dokument vytvořený pomocí jiného operačního systému, často se zobrazí zvláštní sadu znaků, a hra začíná kódování. To není vždy to udělat rychle a někdy nutné dokument nelze otevřít za šest měsíců, a ještě později. Lidé, kteří si často vyměňují informace, vytvořit pro sebe převodní tabulku. A pak pracovat na nich odhaluje zajímavý detail: nutnost vytvořit v obou směrech, „Z mého ve své“ tam a zpět. Dělat banální inverze výpočetní stroj nemůže za něj v pravém sloupci zdroje a levá - výsledek, ale ne obráceně. Pokud vidíte, že je třeba používat žádné speciální znaky v dokumentu, musely být přidány jako první, a pak další, a vysvětlit partnerovi, co potřebuje k tomu, aby tyto znaky nestanou „blábol“. A nezapomínejme, že pro každé kódování musel vyvinout nebo realizovat vlastní fonty, které vedly k vytvoření obrovského množství duplikátů v OS.
Představte si dále, že písma na stránce, uvidíte 10 kusů identické Times New Roman s malou poznámkou: UTF-8, UTF-16, ANSI, UCS-2. Nyní chápete, že vývoj všeobecných norem bylo nutné?
"Otcové-tvůrci"
Počátky vzniku Unicode lze nalézt v roce 1987, kdy Joe Becker ze společnosti Xerox, spolu s Lee Collins a Mark Davis z Apple začal výzkum v oblasti praktického vytvoření univerzální znakové sady. V srpnu 1988, Joe Becker zveřejnila předlohu návrhu na vytvoření 16-bit multi-kulturní mezinárodního kódovacího systému.
O několik měsíců později Unicode pracovní skupina byla rozšířena o Ken Whistler a Mike Kernegana z RLG, Glenn Wright z Sun Microsystems a několik dalších odborníků, která má umožnit dokončení prací na předběžné formování společné kódovací standard.
Obecný popis
Unicode je založen na pojetí symbolu. Tato definice je chápána jako abstraktní jev existující v konkrétní formě psaní a realizovaný grafemy (jeho "portréty"). Každý znak je nastaven v Unicode jedinečným kódem patřícím k určitému bloku standardu. Například grapheme B je v angličtině a ruské abecedě, ale v Unicode odpovídá 2 různým znakům. Přeměňují se malá písmena, to znamená, že každý z nich je popsán databázovým klíčem, sadou vlastností a úplným názvem.
Výhody Unicode
Od ostatních současníků se kódování Unicode vyznačuje obrovskou rezervou znaků pro "šifrování" znaků. Faktem je, že jeho předchůdci měli 8 bitů, tj. Podporovali 28 znaků, ale nový vývoj měl již 216 znaků, což byl obrovský krok kupředu. To umožnilo kódovat téměř všechny existující a distribuované abecedy.
S příchodem systému Unicode nebylo nutné používat převodní tabulky: jako jediný standard jednoduše zrušily jejich potřebu. Stejně tak "krakozyabry" zmizely také do zapomnění - jediná norma to znemožnila, stejně jako vyloučila potřebu vytvářet duplicitní písma.
Vývoj Unicode
Pokrok samozřejmě nezastaví a od první představení uplynulo 25 let. Kódy Unicode však tvrdošíjně udržují svou pozici ve světě. V mnoha ohledech to bylo možné díky skutečnosti, že se stalo snadným implementáním a šířením, které byly rozpoznány vývojáři proprietárního (placeného) a open source softwaru.
Bychom neměli věřit, že dnes vidíme stejný kód „Unicode“ jako čtvrtletí před sto lety. V současné době byla nahrazena verze 5.h.h, a počet kódovaných symbolů se zvýšil na 231. Na možnost použití větší míru známky odmítl ještě udržovat podporou UNICODE-16 (kódování, kde je největší množství jejich omezený počet 216). Od svého vzniku až do verze 2.0.0 „The Standard Unicode“ se zvýšil počet znaků, které je součástí téměř 2 krát. příležitostí a další růst v příštích letech. Ve verzi 4.0.0 je již potřeba zvýšit standard sám, a to bylo děláno. Jako výsledek, „Unicode“ našel formu, v jaké ji známe dnes.
Co jiného je v aplikaci Unicode?
Kromě obrovského, stále se zvyšujícího počtu postav, "Unicode" - kódování textových informací má ještě jednu užitečnou funkci. Mluvíme o tzv. Normalizaci. Namísto posouvání celého symbolu dokumentu podle znaku a nahrazení odpovídajících ikon z tabulky shody se použije jeden ze stávajících normalizačních algoritmů. O čem to mluvíme?
Namísto výdajů počítačových zdrojů na pravidelnou kontrolu stejného symbolu, který může být podobný v různých abecedách, je použit speciální algoritmus. Umožňuje vygenerovat podobné znaky v samostatném grafu vyhledávací tabulky a odkazovat se na ně již a ne opakovat kontrolu všech dat.
Existují čtyři takové algoritmy vyvinuté a implementované. V každé z nich se transformace uskutečňuje podle striktně definovaného principu, který se liší od ostatních, a proto není možné označit jeden z nich za nejefektivnější. Každý byl vyvinut pro specifické potřeby, byl implementován a úspěšně použit.
Rozšiřování standardu
Za 25 let své historie kódování Unicode pravděpodobně získalo největší distribuci na světě. Podle tohoto standardu jsou také upraveny programy a webové stránky. Rozsah aplikace lze říci skutečností, že dnes Unicode využívá více než 60% internetových zdrojů.
Nyní víte, kdy se objevila standardní "Unicode". Co je to, také znáte a budete schopni ocenit celou hodnotu vynálezu vytvořenou skupinou specialistů společnosti Unicode Inc. před více než 25 lety.
- Práce s textem. Jak zjistit kódování souboru
- ASCII (americký standardní kód pro výměnu informací) - základní kódování textu pro latinskou abecedu
- ASCII, symboly: popis, kódová tabulka a pohledy
- Kódování a dekódování je obtížné?
- Proč je binární kódování univerzální? Programovací metody
- UTF-8 - kódování znaků
- Htaccess (kódování): nastavení, příklady použití
- Smiles jsou japonské znaky a text. Japonské úsměvy kaomoji
- Kódování textu
- EOT - co je to? Jak byly implementovány písma s otevřeným typem?
- Jak vložit slovo "Gamma" do aplikace Word
- Jak v aplikaci Excel změnit kódování. Tři způsoby
- Existují dva způsoby, jak změnit kódování v aplikaci Word
- Dva způsoby, jak změnit kódování v aplikaci Word
- Klasifikátor OKPD: úkoly, zařízení, struktura
- Bezhlučné kódování: jak to všechno začalo?
- Kódování html. Jak jsou webové stránky vymalovány
- Na cestě přes internet. URL
- Pro začátečníky PHP programátory: délka řetězce
- Formát CSV nebo Kde čárky umístit?
- Jak mohu kódovat video?