Technologie

Wat is stemherkenning?

Spraakherkenning kan verwijzen naar een van de twee soorten informatica: forensische spraakidentificatie of spraak-naar-tekstcapaciteit.Dit artikel behandelt de laatste definitie.

Spraakherkenning of spraakherkenning in dit geval is een computertechnologie die audio -invoer gebruikt voor het invoeren van gegevens in plaats van een toetsenbord.Sprekend in een microfoon produceert bijvoorbeeld hetzelfde resultaat als het handmatig typen van woorden met een toetsenbord.Simpel gezegd, spraakherkenningssoftware is ontworpen met een interne database met herkenbare woorden of zinnen.Het programma komt overeen met de audio -handtekening van spraak met overeenkomstige vermeldingen in de database.

Hoewel het veranderen van spraak in tekst misschien eenvoudig klinkt, is het een uiterst moeilijke taak.Het probleem ligt in de vrijwel oneindige reeks individuele spraakpatronen en accenten, verergerd door de natuurlijke menselijke neiging om woorden samen te laten draaien.

Een illustratie van de inherente uitdagingen van spraakherkenningssoftware verschijnt op een T-shirt gemaakt door Apple-onderzoekers.Het shirt leest, ik hielp Apple een mooi strand te verwoesten.Wanneer het hardop wordt gesproken, klinkt het alsof, Ik heb Apple geholpen spraak te herkennen.

Verschillende modellen van spraakherkenningssoftware worden gebruikt voor een scala aan applicaties, van persoonlijke dictatie tot commerciële geautomatiseerde oproeproutering, van het helpen van het gehandicapte tot sport- en nieuwsevenementondertiteling.Elk model gedraagt zich anders en heeft zijn eigen mogelijkheden en grenzen.

spraakherkenningsprogramma's waarvoor de gebruiker de software moet trainen om zijn specifieke gestileerde spraakpatronen te herkennen, worden Sprekerafhankelijke

-systemen genoemd.Individuen gebruiken dit soort programma's vaak thuis of op kantoor.E -mail, memo's, letters, gegevens en tekst kunnen worden ingevoerd door in een microfoon te spreken.

Sommige spraakherkenningssystemen, discrete spraak Systemen genoemd, vereisen dat de gebruiker duidelijk en langzaam spreekt en woorden scheiden. Continue spraak

Systemen zijn ontworpen om een meer natuurlijke manier van spreken te begrijpen.

Discrete speech spraakherkenningssystemen worden veel gebruikt voor klantenservice -routing.Het systeem is spreker onafhankelijk , maar begrijpt slechts een kleine pool van woorden of zinnen.De beller krijgt de keuze om een vraag te beantwoorden, meestal met ja of nee.Na een antwoord te hebben ontvangen, escaleert het systeem de beller naar het volgende niveau.Als de beller antwoordt met een uniek antwoord, is de geautomatiseerde reactie meestal, sorry, ik heb je niet begrepen;Probeer het opnieuw, met een herhaling van de vraag en beschikbare antwoorden.Dit type spraakherkenning wordt ook wel grammatica beperkte herkenning genoemd.

Continue spraak is een meer geavanceerde vorm van spraakherkenningssoftware, waarbij de beller op natuurlijke wijze kan spreken om een probleem uit te leggen of een service aan te vragen.Dit programma is ontworpen om sleutelwoorden of zinnen uit te kiezen en een statistische best te maken te maken over wat de klant wil.Spreken helpt duidelijk stemherkenning bij het identificeren van de behoefte.Dit type systeem heeft een veel intensievere database dan discrete spraaksystemen en wordt ook wel natuurlijke taalherkenning genoemd.

Automatische spraakherkenning (ASR) is een model van spraakherkenning die is ontworpen voor dictatie.Deze software verschilt van eerdere modellen in die zin dat het niet streeft om te begrijpen wat er wordt gezegd, alleen om de gesproken woorden te identificeren.Aangezien veel woorden in het Engelse taalgeluiden, worden fouten gemakkelijk gemaakt.Grote bedrijven zoals Microsoft investeren echter in spraakherkenning, en Bill Gates eigen voorspelling heeft ASR inzicht in het jaar 2011. ASR -software wordt vaak gevonden op digitale stemrecorders. Dominante spelers in spraakherkenningssoftware zijn scansoft en nuance geweest, met het voormalige bedrijf dat de laatste verwerft.Kleinere spelers zijn onder andere Fonix -spraak, Aculab en Verbio, met grote bedrijvenZoals IBM en de eerder genoemde Microsoft ook investeren in de technologie.Hoewel velen nog steeds het gevoel hebben dat het meer problemen is om software te trainen en fouten te corrigeren dan om gewoon een toetsenbord te gebruiken, komt er een tijd wanneer spraakherkenningssoftware die kloof waarschijnlijk zal sluiten.Het vergroten van toetsenborden met het discriminatievermogen om spraak te gebruiken, zal waarschijnlijk gemeengoed worden.

Software voor spraakherkenningen wint aan populariteit naarmate het geavanceerder wordt.Het is vooral handig in het bedrijfsleven waar het een live -operator kan vervangen om oproepen te trechter, informatie te verspreiden, bestellingen aan te nemen en andere zeer nuttige functies uit te voeren.Het krijgt echter ook gunst als een desktoptoepassing, geholpen door gerenommeerde software zoals scansofts, DragonnaturallallySpeaking en IBMS Vievoice