Skip to main content

Vad är röstigenkänning?

Röstigenkänning kan hänvisa till en av två typer av datavetenskap: kriminalteknisk röstidentifiering eller tal-till-text-kapacitet.Den här artikeln behandlar den senare definitionen.

Röstigenkänning eller taligenkänning i detta fall är en datateknik som använder ljudinmatning för att ange data snarare än ett tangentbord.Att tala till en mikrofon ger till exempel samma resultat som att skriva ord manuellt med ett tangentbord.Enkelt angiven är röstigenkänningsprogramvara utformad med en intern databas med igenkännbara ord eller fraser.Programmet matchar ljudsignaturen för tal med motsvarande poster i databasen.

Även om att förvandla tal till text kan låta enkelt, är det en extremt svår uppgift.Problemet ligger i det praktiskt taget oändliga utbudet av individuella talmönster och accenter, förvärrade av den naturliga mänskliga tendensen att sammanföra ord.

En illustration av de inneboende utmaningarna för program för röstigenkänning visas på en T-shirt skapad av Apple-forskare.Skjortan lyder, jag hjälpte Apple att förstöra en trevlig strand.När det talas högt, låter det som, Jag hjälpte Apple att känna igen tal.

Olika modeller av röstigenkänningsprogramvara används för en rad applikationer, från personlig diktat till kommersiell automatiserad samtalsrutning, från att hjälpa funktionshindrade till sport- och nyhetsevenemangundertexter.Varje modell uppför sig annorlunda och har sina egna kapaciteter och gränser.

Röstigenkänningsprogram som kräver att användaren utbildar programvaran för att känna igen deras speciella stiliserade talmönster kallas Högtalarberoende -system.Individer använder vanligtvis dessa typer av program hemma eller på kontoret.E -post, memos, bokstäver, data och text kan matas in genom att prata i en mikrofon.

Några röstigenkänningssystem, kallade Diskreta tal System, kräver att användaren talar tydligt och långsamt och separerar ord. Kontinuerliga tal System är utformade för att förstå ett mer naturligt sätt att tala.

Diskreta talröstigenkänningssystem används allmänt för kundtjänst.Systemet är Högtalaroberoende , men förstår bara en liten pool av ord eller fraser.Den som ringer ges ett val att svara på en fråga, vanligtvis med ja eller nej.Efter att ha fått ett svar eskalerar systemet den som ringer till nästa nivå.Om den som ringer svarar med ett unikt svar är det automatiserade svaret vanligtvis, förlåt, jag förstod dig inte;Försök igen, med en upprepning av frågan och tillgängliga svar.Denna typ av röstigenkänning kallas också grammatikbegränsad erkännande.

Kontinuerligt tal är en mer sofistikerad form av röstigenkänningsprogramvara, där den som ringer kan tala naturligt för att förklara ett problem eller begära en tjänst.Detta program är utformat för att välja ut nyckelord eller fraser och göra en statistisk bäst gissa vad kunden vill ha.Att tala helt klart hjälper röstigenkänning vid att identifiera behovet.Denna typ av system har en mycket mer intensiv databas än diskreta talsystem och kallas också naturligt språkigenkänning.

Automatisk taligenkänning (ASR) är en modell för röstigenkänning utformad för diktat.Denna programvara skiljer sig från tidigare modeller genom att den inte strävar efter att förstå vad som sägs, bara för att identifiera de ord som talas.Eftersom många ord på engelska ljudet så görs misstag lätt.Men stora företag som Microsoft investerar i röstigenkänning, och Bill Gates egen förutsägelse har ASR -förståelse kontinuerligt tal år 2011. ASR -programvara finns ofta på digitala röstinspelare.

Dominanta spelare i röstigenkänningsprogramvara har varit Scansoft och Nuance, med det tidigare företaget som förvärvar det senare.Mindre spelare inkluderar bland andra Fonix -tal, Aculab och Verbio med stora företagLiksom IBM och den ovannämnda Microsoft investerar också i tekniken.Även om många fortfarande känner att det är mer besvär att träna programvara och korrigera misstag än att helt enkelt använda ett tangentbord, kommer en tid när röstigenkänningsprogramvaran troligen kommer att stänga detta gap.Att förstärka tangentbordet med diskriminerande förmåga att använda tal kommer förmodligen att bli vanligt.

Software för röstigenkänning ökar populariteten eftersom den blir mer sofistikerad.Det är särskilt användbart i affärer där det kan ersätta en liveoperatör till trattsamtal, sprida information, ta order och utföra andra mycket användbara funktioner.Det får emellertid också fördel som en skrivbordsapplikation, med hjälp av känd programvara som Scansofts, Dragonnaturallyspeaking och IBMS Viavoice .