Skip to main content

Vilka är de vanligaste problemen med taligenkänning?

Programvara för taligenkänning har avancerat kraftigt sedan den först uppfanns, men den har fortfarande flera stora problem som förhindrar att den uteslutande används som en transkriptionsmetod.Några av taligenkänningsproblemen som är svåra att lösa inkluderar variationer i uttalet av ord, individuella accenter, homonymer och oönskade omgivande ljud.En annan uppsättning av taligenkänningsproblem involverar den typ av hårdvara som används för att faktiskt mata in ljudet, eftersom resultaten kan ha en stor inverkan på hur programvaran kommer att tolka talet.Det finns också problemet med att inte känna till sammanhanget för de ord som talas, vilket kan leda till text som inte har någon skiljetecken eller felaktiga stavningar.

Ett av de mest grundläggande taligenkänningsproblemen är kvaliteten på de inmatningsenheter som används.Om en mikrofon inte är tillräckligt känslig mdash;eller är alltför känslig mdash;Då kan det skapa ljudinformation som är svår för programvaran att dechiffrera.Detta gäller särskilt när en mikrofon är så känslig att talet är förvrängd, vilket gör erkännandeprogramvaran nästan värdelös.Ett liknande problem härstammar från bakgrundsbrus som kan vara problematiskt för att skilja sig från huvudtalet och kan orsaka felaktiga översättningar när de ingår i talbehandlingen.

Skillnader i uttal, accenter och talande kadens kombineras för att bilda en av de mer genomgripande taligenkänningarnaproblem.När ett enda ord kan uttalas på flera sätt kan programvaran bli förvirrad och tolka vad som sägs.Detsamma kan uppstå när en person talar långsammare eller snabbare än programmet förväntar sig.Det finns några partiella lösningar, till exempel att utbilda programvaran i talmönstren för en enda användare och använda dynamiska tidsvilliga algoritmer för att matcha talet till databasen med prover, men de löser inte alla problem.

De mest komplexa komplexaAv taligenkänning är problem att identifiera sammanhanget för de ord som talas.Datorprogramvara kan inte identifiera den avsedda betydelsen av en samling ord, vilket leder till ett antal problem med den transkriberade texten.Ord som har ett liknande ljud, till exempel deras och där, kan bara stavas exakt när användningen av användningen är känd.Av samma anledning är exakt skiljetecken nästan omöjligt för programvaran att bara placera baserat på att känna till ordens sekvens.Det finns funktionell transkriptionsprogramvara som används i fält som medicin, men resultatet är ofta ett ordblock utan någon typ av separation, vilket innebär att det fortfarande tar en mänsklig transkriptionist för att redigera dokumentet och skapa en läsbar slutlig kopia.