Qu’est-ce qui se passe avec la reconnaissance automatique de la parole ? I HI-COM
Autrefois un rêve de science-fiction, la reconnaissance automatique de la parole (RAP) est aujourd’hui une réalité et devient rapidement une partie intégrante de notre vie, dans le monde entier. Les tendances récentes suggèrent que le recours aux dispositifs de la RAP est en augmentation, car les consommateurs et les entreprises voient les avantages d’une technologie autrefois nouvelle, mais aujourd’hui de plus en plus raffinée. Toutefois, il reste à voir dans quelle mesure et dans quelle direction la RAP peut progresser. Pour comprendre son avenir possible, examinons où en est la RAP, comment fonctionne-t-elle et ce qui peut encore être fait.
Quel est l’état des RAP en 2021 ?
La plupart des personnes qui lisent ces lignes sont à portée de main d’au moins deux dispositifs de RAP. Un sur leur téléphone, et probablement un sur leur ordinateur portable. S’ils sont à la maison, ils peuvent également se trouver à distance de conversation d’un haut-parleur intelligent ou d’un appareil à commande vocale . Ils fonctionnent tous sur la même technologie fondamentale : réception d’un signal audio, conversion des éléments pertinents en texte, interprétation de ce texte et décision d’entreprendre ou non une action en fonction de sa signification.
En Occident la technologie de RAP est dominée par les principaux groupes technologiques habituels, à savoir Google, Apple, Amazon et Microsoft. En Chine, l’industrie locale de RAP se compose de ses propres poids lourds, Alibaba, Tencent, Baidu et Huawei.
Chacune de ces entreprises propose des produits visant à faciliter les processus simples associés à la vie moderne – faire les courses, organiser son emploi du temps, écouter de la musique, chercher des réponses aux questions qui nous trottent dans la tête à 3 heures du matin – sans avoir à interagir une seule fois avec un autre être humain ou à taper une commande. Et ils sont plutôt bons dans ce domaine. La plupart des logiciels de reconnaissance automatique de caractères se situent aujourd’hui autour d’un taux d’erreur de compréhension de 5 %, ce qui équivaut à peu près à celui d’un humain moyen.
Mais si le très haut de gamme Amazon Echo ou le Xiaomi XiaoAI, économiquement abordables, occupent une place dans bon nombre de nos salons, nous n’avons pas encore assisté à une adoption généralisée à l’échelle de la société. Nous ne sommes pas encore en train d’incarner Joaquin Phoenix dans le film Her. Des inquiétudes subsistent quant à la précision, la sécurité et la confidentialité des données.
L’idée que nos appareils nous écoutent en permanence et les multiples scandales qui ont éclaté ces dernières années concernant le recours à des sous-traitants humains pour analyser des conversations privées ont accru le scepticisme à l’égard de la capacité des entreprises technologiques à s’intégrer dans notre vie privée de manière responsable. En outre, la technologie n’étant pas encore au point, des dangers sont perçus dans l’utilisation de la RAP dans des technologies qui pourraient nous nuire ou nuire à d’autres personnes – les voitures, par exemple.
Néanmoins, les tendances montrent que la RAP est là, et qu’elle est faite pour rester. Aux États-Unis, environ un foyer sur cinq dispose désormais d’un assistant à commande vocale et, en Chine, le marché des produits domestiques intelligents connaît une croissance annuelle de 20 à 30 %. Nous voyons maintenant des interrupteurs, des fours, des thermostats et même des aspirateurs commandés par la voix.
Les entreprises automobiles se livrent à une concurrence agressive pour proposer des systèmes de RAP avancés aux consommateurs. Non seulement ces systèmes sont pratiques, mais ils sont également considérés comme une alternative sûre aux activités susceptibles de distraire les conducteurs, comme le fait de détourner le regard de la route pour répondre à un appel ou régler la stéréo.
Dans les entreprises, les RAP révolutionnent les processus laborieux et coûteux. La transcription est le point fort de cette révolution. Des services comme Amazon Transcribe sont conçus pour permettre aux entreprises d’enregistrer puis d’analyser automatiquement les appels du service clientèle, les réunions et même les rendez-vous médicaux. L’intégration de la RAP dans les processus de travail transforme également l’accessibilité. Les personnes souffrant de handicaps physiques susceptibles de limiter leur capacité à utiliser les interfaces numériques traditionnelles voient de plus en plus souvent cet obstacle supprimé.
Alors pourquoi la RAP n’est-elle pas plus répandue, et que pouvons-nous raisonnablement attendre d’elle dans les années à venir ? Les indices se trouvent dans la technologie elle-même. La réalité est que le langage et la parole sont tous deux incroyablement compliqués. Non seulement il faut interpréter différentes langues, dialectes et accents, mais nous formons souvent des phrases avec un sens implicite et contextuel. Ajoutez à cela le fait que nous nous trouvons souvent dans des environnements bruyants, où le son de notre discours doit être identifié par rapport aux sons environnants, et vous obtenez un défi monumental que la technologie doit relever.
Pour en savoir plus sur la traduction Google, consultez notre guide « Quand utiliser la traduction Google et quand ne pas l’utiliser ».
Comment fait-elle ? En prenant une énorme quantité de données et en en extrayant des modèles. Le cerveau humain apprend par l’expérience. Dès la naissance, la plupart d’entre nous sont exposés à des stimulus audiovisuels constants et comparent chaque moment à d’autres pour en déchiffrer le sens. La RAP est guidée par l’apprentissage automatique, qui fait à peu près la même chose. La quantité de données et la puissance de traitement nécessaires à cet effet sont monumentales. Plus la capacité de calcul dont nous disposons augmentera, plus la précision et l’utilité de la RAP augmenteront. Nous n’en sommes pas encore là.
Les applications possibles de la RAP étant déjà exposées et la tendance à l’adoption augmentant régulièrement, ce n’est qu’une question de temps avant que la RAP ne soit davantage intégrée dans nos processus et nos appareils. L’Echo d’Amazon est sorti il y a tout juste sept ans. Grâce aux progrès constants de la technologie informatique et à un marché concurrentiel, nous pouvons raisonnablement nous attendre à ce que la reconnaissance automatique de la parole devienne un élément permanent de notre vie professionnelle et privée au cours des sept prochaines années.
HI-COM est une agence de traduction multilingue qui fournit des services de traduction et d’interprétation professionnels à des entreprises du monde entier. Travaillant dans plus de 40 langues, HI-COM est le partenaire de localisation de centaines d’entreprises et de marques. Contactez-nous dès aujourd’hui pour une consultation gratuite !