От автора: отечественные разработчики заняли третье место на международных соревнованиях по созданию алгоритма для распознавания речи.
В рамках ежегодной конференции INTERSPEECH ее организаторы проводят конкурс между командами разработчиков. По условиям CHiME, программисты должны решить поставленное задание в сфере машинного распознавания речи.
В этом году конкурсанты соревновались в создании алгоритма, который позволяет машинному интеллекту выделить из аудиопотока (на фоне посторонних шумов) человеческую речь и правильно ее интерпретировать. По итогам конкурса команда программистов из Центра речевых технологий заняла третье место.
Все варианты, предложенные участниками CHiME, основывались на базовом алгоритме, разработанном организаторами INTERSPEECH. Российские программисты для решения поставленной задачи использовали два типа нейронных сетей: LSTM и сверточной. Сначала система выделяет из общего потока речь каждого из собеседников. Затем определяет участки, где говорящие перебивают друг друга, и разделяет их для анализа.
Базовый алгоритм позволял машинному интеллекту правильно идентифицировать около 27% человеческой речи. Решение, предложенное россиянами, повышает этот показатель до 45%.
Первое место досталось китайской команде. Им удалось достичь 53% распознавание. Второе место заняла команда из Hitachi и университета им. Джона Хопкинса. Их результат составил 50%.
Источник: https://nplus1.ru/