Обнаружение скрытых эмоций в голосе - Евгений Столов

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Обнаружение скрытых эмоций в голосе - Евгений Столов. Жанр: Прочая детская литература / Детская образовательная литература / Сделай сам год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:

Обнаружение скрытых эмоций в голосе

Автор

Евгений Столов

Жанр

Прочая детская литература / Детская образовательная литература / Сделай сам

Дата добавления:

10 февраль 2023

Количество просмотров:

Читать онлайн

Обнаружение скрытых эмоций в голосе - Евгений Столов краткое содержание

Обнаружение скрытых эмоций в голосе - Евгений Столов - описание и краткое содержание, автор Евгений Столов, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Заманчивая цель. Создать прибор, с помощью которого можно узнать, говорит ли ваш собеседник правду. Эта задача была актуальной как много веков назад, так и в настоящее время. В книге представлены алгоритмы, с помощью которых эта задача может решаться методами цифровой обработки сигналов. Фактически, речь идет об обнаружении участков речевого файла, отклоняющихся от типичных участков в этом файле. Это означает, выделяются участки, отвечающие эмоциональному возбуждению говорящего. Природу этого возбуждения программа не определяет.

Обнаружение скрытых эмоций в голосе читать онлайн бесплатно

Обнаружение скрытых эмоций в голосе - читать книгу онлайн бесплатно, автор Евгений Столов

Назад 1 2 3 4 Вперед

Фактически мы пытаемся выделить границы слова, поэтому ищем интервалы, состоящие из 1. Такие интервалы назовем сегментами. Выделение сегментов из ступенчатой функции осуществляется с помощью функций и 11.

Первая функция превращает входную последовательность в строку, а вторая находит все сегменты в этой строке. Функция возвращает множество пар, определяющих начало и конец сегментов. В результате классификации каждый интервал заменяется нулем или единицей. Эту последовательность превращаем в одну строку.

def selectSegm(Step):

Marks2Str = [str(X) for X in Step]

Str = ''.join(Marks2Str)

Segms = pairs11(Str)

return Segms

Теперь в этой строке надо найти начало и конец каждого интервала, состоящего из 1.

def pairs11(A):

Out = []

if A[-1] == '1':

A = A + '0'

if A[0] == '1':

End =A.find('10')

Out.append(((0,End+1)))

Beg = End + 1

else:

Beg = 0

while True:

Beg = A.find('01',Beg)

if Beg == -1:

break

else:

End = Beg+1

End = A.find('10',End)

if End == -1:

break

else:

Out.append([Beg+1,End+1])

Beg = End +1

return Out

Вот пример, поясняющий работу этой функции. Исходная последовательность Step = np.int_([1,0,0,1,1,1,0,1,1]) превращается в строку A=’100111011’, а затем находим границы интервалов из 1.

Pairs = selectSegm(А)

print(Pairs)

[(0, 1), [3, 6], [7, 9]]

Следующий шаг является эмпирическим. Дело в том, что среди информационных интервалов, принадлежащих одному слову, может случайно попасть один или несколько интервалов из класса 0. Это приведет к разрыву слова на несколько частей. Чтобы избежать этого явления, вводим эмпирический параметр , определяющий максимальный возможный разрыв между парами информационных интервалов одного слова. На данном этапе нам известны начала и концы сегментов из единиц. Если конец сегмента отстоит менее чем на интервалов от начала следующего сегмента, то оба сегмента объединяются путем замены интервалов между сегментами единицами. Наконец, заменив каждый интервал соответствующим отрезком исходного потока, получаем разбиение этого потока на слова. При частоте стробирования Fr=44100 и длине интервалов Fr/1000 выбор осуществляется из промежутка [25,45]. В результате проделанных манипуляций получаем функцию wordBorders(In, SizeFragm), возвращающую список пар из начал и концов «слов». Слово взято в кавычки, поскольку таким образом могут быть выделены как фрагменты слова, произнесенного по слогам, так и целые предложения. Как будет показано ниже, это не имеет принципиального значения.

Описание больших фрагментов файла

Вывод об изменении эмоционального состояния собеседника делается на основании измерения определённых параметров речи и их анализа. Очевидно, что важны оба аспекта проблемы, однако, существуют два подхода к их применению. Первый подход предполагает изучение предметной области и использование тех параметров речи, которые лучше всего описывают особенности фрагмента, а для анализа применяют стандартные методы. Недостаток этого метода заключается в том, что заранее не известны параметры, вносящие основной вклад, и их подбор составляет основную трудность. Преимущество данного подхода состоит в том, что для решения задачи достаточно скромных вычислительных ресурсов.

При втором подходе на входе в систему используют «сырые» данные, исходный речевой файл, а для анализа применяют сложную нейронную сеть, требующую значительных вычислительных ресурсов (на этапе тренировки). Второй подход становится превалирующим в настоящее время, поскольку его применение сводится к выбору подходящей архитектуры сети, не вникая в сущность проблемы. Автор книги придерживается первого подхода, поскольку он предполагает наличие скромных вычислительных ресурсов, и данный раздел посвящён сбору необходимых параметров, связанных с сущностью проблемы. Выше было показано, каким образом исходный файл разбивается на фрагменты, условно названные словами. Теперь определим параметры, связанные с каждым из таких фрагментов.

Энергия сигнала

Если сигнал представлен numpy массивом, то средняя энергия вычисляется с помощью функции

def myEnergy(In):

Ln =len(In)

return sum(In*In)/ln

Частота основного тона

Самые первые «детекторы лжи» на основе анализа голоса использовали именно этот параметр для выделения участков речевого файла, относимых к ложным высказываниям. В их основе лежала здравая идея, согласно которой во время ложного высказывания изменяется напряжение голосовых связок, что и отражается на частоте основного тона. Первые «детекторы» появились вместе с дешёвыми процессорами, встраиваемыми в телефон. Наличие процессора позволяло определить частоту основного тона, таким образом, слушатель на другом конце провода, якобы, мог сразу узнать о ложности какого-либо высказывания. Эффективность таких устройств оказалась исключительно низкой, и от идеи быстро отказались, но сама мысль использовать эти параметры для анализа осталась. Ниже мы объясним тонкости, связанные с измерением этого параметра. В качестве примера рассмотрим цифровой образ слога „ka“.

При произнесении звука „k“ голосовые связки закрыты и напряжены, а поток воздуха из лёгких связки раскрывает. В результате возникает поток повышенного давления воздуха (вспышка), за которой следует поток малого давления, представленный на рисунке в виде шума. При произнесении слога „ka“ голосовой аппарат перестраивается на произнесение звука „A“, для чего требуется время установления. Если посмотреть на участок, относящийся к „A“, то можно заметить, что он имеет почти периодический характер. Частота этого сигнал и есть частота основного тона, или форманта F0.

Форма сигнала для других гласных звуков будет другой, и частота будет зависеть от гласного. Сигнал зависит от напряжения голосовых связок. При прохождении воздушного потока через вибрирующие связки образуются вихри, которые и определяют основную форму сигнала. Дополнительный вклад вносят фильтры, образованные ротовой полостью. Форманта F0 легко находится с помощью стандартной функции fft, если удалось выделить участок файла, относящийся к гласному звуку. Пусть K — номер коэффициента Фурье с максимальной мощностью, Fr частота стробирования сигнала, Len длина интервала, для которого найдены коэффициенты. Тогда F0= K*Fr/Len. Принцип измерения F0 остается прежним для всех гласных.

from scipy.fftpack import fft

from scipy import signal as sgn

[Fr,Dat] = read('Sounds/A.wav')

N =len(Fragm)

Wnd = sgn.windows.hann(N)

Fragm1 — = np.mean(Fragm)

Afft = abs(fft(Fragm1*Wnd))

Ind =np.argmax(Afft)

print('F0=',Ind*Fr/N)

Когда имеют дело с реальной речью, отмеченные голосовые (вокализованные) участки можно обнаружить, но они будут гораздо короче по сравнению с модельными. Возникает очевидная трудность — обнаружение фрагментов в файле, относящихся к чистым гласным. При анализе реальной речи это можно сделать, но задача становится трудоемкой. Вместо этого вычисляют усредненный коэффициент так, как указано выше. Альтернативой преобразованию Фурье для вычисления F0 является автокорреляция. На участках большой длины оба метода приводят к похожим результатам.

Мел-кепстральные коэффициенты

Частота основного тона является разновидностью спектральных характеристик. В настоящее время считается, что наиболее точной сжатой спектральной характеристикой являются мел-кепстральные коэффициенты (MFCC). Идея кепстра достаточно проста. Предположим, что нам нужно краткое описание преобразования Фурье заданного отрезка. Первое, что приходит

Назад 1 2 3 4 Вперед

Евгений Столов читать все книги автора по порядку

Евгений Столов

Евгений Столов - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.

Похожие книги на "Обнаружение скрытых эмоций в голосе", Евгений Столов

Евгений Столов читать все книги автора по порядку

Обнаружение скрытых эмоций в голосе отзывы