Исследование тонального метода определения разборчивости речи.

1. Цель работы: ознакомление с методикой определения разборчивости речи по тональному сигналу с шумовой маскировкой.

2. Общие сведения

Телефонная (и радио) связь между говорящим и слушающим абонентами существенно отличается от прямой (акустической) звукопередачи, в первую очередь, из-за наличия вторичного электроакустического тракта, который существенно нарушает условия как передачи (через микрофон), так и приема (через телефон). Последнее приводит к тому, что вместо пространственного «полевого» звука его прием ограничивается давлением ближнего поля (при непосредственном контакте телефона с ухом слушателя) и, что особенно важно, исключением всех дифракционных и бинауральных эффектов, свойственных естественному слуховому восприятию. Здесь звуковое давление p_c , действующее на ухо слушателя, определяется относительной деформацией ΔV/V замкнутого (в норме) объема V воздуха между диафрагмой (мембраной) телефона и барабанной перепонкой при возбуждении используемого электроакустического преобразователя телефона подводимым напряжением.

Такие условия прослушивания, уже по давлению («закороченная» звукопередача) существенно изменяют область слухового восприятия человека (рис 8.1, б) как по частотному, так и по динамическому диапазону, особенно при монауральном прослушивании через микротелефонную трубку.

а) б)

Рис. 8.1 Область кривых равной громкости при прослушивании в свободном поле (а) и по давлению, через головные телефоны (б)

Как видно, на рис. 8.1, а[1], где кривые равной громкости были построены по уровню звукового давления (УЗД) тональных сигналов в той точке, в которой до момента измерения находилась голова слушателя, область порога восприятия достигает 0 дБ (фон) на частотах 1000…2000 Гц и даже ниже на частотах 3…4 кГц. При наличии телефона УЗД (рис. 8.1, б), также тональных сигналов, измерялся микрофоном давления у барабанной перепонки слушателя, и область восприятия существенно изменялась («смещение» уровней с понижением чувствительности слуха примерно на 8…10 фон) за счет упругой реакции воздуха в замкнутом объеме (полости). Естественно в этом режиме исключаются волновая зона воздушного пространства вокруг головы и временные, фазовые и интенсивные разницы между ушами (при двух телефонах) для полезного сигнала. А при отсутствии возможности восприятия колебательной скорости пространственная локализация заменяется ограниченной (в голове) интенсивной латерализацией.

Комплексная оценка качества звуковых (речевых) трактов и систем осуществляется посредством универсального субъективного критерия – разборчивости речи, учитывающего не только свойства слуха, но и свойства голосового аппарата человека. Впервые этот критерий был использован в 1910 году Кемпбеллом для оценки результатов артикуляционных измерений качества именно телефонных линий связи [2]. Предложенный артикуляционный метод не претерпел принципиальных изменений и до настоящего времени с применением лишь более совершенной контрольно-измерительной аппаратуры и компьютерных технологий служит определенным эталоном (нормой стандартизации) всех звуковых средств информации и коммуникации.

Суть артикуляционного метода достаточно известна и применительно к оценке разборчивости речи в каналах проводной- и радиосвязи заключается в передачи специальных таблиц слогов, звукосочетаний и слов, определяемых ГОСТами [3,4] с учетом их встречаемости в русской речи. Измерение разборчивости производится с помощью квалифицированных дикторов (не менее 4) и тренированных слушателей (более 3) в условиях работы линий связи или в условиях, имитирующих виды и уровни помех, акустических шумов и т.д. в соответствии с требованиями, заданными технической документацией (ТД) конкретной аппаратуры.

Таким образом, при основных достоинствах как наиболее достоверного субъективного (при передаче и приеме) и естественного воспроизведения реального речевого сигнала (в заданных звуковых полях) артикуляционный метод в «чистом» виде отличается значительными экономическими и временными затратами. По нашему мнению, к принципиальным его недостаткам можно отнести отсутствие абсолютного (физического) контроля(в примерно заданных временных интервалах) громкости и тембра речи дикторов (даже в сравнительно ограниченных динамическом и частотном диапазонах) при передаче и несоответствие естественному (бинауральному) восприятию при приеме (по давлению) с помощью головных телефонов.

Более высокая точность измерений и стабильность громкости и «тембра» в передающей части трактов достигается в так называемых (по определению Л. Беранека) полусубъективных методах, основанных на свойствах восприятия слушателями речи по спектральной аддитивности формант. Формантная теория разборчивости речи впервые была предложена И. Коллардом и затем развита в работах отечественных и зарубежных ученых. Форманты звуков речи заполняют весь частотный диапазон от 150 до 7000 Гц. Средняя вероятность появления формант в том или ином участке диапазона для каждого языка вполне определённа. Условились делить весь частотный диапазон на 20 таких полос, так, чтобы в каждой из них вероятность появления формант была одинаковой. Соответствующие полосы назвали полосами равной разборчивости. Они определены для ряда языков, в том числе и для русского. Для последнего границы таких полос со средними частотами (в скобках) показаны в табл. 8.1.

Таблица8.1.

Границы полос равной разборчивости для русской речи

Номер полосы	Диапазон,Гц	Номер полосы	Диапазон,Гц
	200-330 (265)		1800-2020 (1940)
	330-465 (400)		2020-2260 (2140)
	465-605 (535)		2260-2530 (2395)
	605-750 (680)		2530-2840 (2865)
	750-900 (825)		2840-3200 (3020)
	900-1060 (980)		3200-3630 (3415)
	1060-1230 (1145)		3630-4150 (3890)
	1230-1410 (1320)		4150-4790 (4370)
	1410-1600 (1505)		4790-5640 (5215)
	1600-1800 (1700)		5640-7000 (6320)

Как выяснилось, в таких полосах при достаточно большом количестве передаваемого материала вероятности появления формант подчиняются правилу аддитивности. Вследствие этого вероятность появления формант в каждой полосе равной разборчивости равна 0,05. Эта вероятность называется коэффициентом разборчивости W, при этом в каждой полосе равной разборчивости вероятность приема формант (разборчивость формант – А_ф) будет равна ΔA_ф=0,05W . Вся энергия звуков речи сосредоточена в формантах, поэтому их уровни практически совпадают с уровнями звуков речи. При этом интегральная вероятность появления уровней речи больше или меньше среднего уровня речи за длительный интервал времени(порядка 30 с) сравнительно мала и совпадает с вероятностью распределения формант, которая практически не зависит от частоты.

В целом, при определенных ограничениях формантный является единственным методом, посредством которого рассчитывается субъективный параметр звукопередачи – разборчивость речи. Именно, аддитивность спектральных уровней формант, правда, в ограниченном частотном диапазоне, послужила основой для разработки ряда мировых стандартов по оценке качества трактов звукопередачи, включая каналы связи.

Порог слышимости (точнее – порог прослушивания) формант в шумах определяется спектральными уровнями шумов. Для флуктуационных шумов величина порога слышимости почти не зависит от времени. Вследствие этого разность между средним спектральным уровнем речи и спектральным уровнем шумов будет определять вероятность появления формант выше уровня шумов. Но разность между уровнем сигнала и уровнем порога слышимости называют уровнем ощущения. Следовательно, коэффициент разборчивости W определяется уровнем ощущения формант в каждой полосе равной разборчивости Δf_р.р .

, (8.1)

где N_p - средний спектральный уровень речи; N_ш - спектральный уровень шумов.

Для уровней E(f) в пределах 0…18 дБ коэффициент W(f) может быть определен по приближенной формуле W(f)=[E(f)+6]/30 или по табл. 8.2, а более точно по графику на рис. 8.2.

Таблица 8.2.

Зависимость коэффициента разборчивости W от уровня ощущения формант E

Е,Дб	W, отн. ед	Е,Дб	W, отн. ед	Е,Дб	W, отн. ед
-12	0,01	-4	0,095		0,60
-11	0,015	-3	0,11		0,70
-10	0,02	-2	0,14		0,80
	0,03	-1	0,17		0,83
-8	0,04		0,20		0,85
-7	0,05		0,30		0,88
-6	0,06		0,40		0,90
-5	0,075		0,50		0,93

Рис.8.2.Зависимость коэффициента разборчивости W от уровня ощущения

(восприятия) формант E

Таким образом, определив для каждой из i полос Δf_р.р=Δf_i (табл. 8.1) уровень E_i(Δf_i), W_i(Δf_i) можно найти по рис. 8.1, который, соответственно, в общем случае будет разным. Поэтому суммарная вероятность приема формант, называемая формантной разборчивостью, будет

. (8.2)

Между формантной и другими видами разборчивости были найдены экспериментальные зависимости. На практике наибольшее распространение получила слоговая разборчивость S, обладающая заметной чувствительностью к различного рода шумам и помехам. Известная зависимость S(A_ф) представлена в табл. 8.3. и на рис. 8.3.

Таблица 8.3.

Зависимость между слоговой и формантной разборчивостью

A,%	S,%	A,%	S,%

			87,2

			92,5
	46,2		95,2
			96,2
	62,5

			99,5

Рис. 8.3. Зависимость слоговой разборчивости от формантной

Оценка качества передачи речи в электроакустических трактах и каналах связи на основе формантной теории дала возможность разработать простой, но вместе с тем более точный метод измерения разборчивости речи для всех языков, названный тональным. Здесь вместо модели речевого сигнала в передающем тракте используются гармонические сигналы с частотами, равными средней каждой полосы равной разборчивости. А их амплитуды равны пиковым значениям речи в соответствующей полосе. В свою очередь, в приемном тракте такой сигнал принимается слушателем только по давлению с применением головных телефонов. При этом появляется возможность, кроме монаурального (монофонического) режима, использовать и квазибинауральный режим включения телефонов, благодаря введению электрического фазового сдвига в подводимые напряжения.

Пороги прослушивания «чистых» тонов при наличии маскировки внешним шумом оказываются более низкими из-за селекции звуков критическими полосами Δf_кр слуха. Так, тональный сигнал может быть услышан, если его уровень равен уровню шума в критической полосе. Более того, при более или менее равномерном спектре шума в диапазоне речевых частот в пределах 100…4000 Гц тональные сигналы обнаруживаются слухом даже, если их уровни на 10…15 дБ ниже уровня шума! При этом общий уровень N_c сигнала определяется уровнем N_ттона и логарифмическим «весом» 10lgΔf_крширины критической полосы слуха, зависящей от частоты и режима (одно или два уха) прослушивания. Таким образом, чистый тон создает такой уровень возбуждения (ощущения) Е, дБ, какой был бы создан речью в критической полосе слуха со средней частотой f_i , равной частоте тона, т.е.

. (8.3)

Далее, как и в обычном варианте определения разборчивости речи, в тональном методе находятся коэффициенты разборчивости W_i[E(f_i)] по табл. 8.2 или рис. 8.2 для каждой из 20 полос равной разборчивости, а затем – суммарная формантная и другие виды разборчивости. Однако, в случае маскировки тонов более или менее равномерным шумом с «гладкой» огибающей спектра, тональный метод позволяет упростить методику определения разборчивости речи путем прослушивания «смеси» тона и шума только в стандартных октавных полосах f_с.р. , полагая, что в их пределах коэффициенты разборчивости будут примерно одинаковыми. Так, первой октаве 175…350 Гц частотного диапазона речи из шести (табл. 8.4.) соответствует и первая полоса равной разборчивости 200…330 Гц. Следующая октава 350…700 охватывает три полосы равной разборчивости (330-465 Гц, 465-605 Гц и 605-750 Гц). Октава 700…1400 Гц включает в себя четыре полосы, четвертая – шесть, а пятая – пять полос. Последняя октава 5600…7600 Гц не вполне соответствует стандартному ряду из-за естественного спада спектра речи, но включает в себя 20-ю полосу 5600…7000 Гц равной разборчивости.

Таблица 8.4.

Частотный диапазон речи в октавных полосах

Номер октавы	Границы октавы, Гц	Ширина полосы ∆f_о.р_., Гц	Средняя частота f_о.р_., Гц
	175…350
	350…700
	700…1400
	1400…2800
	2800…5600
	5600…7600

С учетом данного распределения формантную разборчивость речи можно найти по приближенной формуле с весовыми коэффициентами

(8.4)

где W₁…W₆ – коэффициенты разборчивости на средних частотах октавных Δf_о.р полос.

Таким образом, к основным достоинствам тонального метода по определению разборчивости речи по сравнению с артикуляционными измерениями можно отнести: исключение использования специальных таблиц слов, звукосочетаний или слогов; отсутствие зависимости от временных параметров голосов дикторов, а главное - расширение динамического диапазона измерений из-за большей чувствительности как монаурального, так и бинаурального слуха к тональным сигналам при высоких уровнях широкополосных или узкополосных шумов и помех различного временного воздействия.

3. Описание установки

Структурная схема измерительной установки для определения разборчивости речи тональным методом показана на рис 8.4.

Рис. 8.4. Структурная схема измерительной установки:

ГСК – генератор синусоидальных колебаний; К – коммутационное устройство режимов монаурального и квазибинаурального прослушивания с контролем напряжения U_c и фазы тонального сигнала на зажимах телефонов по показаниям милливольтметра V₁ и фазометра Ф; ГГ – головные телефоны для 1…3 слушателей; С – слушатель; М – микрофон, на выходе которого посредством микрофонного усилителя с индикатором V₂фиксируется напряжение U_ш , пропорциональное уровню шума, создаваемого громкоговорителем ГГ; ГШ - генератор широкополосных «белого» и «розового» шумов. Вся измерительная установка со слушателями располагается в полузаглушенной комнате объемом ≈10 м³ с отражающим полом.

4. Методика проведения работы и обработки результатов

4.1. Ознакомиться со схемой установки и особенностями помещения, телефонов, микрофона, громкоговорителя и измерительных приборов. При необходимости выполнить отмеченные между приборами соединения. Включить питание приборов при выведенных регуляторах уровней напряжения на генераторах и дать им прогреться в течение 3…5 мин.

4.2. Для определения формантной разборчивости при монауральном прослушивании необходимо выполнить следующее.

На коммутационном устройстве К включить монауральный режим, когда напряжение ГСК подводится только к одному телефону (оба тумблера вниз). Установить на шкале ГСК среднюю частоту (250 Гц) для первой октавы речевого спектра с напряжением U_c для прослушивания тона в пределах от 3 до 5 мВ по милливольтметру V₁, которое затем поддерживается неизменным. При прослушивании тона убедиться, что он звучит нормально и латеризуется (локализуется в голове) в области правого или левого уха.

Не изменяя величины U_c, регулятором напряжения ГШ установить такую величину (уровень) звукового давления «розового» шума от громкоговорителя, которая полностью замаскирует (заглушит) слышимость тона. Отметить при этом значение U_ш_._max напряжения по индикатору V₂ измерительного усилителя микрофона. Переключатель частотного диапазона этого усилителя должен быть установлен в положение «А», обеспечивающее частотное «взвешивание» уровня шума по кривой «А» слухового восприятия, близкое к соответствующему уровню громкости. Затем регулируя напряжение ГШ, уменьшить его так, чтобы тон опять был услышан (демаскирован). Отметить соответствующее напряжение U_ш_._min по V₂. Среднеарифметическое значение этих двух напряжений записать в табл. 8.5 и найти средний уровень ощущения данной тональной составляющей в первой октавной полосе [подобно (8.3)] на фоне маскирующего шума, т.е.

(8.4а)

где m₁ - коэффициент передачи тонального сигнала, зависящий от чувствительности головных телефонов; m₂ - коэффициент передачи маскирующего шума, зависящий от звукоизоляции телефонов и чувствительностей микрофона и громкоговорителя; – нормированный коэффициент передачи измерительного тракта (задается параметрами элементов тракта с частотно-зависимым спадом 3 дБ/окт).

По уровню ощущения E(f₁)находится коэффициент разборчивости W(f₁). Результаты расчета E(f₁) и W(f₁) вносятся в соответствующие графы табл. 8.5. Затем выполняются прослушивание тонов и расчеты для средних частот остальных октавных полос спектра речи и, в целом, общая формантная разборчивость как сумма частотных составляющих W(f).

Таблица 8.5

Слушатель: Напряжение U_c=.., подводимое к ГТ

Искомые величины Измеренные и вычисленные величины при монауральном прослушивании в октавных полосах f_cp, Гц

U_ш, мВ

Е, дБ

W,отн.ед.

4.3. Повторить измерения и расчеты по п. 4.2, но для квазибинаурального (синфазного) прослушивания, когда уже симметричное напряжение тонов U_c=3..5мВ от ГСК подводится параллельно к двум телефонам с одинаковой фазой (тумблер «0°»), убедиться, что тоны звучат нормально и с большей громкостью не только из-за включения второго телефона, но и за счет повышения избирательности слуха (уменьшение ширины Δf_кр). Отметить изменившийся характер локализации (латерализации) звука в голове. Результаты измерений и расчетов внести в соответствующие графы табл. 8.6.

Таблица 8.6.

Слушатель: Напряжение U_c=.., подводимое к ГТ.

Искомые величины Измеренные и вычисленные величины при квазибиноуральном (синфазном)прослушивании в октавных полосах f_cp, Гц

U_ш, мВ

Е, дБ

W,отн.ед.

4.4. Повторить измерения и расчеты по п. 4.2. (4.3), но для квазибинаурального (противофазного) прослушивания, где симметричное напряжение тона U_c=3..5мВ от ГСК подводится к телефонам со сдвигом 180° (включен тумблер «180°» и выключен «0°»). Отметить характер латерализации звука в голове. Результаты внести в графы табл. 8.7.

Таблица 8.7.

Слушатель: Напряжение U_c=.., подводимое к ГТ.

Искомые величины Измеренные и вычисленные величины при квазибинауральном (противофазном) прослушивании в октавных полосах f_cp, Гц

U_ш, мВ

Е, дБ

W,отн.ед

4.5. Обобщить результаты измерений и расчетов всех студентов, участвующих в выполнении работы. Для этого следует:

– Определить среднее значение коэффициентов разборчивости монаурального(W_ср.м_.) и квазибинауральных (синфазного - W_ср.сф_. и противофазного - W_ср.пф_.) режимов прослушивания по результатам W_n отдельных слушателей (по табл. 8.5…8.7) во всех октавных полосах диапазона. К примеру, – для монаурального режима в первой (250Гц) октавной полосе будем иметь

(8.5)

где n – число слушателей; а W_n_.м – коэффициенты разборчивости, полученные отдельными слушателями в монорежимах для первой октавы.

Подобным же образом вычисляются средние значения W_ср.м, для остальных октавных полос, а также для квазибинауральных режимов. По средним значениям W_ср.м(f), W_ср.сф(f) и W_ср.пф_.(f) строятся графики зависимости от частоты в заданном диапазоне и делаются соответствующие выводы.

– Найти средние значения формантной разборчивости речи для выполненного тонального метода по данным (табл. 8.5…8.7) каждого слушателя в трех режимах прослушивания по формулам, подобной (8.5), т.е.

, , , (8.6)

где A_п.м.,А_п.сф_. и А_п.пф – значения формантной разборчивости, полученные каждым слушателем.

По объективным и субъективным причинам результаты расчета А_n слушателей могут в той или иной степени отличаться от средних А_ср_. Погрешность результатов определяется по формуле для среднеквадратичной ошибки:

(8.7)

При отличии результата A_n отдельного слушателя от среднего значения A_ср на величину, равную 2σ, то этот результат исключается, а расчет A_ср повторяется. Если же отдельный результат превышает величину 3σ, то все измерения и расчеты данного варианта выполняются заново.

В целом, по уточненным значениям A_ср для трех режимов прослушивания по табл. 8.3. или рис. 8.3. находятся, соответственно, значения S_м, S_сф и S_пф слоговой разборчивости.

5. Содержание отчета

В отчет по работе следует включить: 1) изложение цели работы, 2) схему измерительной установки, 3) таблицы измерений и расчета формантной, а также слоговой разборчивости, 4) графики частотных зависимостей средних значений коэффициентов разборчивости для трех режимов прослушивания.

6. Контрольные вопросы

1. Перечислите основные достоинства и недостатки артикуляционного метода измерения разборчивости речи.

2. В чем заключаются преимущества тонального метода определения разборчивости речи?

3. В какой области речевого диапазона частот и почему коэффициент разборчивости имеет наибольшие значения?

4. Поясните сущность формантной теории расчета разборчивости речи.

5. Почему величина разборчивости по тональному методу больше при бинауральном прослушивании, чем при монауральном?

Литература

1. Акустика: Учебник для вузов/Ш.Я. Вахитов и др. Под ред. Проф. Ю.А.Ковалгина. - М.: Горячая линия - Телеком, 2009.

2. Калинцев Ю.К. Разборчивость речи в цифровых вокодерах. – М.: Радио и связь, 1991.

3. ГОСТ Р 51061-97. Параметры качества речи и методы ее измерения. – М.: ИПК Изд-во стандартов, 1996.

4. ГОСТ Р 508840-95. Передача речи по трактам связи. – М.: ИПК Изд-во стандартов, 1995.

5. ГОСТ 8031-78 (переиздание с изменениями). Аппараты телефонные. Тональный метод измерения разборчивости речи.- М.: ИПК Изд-во стандартов, 1998.

Содержание:

ВВЕДЕНИЕ. 3

Работа №1 Измерение реверберационных параметров помещений. 5

Работа №2 Исследование влияния геометрических параметров помещения на временные и спектральные свойства сигналов. 12

Работа №3 Исследование качества звукопередачи в помещениях. 21

Работа №4 Определение акустических свойств заглушённой комнаты.. 30

Работа №5 Исследование влияния волновых процессов в помещениях на электроакустическую характеристику звукопередачи. 37

Работа №6 Измерение коэффициента звукопоглощения и акустического сопротивления материалов. 46

Работа №7 Измерение звукоизоляции ограждений и уровня шума в помещенияx 57

Работа №8 Исследование тонального метода определения разборчивости речи. 64

Предыдущая 1 2 3 4 5 6 78Следующая

Не нашли, что искали? Воспользуйтесь поиском по сайту: