Таблица 16.

№ полосы i	Спектральный уровень на средних частотах равноартикуляционных полос				SPL на средних частотах 1/3 октавных полос				SPL на средних частотах 1/1 октавных полос
					SPL на средних частотах 1/3 октавных полос				непредпочтительные частоты				предпочтительные частоты
	Сред. частота, Гц	А, дБ	Б, дБ	В, дБ	Сред. частота, Гц	А, дБ	Б, дБ	В, дБ	Сред. частота, Гц	А, дБ	Б, дБ	В, дБ	Сред. частота, Гц	А, дБ	Б, дБ	В, дБ
1.	270	50	- 7.0	114	200	67.0	16	138	212	71	20	142	250	72.5	19	140
2.	380	50	-11.0	110	250	68.0	14	135	425	75	15	138	500	74.0	14	136
3.	490	48.5	-14.0	108	315	69.0	12	132	850	69	12	130	1000	68.0	12	129
4.	630	45.5	-16.0	105	400	70.0	10	131	1700	63	11	130	2000	62.0	10	131
5.	770	42.5	-16.0	103	500	68.5	9	129	3400	57	5	138	4000	57.0	10	140
6.	920	40	-16.0	101	630	66.5	7	127	6800	52	25	-
7.	1070	37.5	-16.0	100	800	65.0	8	124
8.	1230	35	-17.5	99	1000	64.0	8.5	122
9.	1400	33	-19.0	99	1250	62.0	8.5	122
10.	1570	31.6	-20.0	99	1600	60.5	8.5	123
11.	1740	30.5	-22.0	99	2000	59.5	5.5	125
12.	1920	28.5	-23.5	99	2500	58.0	3	128
13.	2130	27	-25.5	99	3150	56.0	1	130
14.	2370	26	-27.5	99	4000	53.0	5	132
15.	2660	24.5	-29.0	99	5000	51	12	135
16.	3000	23	-30.0	99
17.	3400	21.	-30.0	100
18.	3950	20	-29.0	101
19.	4650	19	-24.0	103
20.	5600	18	-21.0	105

В колонках, обозначенных литерами, содержатся значения: колонка А—идеализированного спектра речи (+12 дБ), колонка Б — спектр эффективного ПС, колонка В—максимальный допустимый уровень неклиппированного РС для звука с непрерывным спектром.

· Видимость лица диктора учитывается в соответствии с рис. 13.

Факторы, не оцениваемые методом AI.

Пол диктора. Как говорилось ранее, метод предназначен и верифицирован в основном для мужской речи. Точность оценки им разборчивости женской речи неизвестна.

· Множественность путей передачи. Влияние на разборчивость смешанного приёма РС от диктора и через громкоговоритель не известно. Вероятно, в таких случаях метод AI неприменим.

· Совокупность факторов. Сочетание нескольких искажающих факторов, например, амплитудного ограничения плюс нерегулярный шум плюс реверберации не достаточно проверены.

· Асимметричное ограничение, сдвиг частоты и замирание. Данный метод должен применяться для систем, в которых асимметрия амплитудного ограничения РС не превышает 3 дБ, сдвиг частоты не превышает 50 Гц, а также отсутствуют значительное и переменное замирания.

Моно- и стереофоничность. Если слушатель стереофонически прослушивает речь или шум от более или менее разнесённых источников так, что фазовые соотношения шума для обоих ушей различны, то разборчивость речи, воспринимаемой стереофонически и монофонически может отличаться (за исключением др. не оцениваемых факторов). Метод AI можно использовать для оценки относительной разборчивости при некоторых условиях стереофонического и всегда при монофоническом прослушивании.

Связь значения AI с разборчивостью речи.

В [9] и [14] даны графики зависимости словесной (слоговой) разборчивости от значения AI для различных методов артикуляционных испытаний, обобщив которые, автор построил сводный график на рис. 14. Необходимо учесть, что результаты оценки разборчивости сильно зависит от ограничений, накладываемых на передаваемое сообщение. Чем больше ограничения, тем выше результаты оценки при том же значении AI. Типичные ограничения это грамматические структуры и контекст предложений, ограничения словарного запаса и слоговой длины слов. Ни одно значение AI не может быть определено как критерий "приемлемой" связи. Эффективность связи, т.е. функция, связывающая точность оценки со значением AI, зависит от передаваемых сообщений и опытности дикторов и слушателей. Таким образом, метод AI оценивает относительную работу системы связи или ТКУИ, в определённых условиях для данной группой типичных для неё дикторов и слушателей или ТСР и при постоянном контроле их опытности. Коммерческие системы связи обычно предназначены для работы при AI>0,5. Систем связи, используемые в различных критических условиях и различными дикторами и слушателями с разной степенью подготовки, годны к применению при AI>0,7. При AI < 0.2 связь невозможна.

В [15] соотношение возможностей речевой коммуникации, конфиденциальности переговоров и значения AI приведено графически (см. рис. 15).

В [16] предлагается методика оценки уровня секретности переговоров с помощью AI.

Нормальная секретность переговоров обеспечивается уже при S/N= -9 дБ, надёжная секретность при S/N не более - 15 дБ. Для расчёта AI применяется формула (12):

(12)

где, W_i – весовой коэффициент для i-й полосы (см. табл. 8); R_i– соотношение S/N для i-й полосы;

Вводится так же понятие класса артикуляции (АС), учитывающего только ослабление. АС рассчитывается по формуле (13):

(13)

где, А(f_i) – ослабление в i-й 1/3 октавной полосе в дБ;

W(f_i) = W_i•300 – вес i-й полосы;

Методика, изложенная в [17], аналогична описанной выше, но там предложено несколько иное распределение весов для 1/3 октавных полос (см. табл. 17). Даны так же оценки разборчивости, возможностей речевой коммуникации и секретностью переговоров для данных значений AI, обобщив которые, была составлена табл. 18.

Таблица 17. Весовые коэффициенты для расчёта AI.

Частота, Гц/кГц	200	250	315	400	500	630	800	1	1,25	1,6	2	2,5	3,15	4	5	6,3
Весовой коэффициент	2	4	6	8	10	12	14	16	18	20	21	20	17	15	12	5

Таблица 18. Соотношение между разборчивостью речи, уровнем речевой коммуникации, секретностью переговоров и значением AI.

Значение AI	0,05	0,1	0,15	0,2	0,25	0,3	0,35	0,4	0,45	0,5	0,55	0,6	0,65	0,7	…	1
Оценка разборчивости	неудовлетворительная						приемлемая				хорошая				отличн.
Речевая коммуникация	отсутствует				нормальная				хорошая				отличная
Секретность переговоров	надёжная	нормальная	неудовлетворительная						отсутствует

Индекс Разборчивости Речи — SII (Speech Intelligibility Index).

SII- инструментальный метод оценки РР, в настоящее время нашедший отражение в ANSI S3.2-1997. Метод SII во многом подобен методу AI. Существует строгое линейное соотношение между значениями AI и SII. На рис. 16 приведено соотношение значений AI и SII [18]. Стандартом предусмотрены четыре режима измерения, что позволяет пользователю выбирать различные число и ширину полос. Режимы измерений SII:

Критический (21 полоса);

· 1/3 октавных полос (18 полос);

· Равноартикуляционных полос (17 полос);

· 1/1 октавных полос (6 полос);

SII – очень совершенный метод оценки что, при правильной его реализации, дает хорошую согласованность результатов оценок с результатами артикуляционных испытаний. Это обеспечивается и широкополосностью (150 Гц - 8.5 кГц) и, особенно в критическом режиме, гораздо большим разрешением, чем у любого другого метода. SII принимает значения от 0 (полная неразборчивость) до 1 (отличная разборчивость).

Семейство методов оценки на основе индекса передачи речи—STI (Speech Transmission Index).

Инструментальный метод оценки разборчивости STI был разработан в начале 1970-х. Концептуально методы AI и STI близки, но STI более совершенен. Их главное различие в том, что значения STI, определяется с учетом весов, соответствующих способности человеческого уха воспринимать звуки различной частоты. В основе определения разборчивости лежит сокращение индекса модуляции испытательного сигнала - m_0.Позднее появились модификации метода STI, методы RASTI и STITEL, они и составляют «семейство» STI.

В соответствии с теорией о том, что речь может быть представлена как колебание основного тона, промодулированное сигналами низкой частоты, речь дикторов заменена специальным испытательным сигналом с речеподобными характеристиками.

Описание методов

В основе определения разборчивости лежит сокращение индекса модуляции испытательного сигнала - m₀[19].

Типичный испытательный сигнал состоит из несущего шума с речеподобным спектром, модулированного по интенсивности с частотой модуляции F (см. рис. 17). На рис. 17, m₀, Ī₀ и m_i, Ī_i - индексы модуляции и интенсивности соответственно входного и выходного сигналов в i-й полосе. Уменьшение значения индекса модуляции выходного сигнала относительно входного количественно определяется MTF (modulation transfer function - функцией передачи модуляции), обозначаемой так же - m(F), которая описывается (14):

m(F) = m₀ / m_i (14)

и пересчитываются в значения соотношения S/N (SNR_App) по формуле (14) независимо от причины сокращения индекса модуляции (реверберация, эхо или шум):

SNR_App= 10•lg [m(F):(1- m(F))] (15)

Если SNR_App < -15 дБ, то SNR_App = -15 , если SNR_App > +15 дБ, то SNR_App = +15 дБ;

Индекс передачи Речи (STI) и метод STI _r(пересмотренный).

Индекс передачи речи (STI) - физическая величина, отображающая разборчивость передаваемой речи.

Основа метода STI это определение 98 значений m(F), получаемых для 14 значений частот модуляции в семи 1/1 октавных полос с центральными частотами от 125 Гц до 8 кГц (см. тбл 19). Частоты модуляции:0,63; 0,8; 1; 1,25; 1,6; 2; 2,5; 3,15; 4; 5; 6,3; 8; 10; 12,5 Гц. Все 14 частот применяются в каждой из 7-и 1/1 октавных полос.

Связанная беседа может рассматриваться как последовательность минимальных фрагментов речи - фонем. Каждая фонема характеризуется определенным спектром. Разборчивость в канале связи или утечки зависит от сохранения спектральных различий между фонемами. Эти различия можно описать функцией огибающей от частоты. Искажение речи, шумом или реверберацией, снижает различия между фонемами, и сокращает амплитуды колебаний огибающей. Форма огибающей уникальна для определенной последовательности фонем. Результатом 1/3 октавного анализа огибающей, является её спектр, дающий наиболее общее описание её флуктуаций. Обычно, анализ отрезка речи в 1 мин. хорошо отражает спектральное распределение флуктуаций огибающей относительно средней интенсивности (I_k), таким образом, индекс модуляции MTI (modulation transfer index) представляется как функция от частоты модуляции (см. рис. 18 B).

Сравнив спектры огибающих речи, непосредственно от источника речи, с полученными на выходе канала передачи или утечки, наблюдаем уменьшение амплитуды колебаний, описываемое MTF, являющейся зависимостью сокращения MTI от частоты модуляции.

MTF количественно определяет сокращение модуляции как функцию от частоты модуляции. Модуляции определены интенсивностью огибающей сигнала, поскольку шум, или реверберация повлияет только на глубину модуляции, но не на ее форму. Рис. 19 иллюстрирует это в 1/1 октавной полосе, с центральной частотой 250 Гц для двух простых систем передачи речи. В первой системе на РС влияет только реверберация, T = 2,5 s (см. рис 19 А), а во второй только шум, S/N = 0 дБ (см. рис 19 B). В первом случае (реверберация), MTF имеет форму аналогичную частотной характеристике ФНЧ: более быстрые колебания, оказывают относительно большее воздействие. Сомножитель F•T (F-частота модуляции, Т-время реверберации) определяет спад MTF (см. рис. 19. А). Во втором случае (шум), MTF определяется соотношением S/N и не зависит от частоты модуляции: шум, увеличивая среднюю интенсивность, уменьшает индекс модуляции при всех частотах модуляции. MTF канала передачи или утечки может быть определена различными способами. Для определения MTF могут использоваться: речевые сигналы, специальные испытательные сигналы и измеренная частотная характеристика канала. Уменьшение модуляции определяется по результатам сравнения интенсивности модуляции в выходном и входном сигналах. Импульсные сигналы могут использоваться только для определения влияния реверберации и эха на MTF. Но они не пригодны, если существенны фоновый шум, ограничения полосы и нелинейные искажения, так как средний спектр и распределение уровней в импульсном и речевом сигналах различны.

Применение искусственных испытательных сигналов, позволяет определять сокращение модуляции для каждой частоты модуляции и выполнять измерения в 1/1 или 1/3 октавных полосах.

В Технологическом институте штата Массачусетс был проведен эксперимент по вычислению STI, используя измерения реальной речи. Анализ результатов показывает, что для каждого типа разговора, значения STI, вычисленные по результатам измерения речи, монотонно связаны со снижением РР. Поэтому STI может быть вычислен по образцам речи и значения результирующих индексов так же точны, как и вычисленные по MTF.

Для определения отношения S/N, средняя интенсивность испытательного сигнала должна быть эквивалентна уровню нормальной речи в точке измерения, то есть L_eq испытательного сигнала должен быть адаптирован к типичному L_eq _long_-_term речи в этой точке.