РАШЕВСКИЙ Ярослав Игоревич
КАРГАШИН Виктор Леонидович, к. т. н.

ОБЗОР ЗАРУБЕЖНЫХ МЕТОДОВ ОПРЕДЕЛЕНИЯ РАЗБОРЧИВОСТИ РЕЧИ.

ВВЕДЕНИЕ

Методы объективной оценки показателей защищенности речевой информации (РИ) от утечки по техническим каналам (ТКУРИ) в настоящее время широко обсуждаются в печати [1- 4], предоставляя потребителю достаточно мощный инструмент для научно обоснованного проведения мероприятий по защите РИ. Использование разборчивости речи (РР) как показателя опасности ТКУРИ, адекватного информационному содержанию переговоров, может быть полезным и перспективным при реализации защиты РИ [4]. В то же время, очевидно, что предложенные отечественными специалистами методы учитывают только энергетические и спектральные факторы искажения речи, такие как воздействие аддитивных шумов, линейные искажения. Совершенно не учитывается в отечественных методах, например такие факторы как, реверберация, существенная в виброакустических ТКУРИ и нелинейные искажения, существенные в акустопреобразовательных ТКУРИ [3]. Учёт всех значимых факторов, искажающих речь в ТКУРИ, можно рассматривать, в настоящее время, как одну из основных проблем совершенствования нормативного обеспечения оценки защищённости РИ.

В этой связи, большой интерес представляет изучение и анализ, доступных в открытой печати, зарубежных научно-технических материалов по методам и алгоритмам определения РР. Основное внимание, при написании статьи, автор уделил обзору существующих за рубежом методов определения РР и возможности использования их для оценки опасности утечки РИ по различным ТКУРИ.

Речь и речевые коммуникации по зарубежной классификации разделяются на 3 категории [9]:

· «Неусиленная речь» - обычная речь, используемая при разговоре «лицом к лицу» (характерная для прямых акустических ТКУРИ);

· «Усиленная речь» - имеет место в системах, где передается форма исходного речевого сигнала (характерная для акустопреобразовательных ТКУРИ);

· «Вокодерная или синтетическая речь» - имеет место в системах, где форма исходного речевого сигнала (РС) не передается (например, системы цифровой связи).

Рассмотрим методы определения РР для каждой категории.

АРТИКУЛЯЦИОННЫЕ ИСПЫТАНИЯ.

Испытание разборчивости - наиболее прямой и очевидный, а иногда и единственный, путь испытания полноценности канала речевой связи. Суть таких испытаний в том, что диктором(ами) зачитывается (воспроизводится) определенный набор сообщений (стимулов), затем аудитор делает соответствующую отметку в ответном листе, далее подсчитывается число ошибок, сделанных аудитором(ами). Испытания обычно применяются в научных исследованиях, они удобны для прослеживания влияния различных факторов на разборчивость речи. Наиболее часто используются методы DRT, MRT и PBWL.

Сегментальные испытания.

Сегментальные или статистические методы испытывают разборчивость отдельных фонем или сегментов речи. В этих испытаниях РР используются «несущие предложения», чтобы представить испытательные слова (например «Напишите [испытательное слово] сейчас»). Несущие предложения возбуждают реверберационное поле до того, как испытательное слово будет произнесено. Испытательные слова произносятся без ударения и выражения, несущие предложения одни и те же для любого испытательного слова. Это необходимо для того, чтобы должным образом учесть эффект реверберации.

Фонематически сбалансированные списки слов (PBWL—Phonematicaly Balanced Word List).

Первый PBWL был разработан в Гарвардском Университете во время II Мировой войны и с тех пор очень широко используется в испытаниях разборчивости. Испытательные материалы состоят из двадцати списков по 50 фонематически сбалансированных слов (см. табл. 1) [6][7].

Смысл термина «фонематически сбалансированный» заключается в том, что слова, подобраны так, что встречаемость фонем, их составляющих, та же, что и в нормальной повседневной речи. Иногда, аудитору зачитываются слова из различных списков в случайном порядке, чтобы он не мог угадать, какое слово услышит. Результаты испытания определяются, как процент корректно идентифицированных слов от числа всех воспроизведённых слов.

Таблица 1. Извлечение из одного из списковPBWL.

List 1	List 2	List 3	List 4
are bad bar	awe bait bean	ache air bald	bath beast bee
…	…	…	…
toe use wheat	vast ways wish	wharf who why	test tick touch

Разработаны и другиеPBсписки слов, например Phonetically Balanced-50—испытание дискриминации слов (PB-50). Оно состоит из 50 односложных слов, относительная встречаемость которых, та же, что и в повседневной английской речи. Испытание PD -100 разработано для сравнения дискриминации фонем. Испытательный материал включает примеры всех возможных согласных в словах и в начальном и заключительном положениях, гласные находятся в срединном положении.

Метод испытания разборчивости с применениемPBWLтребует большего количества обученных аудиторов и дикторов, чем другие статистические испытания, а так же этот метод особенно чувствителен к соотношению сигнал/шум (S/N): небольшое изменение S/N вызывает большие изменения результатов.

Рифмованные испытания (Rhyme Test).

Методы MRT, DRT, DMCT и DALT, описанные ниже, объединяют в группу «рифмованные испытания» (Rhyme tests). Рифмованные испытания наиболее полезны для сравнения систем связи или ТКУРИ, находящихся и в одних и тех же условиях в идентичной ситуации. Сравнение результатов, полученных в различных ситуациях или условиях, обнаруживает некоторые систематические различия. В любом случае значения результатов испытаний столь же точны, сколь точно смоделированы условия функционирования испытуемой системы.

Диагностическое рифмованное испытание(DRT—DiagnosticRhymeTest)впервые представленное Фаирбанксом в 1958 г. [6], использует набор отдельных слов для испытания разборчивости согласных в начале слов. Тестовый материал состоит из 96 пар слов, отличающихся только по начальному согласному. Эти слова категоризированы по шести отличительным особенностям (характеристикам) (см. табл. 2). Результаты, получены в каждой из этих 6-ти категорий, усредняют и получают значение общей разборчивости. Несущие предложения не используются. Задача аудитора состоит в том, чтобы указать, догадываясь, если он не уверен, какое из двух, представленных ему, в ответном листе слов, воспроизведено.

Таблица 2. Фонетические характеристики DRT.

Характеристики	Описание	Примеры
Вокализованность	Вокализованный - невокализованный	veal - feel, dense - tense
Нозальность	Носовой - ротовой	meat– beat, need- deed
Протяженность	Продолжительный - прерванный	vee - bee, sheat - cheat
Шипящесть	Шипящий – нешипящий	sing – thing, zee - thee
Тон	Низкий - острый	weed – reed, peak - teak
Компактность	Компактный - рассеянный	key - tea, show - so

Из табл. 2 видно, что слова в парах подобраны так, что специфический речевой признак присутствует в одном слове, но отсутствует в другом. Например, слова "VEAL" и "FEEL" отличаются тем, что начальный согласный звук в слове "VEAL" вокализованный (звонкий), а в слове "FEEL" нет (глухой). Слова представляются с темпом – 1 слово за каждые 1.4 секунды. В связи с особенностью процедуры испытания, аудитор может догадываться о том, что первым словом, является илиTAUNTилиDAUNT; вторым илиBOOTилиMOOTи т. д. Следовательно, результатом DRT, является процент скорее правильно угаданных слов, чем корректно идентифицированных. Таким образом, 50 % правильно идентифицированных слов соответствует уровню DRT= 0; 75 % слов - уровню DRT= 50; 100 % слов - уровню DRT= 100.

DRT - весьма широко используемый метод, имеющий большую диагностическую информативность о разборчивости согласных. Испытание может быть осуществлено за малое время и несколькими различными способами. Однако DRT слабо проверяет разборчивость гласных и просодические особенности. Другой недостаток в том, что испытательный материал весьма ограничен, и испытательные стимулы не равновероятны, а значит, не тестируют все возможные вариации согласных.

Модифицированное рифмованное испытание(MRT—Modified Rhyme test)это своего рода расширение DRT [6] [8].MRTявляется испытанием на разборчивость согласных, находящихся и в начале и в конце слов.

Испытательные материалы состоят из 50 наборов по шесть рифмующихся односложных слов (таких какPIN,SIN,TIN,FIN,DIN,WIN) в каждом. Наборы подобраны так, что в них половина слов отличается по начальным согласным, а другая половина по заключительным (см. табл. 3). Соответственно первая половина слов используется для испытания разборчивости начальных согласных а, вторая заключительных.

Таблица 3. Извлечение из одного из испытательных списков MRT.

	A	B	C	D	E	F
1	bad	back	ban	bass	bat	bath
2	beam	bead	beach	beat	beak	bean
3	bus	but	bug	buff	bun	buck
...
26	led	shed	red	bed	fed	wed
27	sold	told	hold	fold	gold	cold
28	dig	wig	big	rig	pig	fig
...

Несущие предложения обычно используются. Задача аудитора состоит в том, чтобы указать, какое из шести представленных ему в ответном листе слов, воспроизведено. Результаты испытания могут быть представлены как процент корректно или некорректно идентифицированных слов.

Logan в 1989 г. выполнил испытания с открытыми ответными листами и выяснил, что результаты значительно уменьшается, если не предъявлять ответный лист аудиторам, что исключает возможность угадывания

Испытание по серединному согласному(DMCT—Diagnostic Medial Consonant Test)так же модификацияDRT[8]. Его испытательные материалы состоят из 96 пар двусложных слов (таких как STOPPER- STOCKER,BOBBLE-BOTTLE), отобранных так, чтобы отличаться только по серединному согласному. Эти слова категоризированы, как и вDRT, подсчёт результатов и задача аудитора аналогичны DRT.

Диагностическое аллитерационное испытание(DALT—Diagnostic ALliteration Test)так же модификация DRT [8]. Испытательные материалыDALTсостоят из 96 пар односложных слов (таких какPACK-PAT,ART-ARC) отобранных так, чтобы отличаться только по заключительному согласному. Эти слова категоризированы, как и вDRT, подсчёт результатов и задача аудитора аналогичны DRT.

К положительным качествам рифмованных испытаний можно отнести возможность: привлечения необученных дикторов и аудиторов и небольшого их числа (обычно 10 – 20 чел.) без ущерба для достоверности результатов; легкость и быстроту проведения испытания. Различные испытания разборчивости дают различные результаты. Самые большие различия могут быть следствием ограниченности испытательного материала, а значит, и его предсказуемости.

Другие сегментальные испытания.

Стандартное сегментальное испытание(SST—Standard Segmental Test)использует списки бессмысленных слов (логатомов–не существующих в языке слов), имеющих структуру типа CV, VC, и VCV [8]. Основные элементы испытательного материала это все согласные и три гласных звука /a /, /i /, и /u/. Для каждого предъявленного аудитору стимула, в ответном листе должен быть вписан, отсутствующий в нём согласный, таким образом, гласные не тестируются вообще. Испытательный материал доступен и применяется, по крайней мере, для английского, немецкого, шведского, и голландского языков.

Испытание переходов согласный-гласный с использованием логатомов.

Использование логатомов, дает возможность тестировать переходы между гласными и согласными [8]. Это один из наиболее часто используемых методов оценки для синтетической речи, хотя он вполне применим для речи вообще. Этот метод обеспечивает хорошую оценку ошибок аудиторов и превосходный диагностический материал особенно, когда используется открытый ответный лист. Как испытательный материал обычно используется список VC, CV, VCV или CVC слов, но иногда и более длинные слова, типа CVVC, VCCV, или CCCVCCC. Испытательные слова обычно симметрические, типа /aka /, /iki /, /uku/ или /kak /, /kik /, /kuk/.

Испытание по идентификации группы(CLID—CLuster IDentification Test)было разработано «ESPRIT project SAM»[8]. Испытание основано на статистическом подходе. Испытательный материал не предопределен, а генерируется для каждого испытания отдельно.

Процедура испытания состоит из трех главных стадий: генерации слов, фонемно - графемной конверсии и автоматического подсчета. На стадии генерации слова создаётся испытательный материал в фонетическом представлении. Пользователь может определять число генерируемых слов, структуру слога (например, CCVC, VC, ...) и частоту возникновения, отдельно для начальной, срединной и заключительной групп. Структуры слогов могут также быть генерированы в соответствии их статистическим распределением. Например, структура CCVC встречается чаще, чем CCCVCCC. Используемые слова – обычно логатомы. Так как большинство синтезаторов не воспринимает цепочек фонем, они должны быть конвертированы в графемное представление.

Подсчет результатов для начальных, срединных и заключительных групп ведется отдельно. Применяется открытый ответный лист, аудитор может использовать транскрипцию или транслитерацию.

Тестирование с произнесением слова по буквам (SpAT—Spelling Alphabet Test) разработано в ВМФ США для статистического испытания словесной разборчивости. Здесь, как стимулы, используются слова, стандартизированные ICAO (Международной организацией гражданской авиации) [8]. Задача аудиторов состоит в том, чтобы ответить на стимул, написав слово или цифру, либо нажатием первой буквы из слова или цифры на клавиатуре.

Испытания разборчивости слов в предложениях.

Чтобы испытать понятность и разборчивость речи были разработаны несколько наборов предложений. Предложения обычно подбираются в соответствии со встречаемостью слов в данном языке.

При испытании разборчивости слов в предложениях, в отличие от сегментальных испытаний, некоторые элементы могут быть пропущены аудитором. Не смотря на это, данный им ответ может быть корректным, особенно, если используются осмысленные предложения. Объяснение этого в том, что контекстные и грамматические ключи дают возможность угадывать пропущенные элементы.

Испытание по Гарвардским психоакустическим предложениям(HPAST).

Гарвардские психоакустические предложения это закрытый набор из 100 предложений, разработанных, чтобы проверить словесную разборчивость в контексте предложения[8]. Предложения выбраны так, чтобы различные фонемы английского языка были представлены в соответствии с частотой их возникновения. Первые пять предложений испытательного материала:

Thebirchcanoeslidonthesmoothplanks(Березовое каноэ скользило на гладких досках);
Glue the sheet to the dark blue background (Приклеитьлистктемно-синемуфону);
It's easy to tell the depth of a well (Легкосообщитьглубинуводоёма);
These days a chicken leg is a rare dish (Вэтидницыплячьяножка-редкоеблюдо);
Riceisoftenservedinroundbowls(Рис часто подается на стол в круглой посуде);

Испытание по предложениям Хаскинса(HST - Haskins Sentence Test).

Предложения Хаскинса также разработаны для испытания словесной разборчивости в предложениях[8]. Но в отличие от Гарвардских они бессмысленны, а, следовательно, пропущенные, в силу своей неразборчивости, элементы, нельзя угадать по контексту. Как и в Гарвардском испытании используется определенный набор предложений, но используется только однажды. Это повышает достоверность результатов и нейтрализует эффект узнавания. Первые пять предложений испытательного материала:

Thewrongshotledthefarm(Неправильный выстрел вел ферму);
The black top ran the spring (Чернаявершинауправлялавесной);
Thegreatcarmetthemilk(Большой автомобиль встретил молоко);
The old corn cost the blood (Староезерностоиткрови);
The short arm sent the cow (Короткаярукапослалакорову);

Эти предложения более трудны для восприятия, чем Гарвардские и в реальной речи не встречаются.

Испытание по семантически непредсказуемым предложениям(SUS—Semantic Unpredictable Sentences).

SUS- так же испытание разборчивости слов в предложениях[8]. Используемые в испытаниях слова, в основном односложные, отобраны в случайном порядке из предопределенного списка возможных слов. Испытание содержит предложения пяти грамматических структур (см. тбл. 4). Как и в предложениях Хаскинса, пропущенные элементы нельзя угадать.

Таблица 4. Грамматические структуры вSUS.

№

Структура

Пример

(Подлежащее - сказуемое – обстоятельство)

Subject - verb – adverbial

(Стол шел через синюю правду)

The table walked through the blue truth.

(Подлежащее - сказуемое – прямое дополнение)

Subject-verb-directobject

(Труднопилдень)

The strong way drank the day.

(Обстоятельство - сказуемое - прямое дополнение)

Adverbial-verb-directobject

(Никогда не рисует дом и факт)

Never draw the house and the fact.

(вопр. слово - переходное сказуемое - подлежащее - прямое дополнение)

Q-word - transitive verb - subject - direct object

(Как день любит яркое слово)

How does the day love the bright word.

(Подлежащее - сказуемое – сложное прямое дополнение)

Subject - verb - complex direct object

(Самолет закрыл рыбу, которая была жива)

The plane closed the fish that lived.

В ходе испытания, 50 предложений, по 10 каждой грамматической структуры, воспроизводятся аудитором в случайном порядке. Так как набор предложений не установлен,SUSне чувствителен к эффекту узнавания.

Испытание HPAST выполняется легко, не требует никакого обучения, и подсчет его результатов прост. Однако, при использовании установленного набора предложений, проявляется эффект узнавания. Т. о. результаты данного испытания могут быть чрезмерно оптимистичны. Этого недостатка лишены SUS и HST, ведь в них отсутствуют ключи, так как в SUS испытательные предложения не имеют смысла, а в HST испытательные предложения формируются в ходе самого испытания.

Вокодерная или синтетическая речь.

Вокодерные или синтетико-аналитические речевые системы, и некоторые цифровые системы радиосвязи не могут быть проверены, используя объективно-ориентированные методы, такие как RASTI,AI, или прямые физические измерения. Вместо этого рекомендуется проведение артикуляционных испытаний разборчивости. Причина этого в акустических особенностях неестественной речи. В синтетической речи различия между фонемами могут быть меньше, её спектральное распределение иное, чем у реальной. Обычно списки слов как испытательный материал, используются чаще, чем предложения потому, что предложения обеспечивают грамматические и контекстные ключи, позволяющие угадать слова. Однако иногда, при исследовании влияния некоторых типов радиоинтерференции на РР, предложения – более предпочтительны.

ОБЪЕКТИВНЫЕ МЕТОДЫ ОЦЕНКИ РАЗБОРЧИВОСТИ РЕЧИ.

Неусиленная речь

Уровень помех восприятию речи—SIL(SpeechInterferenceLevel).

Метод измерения SIL, наиболее широко используется для оценки шума и его влияния на восприятие речи. Существует две его версии:

· PSIL (Preferred-frequencySpeech Interference Level) - уровень помех восприятию речи с привилегированной частотой. Значение PSIL есть среднее арифметическое уровней шума измеренных в трех 1/1 октавных полосах, с центральными частотами 500 Гц, 1 кГц и 2 кГц;

· SIL - уровень помех для восприятия речи, измеряемый по методике Американского Национального Института Стандартов (ANSI) [10] и Международной Организации по Стандартизации (ISO) [11], как среднее арифметическое значение уровней шума, измеренных в 4-х 1/1 октавных полосах, с центральными частотами 500 Гц, 1 кГц, 2 кГц и 4 кГц;.

Эти 3 или 4 полосы охватывают наиболее важные для речи частоты. Обе версии, хорошо отражают способность широкополосного шума маскировать речь. Значения SIL иPSILмогут быть получены с помощью шумомеров, снабженных октавными фильтрами.

При описании метода SIL [5] будут использоваться следующие обозначения:

· L_S_,A,1— эквивалентный непрерывный А-взвешенный уровень звукового давления речи на расстоянии 1 м от губ диктора (источника речи), дБ;

· L_N_,A,S — эквивалентный непрерывный А-взвешенный уровень звукового давления окружающего шума в точке расположения диктора, в дБ;

· L_N_,A,L — эквивалентный непрерывный А-взвешенный, уровень звукового давления окружающего шума в точке расположения слушателя, в дБ;

· L_S_,A,L — эквивалентный непрерывный А-взвешенный уровень звукового давления речи в точке расположения слушателя, в дБ;

· L_N_,oct,i — эквивалентный непрерывный уровень звукового давления окружающего шума вi-й октавной полосе в точке расположения слушателя, дБ.

Эквивалентный непрерывный А-взвешенный и А-взвешенный в режиме "медленно", уровни равнозначны. При описании используются только непрерывные уровни звукового давления (SPL).

По методу SIL измерения проводятся в двух точках [19]:

· в точке расположения диктора или источника речи измеряетсяL_N_,A,S;

· в точке расположения слушателя (аудитора или злоумышленника) измеряетсяL_N_,oct,i, или он приблизительно оценивается поL_N_,A,L;

При определении уровня помех - L_SIL по формуле (1), SPL в 1/1 октавных полосах должны измеряться в точке расположения слушателя при воздействии шумов, типичных для данного канала связи или утечки.

(1)

Если измерения уровняSPLв 1/1 октавной полосе провести нельзя, значение L_SIL вычисляют приближенно:

L_SIL= L_N,A,L – 8дБ; (2)

Вокальное усилие диктора описывается величинойL_N_,A,1. На вокальное усилие в основном влияет уровень окружающего шума в точке расположения диктора. Заштрихованная область на рис. 1 определяет диапазон проявления эффекта Ломбарда (повышения вокального усилия при повышении окружающего шума) для различных дикторов.

L_S,A,Lможно вычислить, зная L_S,A,1по формуле (З):

L_S,A,L= L_S,A,1— 20·lg(r/r₀); (3)

гдеr- расстояние в метрах между диктором и слушающим,r₀=1м;

При этом не учитываются такие важные факторы, влияющие на РР, как реверберация и звукопоглощение. Предполагается, что звук распространяется в свободном пространстве. Характеристика, определяющая РР, задаётся разностью(L_S,A,L- L_SIL).Речевая связь считается удовлетворительной, если эта разность >10 дБ.

В табл. 5 приведены максимальные дистанции при удовлетворительной речевой связи для различных уровней помех и вокальных усилий диктора.

Таблица 5. Максимальные дистанции при определённых уровнях шума и вокального усилия [1].

Уровень помех для восприятия речи, дБ		35	40	45	50	55	60	65	70
Максимальная дистанция, на которой разговор имеет удовлетворительную разборчивость, м.	при нормальном вокальном усилии	7.5	4.2	2.3	1.3	0.75	0.42	0.25	0.13
	при повышенном вокальном усилии	15	8.4	4.6	2.6	1.5	0.85	0.5	0.26

На рис. 2 показаны зависимости максимальной дистанции диктор - слушатель, на которых возможна надёжная связь при разговоре «лицом к лицу», от значенияL_SIL[4], для различных уровнях вокального усилия. Под максимальной дистанцией следует понимать расстояние между слушателем и говорящим, при превышении которого, речевая связь между ними становиться невозможной из-за неудовлетворительной разборчивости.

ЗначенияL_SILможно пересчитать в значения РР, используя соотношения, полученные по результатам артикуляционных испытаний.

На рис. 3 показана зависимость уровня вокальных усилий, необходимых для обеспечения удовлетворительной связи, от расстояния диктор-слушатель [9][10].

Для оценки качества речевой связи необходимо учесть вокальное усилие диктора и понятность речи для слушателя. Вокальное усилие диктора определяется поL_S_,A,1(см. рис. 1), соответствующая им оценка качества связи представлена в табл.6 (понятность речи для слушателя в каждом случае одинакова).

Таблица 6. Вокальные усилия и соответствующая им оценка качества связи.

Вокальное усилие	L_S_{,A,1 м}	Качество связи
Крик максимальной громкости	90	Недостаточное
Крик	84	Неудовлетворительное
Очень громкое	78	Достаточное
Громкое	72	Удовлетворительное
Повышенное	66	Хорошее
Нормальное	60	Очень хорошее
Ослабленное	54	Отличное

Степень восприятия речи определяется А-взвешенным соотношением (L_S_,A,L–L^*_N,A,L), где уровеньL_S_,A,Lвычисляется по формуле (3), а эффективный уровень шума (L^*_N,A,L) определятся по формуле (4):

L^*_N,A,L = L_N,A,L+С (4)

где, C=0,4(L_S,A,1-75дБ)дляL_S,A,1≥75дБ;

C=0 дляL_S_,A,1<75 дБ

Существенное уменьшение разборчивости громкой речи учитывается постоянной С. Зависимость РР от S/N приведена в табл. 7. В [7] приводится соотношение между А-взвешенным отношением S/N для специальной лексики (односложные слова, предложения). На рис. 4 изображены графики зависимости разборчивости слов, слогов от соотношения S/N для различных методов испытаний РР [7]. Эти зависимости приблизительны, они зависят от ряда таких факторов как тип испытательного материала, мастерство дикторов и аудиторов и др. Приведенные зависимости получены при участии хорошо подготовленных дикторов и аудиторов за 8 трёх часовых сессий.

Качество речевой связи (опасность ТКУРИ) определяются по оценке вокального усилия (см. табл. 6) и отношению S/N, определяемого низшими (высшими) оценками в табл. 6 и 7. Обычно оценки определяются для крика (нормального вокального усилия). Для определения необходимого в конкретной ситуации качества речевой связи (степень защищенности речевой информации), необходимо учесть частоту и потребность в речевой связи объём лексики (группа специальных слов, команды, предупреждающие восклицания). В жилых домах и конференц-залах качество связи должно быть "очень хорошим" или "отличным", в магазинах и учебно-тренировочных секциях- "хорошим", в мастерских- "удовлетворительным" или, как минимум "достаточным".

Таблица 7. А-взвешенное отношение (L_S_,A,L–L^*_N,A,L), в точке расположения слушателя и соответствующая ему оценка РР.

L_S,A,L – L^*_N,A,L,дБ	Оценка разборчивости
(L_S_,A,L–L^*_N,A,L)<- 6	Недостаточная
-6≤(L_S,A,L – L^*_N,A,L)<-3	Неудовлетворительная
-3≤(L_S_,A,L–L^*_N,A,L)<0	Достаточная
0≤(L_S_,A,L–L^*_N,A,L)<6	Удовлетворительная
6≤(L_S,A,L – L^*_N,A,L)<12	Хорошая
12≤(L_S,A,L – L^*_N,A,L)<18	Очень хорошая
18≤(L_S_,A,L–L^*_N,A,L)	Отличная

Этот же метод используется для оценки РР при телефонных переговорах. В [6] дополнительно дан критерий качества телефонных переговоров: еслиL_SIL≤60 дБ, то телефонная связь удовлетворительна; если 60 <L_SIL≤75 дБ- затруднена и еслиL_SIL>75 дБ– неудовлетворительна.

Усиленная Речь.

Оценка разборчивости речи.

Синтетическая и усиленная речь могут быть сравнены и оценены по разборчивости, естественности, пригодности для использования и другим параметрам. Каждый из методов оценивает только некоторые параметры речи. Поэтому, для получения надежных результатов зарубежными стандартами рекомендуется проводить как минимум 2 вида испытаний или оценок.

Для оценки разборчивости в системах связи применяют быстрые и простые «объективно-ориентированные» методы оценки РР по результатам физических измерений. Самый простой и эффективный способ–оценка по AI, более современный - по STI.

Индекс Артикуляции —AI(Articulation Index).

Метод измерения AI, был разработан в результате одной из самых ранних попыток создания инструментального метода оценки РР в системах передачи речи по каналам связи в Телефонной лаборатории Белла в 1940-ые. Метод измеренияAIпредложенный Френчем и Стейнбергом - довольно детально оценивает РР, учитывает спектры маскирующего шума и речи, а так же относительную важность каждой полосы для РР [7]. Авторы метода установили, что РР пропорциональна средней разности между пиковыми уровнями речи и уровнями маскирующего шума в 20 равноартикуляционных либо в 1/1 или 1/3 октавных полосах на интервале приблизительно 200 Гц … 6 кГц [13]. То есть, алгоритмически этот метод во многом схож с отечественным методом определения разборчивости, описанном в [1].

Опишем термины и определения, необходимые для рассмотрения этого метода [14].

При анализе РС в 1/1 и 1/3 октавных полосах получают устойчивые спектры, близкие к длительным (long-term) спектрам нормальной непрерывной речи с периодом интегрирования в 1 мин. Их численное средне квадратичное (r.m.s.) значение называется длительным средне квадратичным (long-termr.m.s.) уровнем звукового давления. Не следует путать со средне квадратичным (r.m.s.) уровнем, полученным при периоде интегрирования ~ 1/8 сек, что соответствует средней длительности отдельных звуков речи или фонем.

Спектральный уровень сигналана определенной частотеfпредставляет собой уровень в дБ (по отношению к 20мкПа) части сигнала, содержащейся в полосе, шириной 1 Гц с центральной частотойf. На практике спектральный уровень давления звука с непрерывным спектром принимаются равными уровню звукового давления полосы минус 10·lg(Δf:1 Гц), где Δf-ширина полосы пропускания, используемого фильтра.

При использовании 1/1 и 1/3 октавных фильтров, функция, связанная с уровнем звукового давления в полосах с граничными или средними частотами называется 1/1 и 1/3 октавным спектром, аr.m.s. значения определяется на средней или средней арифметической частоте фильтра. Нижняя и верхняя граничные частоты определяются как частоты, на которых уровень чувствительности фильтра к синусоидальному сигналу на 3 дБ ниже максимального. Крутизна характеристики фильтра должна быть не менее 18 дБ/октаву.

В усредненном за 1/8 сек РС, 1%r.m.s. значений, превышаютlong-termr.m.s. как минимум на 12 дБ. Эти значения представляют максимальные амплитуды (пики) РС, определяющие РР.

Общий уровень это С-взвешенный уровень, измеренный в диапазоне звуковых частот.

Общийlong-termr.m.s. SPLна 3 дБ выше ср. арифметического значенияSPL.

Порог слышимости (ПС)для звуков с непрерывным спектром определяется минимальным эффективным уровнемSPLсигнала, слышимого в тишине в 50 % случаев.

Уровень восприятия полосы частот звука, равен уровню давления полосы минус уровень давления полосы, когда уровень этого звука, равен ПС.

При описании методаAIавтор ввел следующие обозначения:

· L_{и с}– значение уровня идеализированного спектра речи, дБ;

· ΔL_рев– значение поправки, учитывающей влияние реверберации, дБ;

· ΔL_гр– значение поправки, учитывающей влияние уровня громкости речи, дБ;

· L_long_-termr.m.s.– значение общего длительного средне квадратичного уровя речи, дБ;

· ΔL_ш – значение поправки, учитывающей влияние уровня шума с учётом превышения им ПС, дБ;

· L_ш– значение спектрального уровня шума, дБ;

· L_{ш эфф}– значение эффективного спектрального уровня маскирующего шума (эффективного маскирования), дБ;

· L_{ш кор} – значение скорректированного уровня шума, дБ;

· L_порог– значение ПС, дБ;

· ΔL_{р ш}_i– значение разности между спектральными уровнями пиков речи и эффективного маскирования вi-й полосе;

Существуют 2 разновидности метода AI, это метод равноартикуляционных полос (метод А) и метод, 1/1 и 1/3 октавных полос (метод Б). Для большей наглядности автор рассматривает их в табличном виде.

Страницы: 1 2 3 4