РАШЕВСКИЙ Ярослав Игоревич
КАРГАШИН Виктор Леонидович, к. т. н.
ВВЕДЕНИЕ
Методы объективной оценки показателей защищенности речевой информации (РИ) от утечки по техническим каналам (ТКУРИ) в настоящее время широко обсуждаются в печати [1- 4], предоставляя потребителю достаточно мощный инструмент для научно обоснованного проведения мероприятий по защите РИ. Использование разборчивости речи (РР) как показателя опасности ТКУРИ, адекватного информационному содержанию переговоров, может быть полезным и перспективным при реализации защиты РИ [4]. В то же время, очевидно, что предложенные отечественными специалистами методы учитывают только энергетические и спектральные факторы искажения речи, такие как воздействие аддитивных шумов, линейные искажения. Совершенно не учитывается в отечественных методах, например такие факторы как, реверберация, существенная в виброакустических ТКУРИ и нелинейные искажения, существенные в акустопреобразовательных ТКУРИ [3]. Учёт всех значимых факторов, искажающих речь в ТКУРИ, можно рассматривать, в настоящее время, как одну из основных проблем совершенствования нормативного обеспечения оценки защищённости РИ.
В этой связи, большой интерес представляет изучение и анализ, доступных в открытой печати, зарубежных научно-технических материалов по методам и алгоритмам определения РР. Основное внимание, при написании статьи, автор уделил обзору существующих за рубежом методов определения РР и возможности использования их для оценки опасности утечки РИ по различным ТКУРИ.
Речь и речевые коммуникации по зарубежной классификации разделяются на 3 категории [9]:
· «Неусиленная речь» - обычная речь, используемая при разговоре «лицом к лицу» (характерная для прямых акустических ТКУРИ);
· «Усиленная речь» - имеет место в системах, где передается форма исходного речевого сигнала (характерная для акустопреобразовательных ТКУРИ);
· «Вокодерная или синтетическая речь» - имеет место в системах, где форма исходного речевого сигнала (РС) не передается (например, системы цифровой связи).
Рассмотрим методы определения РР для каждой категории.
АРТИКУЛЯЦИОННЫЕ ИСПЫТАНИЯ.
Испытание разборчивости - наиболее прямой и очевидный, а иногда и единственный, путь испытания полноценности канала речевой связи. Суть таких испытаний в том, что диктором(ами) зачитывается (воспроизводится) определенный набор сообщений (стимулов), затем аудитор делает соответствующую отметку в ответном листе, далее подсчитывается число ошибок, сделанных аудитором(ами). Испытания обычно применяются в научных исследованиях, они удобны для прослеживания влияния различных факторов на разборчивость речи. Наиболее часто используются методы DRT, MRT и PBWL.
Сегментальные испытания.
Сегментальные или статистические методы испытывают разборчивость отдельных фонем или сегментов речи. В этих испытаниях РР используются «несущие предложения», чтобы представить испытательные слова (например «Напишите [испытательное слово] сейчас»). Несущие предложения возбуждают реверберационное поле до того, как испытательное слово будет произнесено. Испытательные слова произносятся без ударения и выражения, несущие предложения одни и те же для любого испытательного слова. Это необходимо для того, чтобы должным образом учесть эффект реверберации.
Фонематически сбалансированные списки слов (PBWL—Phonematicaly Balanced Word List).
Первый PBWL был разработан в Гарвардском Университете во время II Мировой войны и с тех пор очень широко используется в испытаниях разборчивости. Испытательные материалы состоят из двадцати списков по 50 фонематически сбалансированных слов (см. табл. 1) [6][7].
Смысл термина «фонематически сбалансированный» заключается в том, что слова, подобраны так, что встречаемость фонем, их составляющих, та же, что и в нормальной повседневной речи. Иногда, аудитору зачитываются слова из различных списков в случайном порядке, чтобы он не мог угадать, какое слово услышит. Результаты испытания определяются, как процент корректно идентифицированных слов от числа всех воспроизведённых слов.
Таблица 1. Извлечение из одного из списковPBWL.
|
List 1 |
List 2 |
List 3 |
List 4 |
|
are |
awe |
ache |
bath |
|
… |
… |
… |
… |
|
toe |
vast |
wharf |
test |
Разработаны и другиеPBсписки слов, например Phonetically Balanced-50—испытание дискриминации слов (PB-50). Оно состоит из 50 односложных слов, относительная встречаемость которых, та же, что и в повседневной английской речи. Испытание PD -100 разработано для сравнения дискриминации фонем. Испытательный материал включает примеры всех возможных согласных в словах и в начальном и заключительном положениях, гласные находятся в срединном положении.
Метод испытания разборчивости с применениемPBWLтребует большего количества обученных аудиторов и дикторов, чем другие статистические испытания, а так же этот метод особенно чувствителен к соотношению сигнал/шум (S/N): небольшое изменение S/N вызывает большие изменения результатов.
Рифмованные испытания (Rhyme Test).
Методы MRT, DRT, DMCT и DALT, описанные ниже, объединяют в группу «рифмованные испытания» (Rhyme tests). Рифмованные испытания наиболее полезны для сравнения систем связи или ТКУРИ, находящихся и в одних и тех же условиях в идентичной ситуации. Сравнение результатов, полученных в различных ситуациях или условиях, обнаруживает некоторые систематические различия. В любом случае значения результатов испытаний столь же точны, сколь точно смоделированы условия функционирования испытуемой системы.
Диагностическое рифмованное испытание(DRT—DiagnosticRhymeTest)впервые представленное Фаирбанксом в 1958 г. [6], использует набор отдельных слов для испытания разборчивости согласных в начале слов. Тестовый материал состоит из 96 пар слов, отличающихся только по начальному согласному. Эти слова категоризированы по шести отличительным особенностям (характеристикам) (см. табл. 2). Результаты, получены в каждой из этих 6-ти категорий, усредняют и получают значение общей разборчивости. Несущие предложения не используются. Задача аудитора состоит в том, чтобы указать, догадываясь, если он не уверен, какое из двух, представленных ему, в ответном листе слов, воспроизведено.
Таблица 2. Фонетические характеристики DRT.
|
Характеристики |
Описание |
Примеры |
|
Вокализованность |
Вокализованный - невокализованный |
veal - feel, dense - tense |
|
Нозальность |
Носовой - ротовой |
meat– beat, need- deed |
|
Протяженность |
Продолжительный - прерванный |
vee - bee, sheat - cheat |
|
Шипящесть |
Шипящий – нешипящий |
sing – thing, zee - thee |
|
Тон |
Низкий - острый |
weed – reed, peak - teak |
|
Компактность |
Компактный - рассеянный |
key - tea, show - so |
Из табл. 2 видно, что слова в парах подобраны так, что специфический речевой признак присутствует в одном слове, но отсутствует в другом. Например, слова "VEAL" и "FEEL" отличаются тем, что начальный согласный звук в слове "VEAL" вокализованный (звонкий), а в слове "FEEL" нет (глухой). Слова представляются с темпом – 1 слово за каждые 1.4 секунды. В связи с особенностью процедуры испытания, аудитор может догадываться о том, что первым словом, является илиTAUNTилиDAUNT; вторым илиBOOTилиMOOTи т. д. Следовательно, результатом DRT, является процент скорее правильно угаданных слов, чем корректно идентифицированных. Таким образом, 50 % правильно идентифицированных слов соответствует уровню DRT= 0; 75 % слов - уровню DRT= 50; 100 % слов - уровню DRT= 100.
DRT - весьма широко используемый метод, имеющий большую диагностическую информативность о разборчивости согласных. Испытание может быть осуществлено за малое время и несколькими различными способами. Однако DRT слабо проверяет разборчивость гласных и просодические особенности. Другой недостаток в том, что испытательный материал весьма ограничен, и испытательные стимулы не равновероятны, а значит, не тестируют все возможные вариации согласных.
Модифицированное рифмованное испытание(MRT—Modified Rhyme test)это своего рода расширение DRT [6] [8].MRTявляется испытанием на разборчивость согласных, находящихся и в начале и в конце слов.
Испытательные материалы состоят из 50 наборов по шесть рифмующихся односложных слов (таких какPIN,SIN,TIN,FIN,DIN,WIN) в каждом. Наборы подобраны так, что в них половина слов отличается по начальным согласным, а другая половина по заключительным (см. табл. 3). Соответственно первая половина слов используется для испытания разборчивости начальных согласных а, вторая заключительных.
Таблица 3. Извлечение из одного из испытательных списков MRT.
|
|
A |
B |
C |
D |
E |
F |
|
1 |
bad |
back |
ban |
bass |
bat |
bath |
|
2 |
beam |
bead |
beach |
beat |
beak |
bean |
|
3 |
bus |
but |
bug |
buff |
bun |
buck |
|
... |
|
|
|
|
|
|
|
26 |
led |
shed |
red |
bed |
fed |
wed |
|
27 |
sold |
told |
hold |
fold |
gold |
cold |
|
28 |
dig |
wig |
big |
rig |
pig |
fig |
|
... |
|
|
|
|
|
|
Несущие предложения обычно используются. Задача аудитора состоит в том, чтобы указать, какое из шести представленных ему в ответном листе слов, воспроизведено. Результаты испытания могут быть представлены как процент корректно или некорректно идентифицированных слов.
Logan в 1989 г. выполнил испытания с открытыми ответными листами и выяснил, что результаты значительно уменьшается, если не предъявлять ответный лист аудиторам, что исключает возможность угадывания
Испытание по серединному согласному(DMCT—Diagnostic Medial Consonant Test)так же модификацияDRT[8]. Его испытательные материалы состоят из 96 пар двусложных слов (таких как STOPPER- STOCKER,BOBBLE-BOTTLE), отобранных так, чтобы отличаться только по серединному согласному. Эти слова категоризированы, как и вDRT, подсчёт результатов и задача аудитора аналогичны DRT.
Диагностическое аллитерационное испытание(DALT—Diagnostic ALliteration Test)так же модификация DRT [8]. Испытательные материалыDALTсостоят из 96 пар односложных слов (таких какPACK-PAT,ART-ARC) отобранных так, чтобы отличаться только по заключительному согласному. Эти слова категоризированы, как и вDRT, подсчёт результатов и задача аудитора аналогичны DRT.
К положительным качествам рифмованных испытаний можно отнести возможность: привлечения необученных дикторов и аудиторов и небольшого их числа (обычно 10 – 20 чел.) без ущерба для достоверности результатов; легкость и быстроту проведения испытания. Различные испытания разборчивости дают различные результаты. Самые большие различия могут быть следствием ограниченности испытательного материала, а значит, и его предсказуемости.
Другие сегментальные испытания.
Стандартное сегментальное испытание(SST—Standard Segmental Test)использует списки бессмысленных слов (логатомов–не существующих в языке слов), имеющих структуру типа CV, VC, и VCV [8]. Основные элементы испытательного материала это все согласные и три гласных звука /a /, /i /, и /u/. Для каждого предъявленного аудитору стимула, в ответном листе должен быть вписан, отсутствующий в нём согласный, таким образом, гласные не тестируются вообще. Испытательный материал доступен и применяется, по крайней мере, для английского, немецкого, шведского, и голландского языков.
Испытание переходов согласный-гласный с использованием логатомов.
Использование логатомов, дает возможность тестировать переходы между гласными и согласными [8]. Это один из наиболее часто используемых методов оценки для синтетической речи, хотя он вполне применим для речи вообще. Этот метод обеспечивает хорошую оценку ошибок аудиторов и превосходный диагностический материал особенно, когда используется открытый ответный лист. Как испытательный материал обычно используется список VC, CV, VCV или CVC слов, но иногда и более длинные слова, типа CVVC, VCCV, или CCCVCCC. Испытательные слова обычно симметрические, типа /aka /, /iki /, /uku/ или /kak /, /kik /, /kuk/.
Испытание по идентификации группы(CLID—CLuster IDentification Test)было разработано «ESPRIT project SAM»[8]. Испытание основано на статистическом подходе. Испытательный материал не предопределен, а генерируется для каждого испытания отдельно.
Процедура испытания состоит из трех главных стадий: генерации слов, фонемно - графемной конверсии и автоматического подсчета. На стадии генерации слова создаётся испытательный материал в фонетическом представлении. Пользователь может определять число генерируемых слов, структуру слога (например, CCVC, VC, ...) и частоту возникновения, отдельно для начальной, срединной и заключительной групп. Структуры слогов могут также быть генерированы в соответствии их статистическим распределением. Например, структура CCVC встречается чаще, чем CCCVCCC. Используемые слова – обычно логатомы. Так как большинство синтезаторов не воспринимает цепочек фонем, они должны быть конвертированы в графемное представление.
Подсчет результатов для начальных, срединных и заключительных групп ведется отдельно. Применяется открытый ответный лист, аудитор может использовать транскрипцию или транслитерацию.
Тестирование с произнесением слова по буквам (SpAT—Spelling Alphabet Test) разработано в ВМФ США для статистического испытания словесной разборчивости. Здесь, как стимулы, используются слова, стандартизированные ICAO (Международной организацией гражданской авиации) [8]. Задача аудиторов состоит в том, чтобы ответить на стимул, написав слово или цифру, либо нажатием первой буквы из слова или цифры на клавиатуре.
Испытания разборчивости слов в предложениях.
Чтобы испытать понятность и разборчивость речи были разработаны несколько наборов предложений. Предложения обычно подбираются в соответствии со встречаемостью слов в данном языке.
При испытании разборчивости слов в предложениях, в отличие от сегментальных испытаний, некоторые элементы могут быть пропущены аудитором. Не смотря на это, данный им ответ может быть корректным, особенно, если используются осмысленные предложения. Объяснение этого в том, что контекстные и грамматические ключи дают возможность угадывать пропущенные элементы.
Испытание по Гарвардским психоакустическим предложениям(HPAST).
Гарвардские психоакустические предложения это закрытый набор из 100 предложений, разработанных, чтобы проверить словесную разборчивость в контексте предложения[8]. Предложения выбраны так, чтобы различные фонемы английского языка были представлены в соответствии с частотой их возникновения. Первые пять предложений испытательного материала:
Испытание по предложениям Хаскинса(HST - Haskins Sentence Test).
Предложения Хаскинса также разработаны для испытания словесной разборчивости в предложениях[8]. Но в отличие от Гарвардских они бессмысленны, а, следовательно, пропущенные, в силу своей неразборчивости, элементы, нельзя угадать по контексту. Как и в Гарвардском испытании используется определенный набор предложений, но используется только однажды. Это повышает достоверность результатов и нейтрализует эффект узнавания. Первые пять предложений испытательного материала:
Эти предложения более трудны для восприятия, чем Гарвардские и в реальной речи не встречаются.
Испытание по семантически непредсказуемым предложениям(SUS—Semantic Unpredictable Sentences).
SUS- так же испытание разборчивости слов в предложениях[8]. Используемые в испытаниях слова, в основном односложные, отобраны в случайном порядке из предопределенного списка возможных слов. Испытание содержит предложения пяти грамматических структур (см. тбл. 4). Как и в предложениях Хаскинса, пропущенные элементы нельзя угадать.
Таблица 4. Грамматические структуры вSUS.
|
№ |
Структура |
Пример |
|
1. |
(Подлежащее - сказуемое – обстоятельство) Subject - verb – adverbial |
(Стол шел через синюю правду) The table walked through the blue truth. |
|
2. |
(Подлежащее - сказуемое – прямое дополнение) Subject-verb-directobject |
(Труднопилдень) The strong way drank the day. |
|
3. |
(Обстоятельство - сказуемое - прямое дополнение) Adverbial-verb-directobject |
(Никогда не рисует дом и факт) Never draw the house and the fact. |
|
4. |
(вопр. слово - переходное сказуемое - подлежащее - прямое дополнение) Q-word - transitive verb - subject - direct object |
(Как день любит яркое слово) How does the day love the bright word. |
|
5. |
(Подлежащее - сказуемое – сложное прямое дополнение) Subject - verb - complex direct object |
(Самолет закрыл рыбу, которая была жива) The plane closed the fish that lived. |
В ходе испытания, 50 предложений, по 10 каждой грамматической структуры, воспроизводятся аудитором в случайном порядке. Так как набор предложений не установлен,SUSне чувствителен к эффекту узнавания.
Испытание HPAST выполняется легко, не требует никакого обучения, и подсчет его результатов прост. Однако, при использовании установленного набора предложений, проявляется эффект узнавания. Т. о. результаты данного испытания могут быть чрезмерно оптимистичны. Этого недостатка лишены SUS и HST, ведь в них отсутствуют ключи, так как в SUS испытательные предложения не имеют смысла, а в HST испытательные предложения формируются в ходе самого испытания.
Вокодерная или синтетическая речь.
Вокодерные или синтетико-аналитические речевые системы, и некоторые цифровые системы радиосвязи не могут быть проверены, используя объективно-ориентированные методы, такие как RASTI,AI, или прямые физические измерения. Вместо этого рекомендуется проведение артикуляционных испытаний разборчивости. Причина этого в акустических особенностях неестественной речи. В синтетической речи различия между фонемами могут быть меньше, её спектральное распределение иное, чем у реальной. Обычно списки слов как испытательный материал, используются чаще, чем предложения потому, что предложения обеспечивают грамматические и контекстные ключи, позволяющие угадать слова. Однако иногда, при исследовании влияния некоторых типов радиоинтерференции на РР, предложения – более предпочтительны.
Неусиленная речь
Уровень помех восприятию речи—SIL(SpeechInterferenceLevel).
Метод измерения SIL, наиболее широко используется для оценки шума и его влияния на восприятие речи. Существует две его версии:
· PSIL (Preferred-frequencySpeech Interference Level) - уровень помех восприятию речи с привилегированной частотой. Значение PSIL есть среднее арифметическое уровней шума измеренных в трех 1/1 октавных полосах, с центральными частотами 500 Гц, 1 кГц и 2 кГц;
· SIL - уровень помех для восприятия речи, измеряемый по методике Американского Национального Института Стандартов (ANSI) [10] и Международной Организации по Стандартизации (ISO) [11], как среднее арифметическое значение уровней шума, измеренных в 4-х 1/1 октавных полосах, с центральными частотами 500 Гц, 1 кГц, 2 кГц и 4 кГц;.
Эти 3 или 4 полосы охватывают наиболее важные для речи частоты. Обе версии, хорошо отражают способность широкополосного шума маскировать речь. Значения SIL иPSILмогут быть получены с помощью шумомеров, снабженных октавными фильтрами.
При описании метода SIL [5] будут использоваться следующие обозначения:
· LS,A,1— эквивалентный непрерывный А-взвешенный уровень звукового давления речи на расстоянии 1 м от губ диктора (источника речи), дБ;
· LN,A,S — эквивалентный непрерывный А-взвешенный уровень звукового давления окружающего шума в точке расположения диктора, в дБ;
· LN,A,L — эквивалентный непрерывный А-взвешенный, уровень звукового давления окружающего шума в точке расположения слушателя, в дБ;
· LS,A,L — эквивалентный непрерывный А-взвешенный уровень звукового давления речи в точке расположения слушателя, в дБ;
· LN,oct,i — эквивалентный непрерывный уровень звукового давления окружающего шума вi-й октавной полосе в точке расположения слушателя, дБ.
Эквивалентный непрерывный А-взвешенный и А-взвешенный в режиме "медленно", уровни равнозначны. При описании используются только непрерывные уровни звукового давления (SPL).

· в точке расположения диктора или источника речи измеряетсяLN,A,S;
· в точке расположения слушателя (аудитора или злоумышленника) измеряетсяLN,oct,i, или он приблизительно оценивается поLN,A,L;
При определении уровня помех - LSIL по формуле (1), SPL в 1/1 октавных полосах должны измеряться в точке расположения слушателя при воздействии шумов, типичных для данного канала связи или утечки.
(1)
Если измерения уровняSPLв 1/1 октавной полосе провести нельзя, значение LSIL вычисляют приближенно:
LSIL= LN,A,L – 8дБ; (2)
Вокальное усилие диктора описывается величинойLN,A,1. На вокальное усилие в основном влияет уровень окружающего шума в точке расположения диктора. Заштрихованная область на рис. 1 определяет диапазон проявления эффекта Ломбарда (повышения вокального усилия при повышении окружающего шума) для различных дикторов.
LS,A,Lможно вычислить, зная LS,A,1по формуле (З):
LS,A,L= LS,A,1 — 20·lg(r/r0); (3)
гдеr- расстояние в метрах между диктором и слушающим,r0=1м;
При этом не учитываются такие важные факторы, влияющие на РР, как реверберация и звукопоглощение. Предполагается, что звук распространяется в свободном пространстве. Характеристика, определяющая РР, задаётся разностью(LS,A,L- LSIL).Речевая связь считается удовлетворительной, если эта разность >10 дБ.
В табл. 5 приведены максимальные дистанции при удовлетворительной речевой связи для различных уровней помех и вокальных усилий диктора.
Таблица 5. Максимальные дистанции при определённых уровнях шума и вокального усилия [1].
|
Уровень помех для восприятия речи, дБ |
35 |
40 |
45 |
50 |
55 |
60 |
65 |
70 |
|
|
Максимальная дистанция, на которой разговор имеет удовлетворительную разборчивость, м. |
при нормальном вокальном усилии |
7.5 |
4.2 |
2.3 |
1.3 |
0.75 |
0.42 |
0.25 |
0.13 |
|
при повышенном вокальном усилии |
15 |
8.4 |
4.6 |
2.6 |
1.5 |
0.85 |
0.5 |
0.26 |
|

На рис. 2 показаны зависимости максимальной дистанции диктор - слушатель, на которых возможна надёжная связь при разговоре «лицом к лицу», от значенияLSIL[4], для различных уровнях вокального усилия. Под максимальной дистанцией следует понимать расстояние между слушателем и говорящим, при превышении которого, речевая связь между ними становиться невозможной из-за неудовлетворительной разборчивости.
ЗначенияLSILможно пересчитать в значения РР, используя соотношения, полученные по результатам артикуляционных испытаний.
На рис. 3 показана зависимость уровня вокальных усилий, необходимых для обеспечения удовлетворительной связи, от расстояния диктор-слушатель [9][10].
Для оценки качества речевой связи необходимо учесть вокальное усилие диктора и понятность речи для слушателя. Вокальное усилие диктора определяется поLS,A,1 (см. рис. 1), соответствующая им оценка качества связи представлена в табл.6 (понятность речи для слушателя в каждом случае одинакова).
Таблица 6. Вокальные усилия и соответствующая им оценка качества связи.
|
Вокальное усилие |
LS,A,1 м |
Качество связи |
|
Крик максимальной громкости |
90 |
Недостаточное |
|
Крик |
84 |
Неудовлетворительное |
|
Очень громкое |
78 |
Достаточное |
|
Громкое |
72 |
Удовлетворительное |
|
Повышенное |
66 |
Хорошее |
|
Нормальное |
60 |
Очень хорошее |
|
Ослабленное |
54 |
Отличное |
Степень восприятия речи определяется А-взвешенным соотношением (LS,A,L–L*N,A,L), где уровеньLS,A,Lвычисляется по формуле (3), а эффективный уровень шума (L*N,A,L) определятся по формуле (4):
L*N,A,L = LN,A,L+С (4)
где, C=0,4(LS,A,1-75дБ)дляLS,A,1≥75дБ;
C=0 дляLS,A,1<75 дБ
Существенное уменьшение разборчивости громкой речи учитывается постоянной С. Зависимость РР от S/N приведена в табл. 7. В [7] приводится соотношение между А-взвешенным отношением S/N для специальной лексики (односложные слова, предложения). На рис. 4 изображены графики зависимости разборчивости слов, слогов от соотношения S/N для различных методов испытаний РР [7]. Эти зависимости приблизительны, они зависят от ряда таких факторов как тип испытательного материала, мастерство дикторов и аудиторов и др. Приведенные зависимости получены при участии хорошо подготовленных дикторов и аудиторов за 8 трёх часовых сессий.
Качество
речевой связи (опасность ТКУРИ) определяются по оценке вокального усилия (см. табл.
6) и отношению S/N, определяемого низшими (высшими) оценками в табл. 6 и 7. Обычно
оценки определяются для крика (нормального вокального усилия). Для определения необходимого
в конкретной ситуации качества речевой связи (степень защищенности речевой информации),
необходимо учесть частоту и потребность в речевой связи объём лексики (группа специальных
слов, команды, предупреждающие восклицания). В жилых домах и конференц-залах качество
связи должно быть "очень хорошим" или "отличным", в магазинах и учебно-тренировочных
секциях- "хорошим", в мастерских- "удовлетворительным" или, как минимум "достаточным".
Таблица 7. А-взвешенное отношение (LS,A,L–L*N,A,L), в точке расположения слушателя и соответствующая ему оценка РР.
|
LS,A,L – L*N,A,L ,дБ |
Оценка разборчивости |
|
(LS,A,L–L*N,A,L)<- 6 |
Недостаточная |
|
-6≤(LS,A,L – L*N,A,L)<-3 |
Неудовлетворительная |
|
-3≤(LS,A,L–L*N,A,L)<0 |
Достаточная |
|
0≤(LS,A,L–L*N,A,L)<6 |
Удовлетворительная |
|
6≤(LS,A,L – L*N,A,L)<12 |
Хорошая |
|
12≤(LS,A,L – L*N,A,L)<18 |
Очень хорошая |
|
18≤(LS,A,L–L*N,A,L) |
Отличная |
Этот же метод используется для оценки РР при телефонных переговорах. В [6] дополнительно дан критерий качества телефонных переговоров: еслиLSIL≤60 дБ, то телефонная связь удовлетворительна; если 60 <LSIL≤75 дБ- затруднена и еслиLSIL>75 дБ– неудовлетворительна.
Усиленная Речь.
Оценка разборчивости речи.
Синтетическая и усиленная речь могут быть сравнены и оценены по разборчивости, естественности, пригодности для использования и другим параметрам. Каждый из методов оценивает только некоторые параметры речи. Поэтому, для получения надежных результатов зарубежными стандартами рекомендуется проводить как минимум 2 вида испытаний или оценок.
Для оценки разборчивости в системах связи применяют быстрые и простые «объективно-ориентированные» методы оценки РР по результатам физических измерений. Самый простой и эффективный способ–оценка по AI, более современный - по STI.
Индекс Артикуляции —AI(Articulation Index).
Метод измерения AI, был разработан в результате одной из самых ранних попыток создания инструментального метода оценки РР в системах передачи речи по каналам связи в Телефонной лаборатории Белла в 1940-ые. Метод измеренияAIпредложенный Френчем и Стейнбергом - довольно детально оценивает РР, учитывает спектры маскирующего шума и речи, а так же относительную важность каждой полосы для РР [7]. Авторы метода установили, что РР пропорциональна средней разности между пиковыми уровнями речи и уровнями маскирующего шума в 20 равноартикуляционных либо в 1/1 или 1/3 октавных полосах на интервале приблизительно 200 Гц … 6 кГц [13]. То есть, алгоритмически этот метод во многом схож с отечественным методом определения разборчивости, описанном в [1].
Опишем термины и определения, необходимые для рассмотрения этого метода [14].
При анализе РС в 1/1 и 1/3 октавных полосах получают устойчивые спектры, близкие к длительным (long-term) спектрам нормальной непрерывной речи с периодом интегрирования в 1 мин. Их численное средне квадратичное (r.m.s.) значение называется длительным средне квадратичным (long-termr.m.s.) уровнем звукового давления. Не следует путать со средне квадратичным (r.m.s.) уровнем, полученным при периоде интегрирования ~ 1/8 сек, что соответствует средней длительности отдельных звуков речи или фонем.
Спектральный уровень сигналана определенной частотеfпредставляет собой уровень в дБ (по отношению к 20мкПа) части сигнала, содержащейся в полосе, шириной 1 Гц с центральной частотойf. На практике спектральный уровень давления звука с непрерывным спектром принимаются равными уровню звукового давления полосы минус 10·lg(Δf:1 Гц), где Δf-ширина полосы пропускания, используемого фильтра.
При использовании 1/1 и 1/3 октавных фильтров, функция, связанная с уровнем звукового давления в полосах с граничными или средними частотами называется 1/1 и 1/3 октавным спектром, аr.m.s. значения определяется на средней или средней арифметической частоте фильтра. Нижняя и верхняя граничные частоты определяются как частоты, на которых уровень чувствительности фильтра к синусоидальному сигналу на 3 дБ ниже максимального. Крутизна характеристики фильтра должна быть не менее 18 дБ/октаву.
В усредненном за 1/8 сек РС, 1%r.m.s. значений, превышаютlong-termr.m.s. как минимум на 12 дБ. Эти значения представляют максимальные амплитуды (пики) РС, определяющие РР.
Общий уровень это С-взвешенный уровень, измеренный в диапазоне звуковых частот.
Общийlong-termr.m.s. SPLна 3 дБ выше ср. арифметического значенияSPL.
Порог слышимости (ПС)для звуков с непрерывным спектром определяется минимальным эффективным уровнемSPLсигнала, слышимого в тишине в 50 % случаев.
Уровень восприятия полосы частот звука, равен уровню давления полосы минус уровень давления полосы, когда уровень этого звука, равен ПС.
При описании методаAIавтор ввел следующие обозначения:
· Lи с– значение уровня идеализированного спектра речи, дБ;
· ΔLрев– значение поправки, учитывающей влияние реверберации, дБ;
· ΔLгр– значение поправки, учитывающей влияние уровня громкости речи, дБ;
· Llong-termr.m.s.– значение общего длительного средне квадратичного уровя речи, дБ;
· ΔLш – значение поправки, учитывающей влияние уровня шума с учётом превышения им ПС, дБ;
· Lш– значение спектрального уровня шума, дБ;
· Lш эфф– значение эффективного спектрального уровня маскирующего шума (эффективного маскирования), дБ;
· Lш кор – значение скорректированного уровня шума, дБ;
· Lпорог– значение ПС, дБ;
· ΔLр ш i– значение разности между спектральными уровнями пиков речи и эффективного маскирования вi-й полосе;
Существуют 2 разновидности метода AI, это метод равноартикуляционных полос (метод А) и метод, 1/1 и 1/3 октавных полос (метод Б). Для большей наглядности автор рассматривает их в табличном виде.