Система оперативного голосового поиска "Трал Х"

Система оперативного голосового поиска "Трал Х"

Трал Х - серверное программное обеспечение, предназначенное для проведения автоматического оперативного голосового поиска (идентификации) целевого диктора по образцу речи в потоке поступающих звуковых файлов в режиме реального времени.

Результатом работы системы является набор папок с файлами, соответствующих искомым дикторам. Трал Х классифицирует входящий поток фонограмм по принадлежности к эталонным записям в соответствии с вероятностью совпадения их биометрических признаков голоса и речи.

Эффективность алгоритмов позволяет сократить объём исследуемого вручную материала на порядок и более. Таким образом, если без Трала Х вам нужно было прослушивать сотни фонограмм в день, уже на следующий день вы можете ограничиться прослушиванием десятка фонограмм, с большой вероятностью содержащих речь интересующих вас дикторов.

Возможно использование в составе любых систем контроля и регистрации телефонных переговоров.

Трал Х имеет удобные средства интеграции, которые позволяют разработчикам систем контроля и регистрации телефонных переговоров бесшовно интегрировать его в свои решения.

Функциональные возможности

  • Полностью автоматическая система, с установленными по умолчанию параметрами поиска и порогами принятия решения.
  • Два настраиваемых связанных порога принятия решения обеспечивают удобное разделение результатов на «совпадающих» и «похожих» дикторов, которое можно подстроить под особенности работы, каналов и фонограмм.
  • Алгоритмы основываются на языко- (акценто- и диалекто-) и текстонезависимых методах автоматического исследования голоса и речи дикторов, характеризующихся высокими показателями надежности.
  • Любая фонограмма, поступающая в систему Трал Х, проходит процесс автоматической сегментации – предварительной обработки с целью отсечения непригодных неречевых фрагментов звукового сигнала (тональных гудков, щелчков, музыкальных фрагментов, участков с перегрузками и пр.). Это позволяет свести к минимуму ошибки, возникающие при обработке записей телефонных разговоров.
  • Каналы стереофонических фонограмм могут обрабатываться отдельно, что идеально подходит для обработки файлов из систем регистрации, записывающих телефонные звонки в стерео, где дикторы записываются в разные каналы.
  • Трал Х обладает уникальной системой разделения диалогов (диаризации), которая позволяет обрабатывать диалог, записанный в монофоническом файле, как речь двух отдельных дикторов. Это решение незаменимо в случаях, когда аппаратура не может записывать стороны телефонного разговора в стерео.
  • Быстрота развёртывания (Трал Х устанавливается за 5 минут, настраивается 5 минут, строит модели образцов голосов 5 минут, после чего готов к работе).
  • Возможность установки в качестве сервиса Windows обеспечивает полностью автономную работу с автоматическим перезапуском в случае сбоев оборудования.
  • Эффективная работа под высокой нагрузкой (автоматическая балансировка нагрузки между несколькими серверами Трал Х).
  • Возможность передачи результата по TCP-IP в форме XML для интеграции в решения сторонних производителей (пример программы на C#, принимающей результаты, прилагается).
  • Масштабируемость (возможно отслеживание нескольких наборов образцов голоса на одном сервере, если потоки обрабатываемых фонограмм невелики, или обработка большого потока несколькими серверами).
  • Высокая надежность поиска/идентификации (до 97 %).
  • Адаптируемость к условиям использования.

Технические характеристики

Основные характеристики

Минимальная длительность обрабатываемой фонограммы 3 сек. (рекомендуется 16 сек.)
Минимальная длительность обрабатываемой фонограммы 3 сек. (рекомендуется 16 сек.)
Количество отслеживаемых образцов голоса от 20 до 10000 в зависимости от лицензии
Системные требования
Минимальная конфигурация Может быть установлена на мощном ноутбуке для использования в полевых условиях: 2-Core Intel x86 32/64 bit, 2.8 GHz, RAM 1 GB, HDD 160 GB, Windows XP SP2
Конфигурация «подразделение» Может быть установлена на мощной рабочей станции: 4-Core Intel x86 32/64 bit, 2.8 GHz, RAM 4 GB, HDD 500 GB, Ethernet 1 Gbit, UPS,Windows Server 2003 Standard
Конфигурация «регион»

Потребует 2 сервера обработки данных: 2x 4-Core Intel x86 32/64 bit, 2.8 GHz, RAM 6 GB, HDD 500 GB, 2x Ethernet 1 Gbit, Стоечное исполнение, Windows Server 2003 Standard
Дополнительное оборудование: Коммутатор с пропускной способностью 1 Gbit, Источники бесперебойного питания

Интеграция и сетевое взаимодействие

Сетевые интерфейсы

1Gbit Ethernet

Передача данных на обработку

Звуковые файлы необходимо поместить в папку на сервере Трал Х или в общую папку на другом сервере
Файлы поступают на обработку по мере освобождения ресурсов серверов Трал Х
Несколько серверов Трал Х могут обрабатывать файлы из одной входной папки, балансировка
нагрузки между ними происходит при этом автоматически
Файлы после обработки могут быть автоматически удалены или сохранены без изменений

Получение результатов обработки

Обработанные звуковые файлы помещаються в папки, соответствующие искомым дикторам, на сервере Трал Х или в общие папки на другом сервере
Результаты идентификации каждого файла передаются на указанный сетевой адрес в форме XML по протокоду TCP-IP (опционально, для интеграции)
Несколько серверов Трал Х могут помещать результаты в одну общую структуру папок

Требования к звуковым файлам
Формат звукового файла RIFF WAV ИКМ 16 бит или A-law 8 бит
Минимальная необходимая продолжительность речевого сигнала 16 секунд (система принимает на обработку сигналы от 3 секунд длительности, но результат обработки может быть ненадежным)
Частотный диапазон 330-3400 Гц или лучше
Отношение сигнал/шум в частотном диапазоне 330-3400 Гц не менее 10 дБ
Неравномерность АЧХ в частотном диапазоне 330-3400 Гц не более 20 дБ
Надёжность алгоритмов
Показатели надежности сравнения с использованием обобщенного решения для сигналов, имеющих отношение сигнал/шум не менее 20 дБ

95% при сравнении пары речевых сигналов длительностью не менее 96 сек. каждый;
88% при сравнении пары речевых сигналов длительностью 16 сек. и 96 сек;
82% при сравнении пары речевых сигналов длительностью 16 сек. каждый;
не менее 90% при сравнении пары речевых сигналов длительностью 16 сек. и 96 сек., передаваемых по одному и тому же каналу связи.

 

Описание актуально на: 14.09.2010.

Для уточнения технических характеристик «Система оперативного голосового поиска "Трал Х"», а также для получения информации по наличию и условиям поставки Вы можете заполнить форму запроса ниже.

Внимание! Поставка оборудования осуществляется только юридическим лицами и только по безналичному расчёту.

«Система оперативного голосового поиска "Трал Х"» поставляется компаниями:

  • АВМ-СИСТЕМС
    • Адрес: г. Москва, 105523, Щелковское шоссе, дом 100, корп. 100
    • Телефон: +7 (925) 507-63-54
    • Факс: +7 (499) 391-98-07
    • E-mail: info@bnti.ru
    • WWW: www.bnti.ru

Яндекс.Метрика