语音文档检索

语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为:是给定一个检索以及一定数量的语音文档,返回与检索需求关系最为接近的文档集合。从狭义上说,检索需求指的是一些检索词或短语,而相关性指的是语音内容与检索需求的关系。从广义上说,检索需求还包括说话人,说话风格等高层次的信息。

最基本的语音文档检索系统有以下三个主要任务:

  • 对语音文档进行切析与识别,提取出语音中内容信息。
  • 对于识别结果建立索引。
  • 根据用户的检索需求,返回语音文档。

语音文档检索需要从语音中提取信息,而提取信息的方法包括使用语音识别引擎或借助人工标注。在网络环境下,根据语音文件所在网页周围的文字信息也可以很好的辅助检索。

若使用语音识别进行内容分析,需要解决的问题包括语音/非语音的判决Voice Activity Detection VAD,语音背景噪声消除,说话人信息的识别,及语音识别的准确性问题。

参考文献

外部链接

[1] Google 语音索引