语音文档检索

语音文档检索是针对以声音形式存在的文档的信息检索。其基本定义为：是给定一个检索以及一定数量的语音文档，返回与检索需求关系最为接近的文档集合。从狭义上说，检索需求指的是一些检索词或短语，而相关性指的是语音内容与检索需求的关系。从广义上说，检索需求还包括说话人，说话风格等高层次的信息。

最基本的语音文档检索系统有以下三个主要任务：

语音文档检索需要从语音中提取信息，而提取信息的方法包括使用语音识别引擎或借助人工标注。在网络环境下，根据语音文件所在网页周围的文字信息也可以很好的辅助检索。

若使用语音识别进行内容分析，需要解决的问题包括语音/非语音的判决Voice Activity Detection VAD，语音背景噪声消除，说话人信息的识别，及语音识别的准确性问题。

参考文献

[1] Google 语音索引