智能音箱难点在哪儿为什么智能音箱很难实现多轮对话？

2023-02-21

4909

为什么智能音箱很难实现多轮对话？现在的人工智能远没有科幻电影里那么成熟。一般认为只有五六岁孩子的智商，但是你和一个五六岁的孩子交流会这么难吗？正如高亮所说每个技术问题都会面临一个技术解决方案。 "也许

为什么智能音箱很难实现多轮对话？

现在的人工智能远没有科幻电影里那么成熟。一般认为只有五六岁孩子的智商，但是你和一个五六岁的孩子交流会这么难吗？正如高亮所说每个技术问题都会面临一个技术解决方案。 "也许普通用户只能抱怨，但百度的一群工程师默默定下了一个小目标，不是先赚一个亿，而是:

1.一次唤醒可以持续互动；你只需要唤醒一次就可以进行持续的对话，无论智能音箱处于什么工作状态，哪怕音乐正在播放。就像人与人之间的对话，有问有答。再也没有必要在每一次对话中说唤醒词了。真正的语音交互不应该是死板的。

2、演讲停顿不会被打断；当你说 "给我一个周杰伦…呃…菊花台 "智能音箱没有。;t匆匆弹了一首周杰伦的歌，却弹了一个菊花台。智能扬声器应该知道你什么时候已经完成，什么时候还没有完成。;t完成，他们赢了不要切断你所没有的。;没有完成。毕竟，谁没有？;t犹豫了吗？

3.知道说话的人是谁；一个典型的三口之家有一个父亲、一个母亲和几个孩子，还有每个人美国人的需求不同。智能音箱应该准确识别每个人 s的声音，知道是谁问的问题，然后给出准确的答案。

4.语境对话的连贯性；在回答你当前的问题时，聪明的演讲者也应该知道最后一个问题是什么，学会结合上下文，不回答无关的问题。只有这样，人与智能音箱的对话才能更加自然。我们要的不是没有情感的机器，至少对话要有逻辑。

5.听清楚，不要不要犯傻；当你在客厅和朋友聊天时，有些话可能是写给朋友的，有些是给智能音箱的指令。这个时候，智能音箱要做出准确的判断，准确识别你是不是在和音箱说话，而不是 "插入两个词 "当他们不应该出现的时候。

目前用于语音交互的技术主要有麦克风阵列、语音识别、语义理解、语音转文本、文本转语音等。，这些都是人工智能技术最基础的应用，差不多十几个创业团队就能完成。但是百度工程师的小目标，需要一系列的技术难关。