浅谈小智AI项目

Washy
2025-04-03 / 0 评论 / 3 阅读 / 正在检测是否收录...

0 前言

几个月前,B站Up主牛逼的虾米开源了小智AI项目,在互联网上掀起了轩然大波,很多人下场跟风制作。在接触了一些信息后,浅谈下我对这个项目的认知。

1 小智AI是什么

虾哥开源的小智AI是一个实时语音对话项目,用户可以通过麦克风与AI进行实时对话。

  • 硬件:主要包括麦克风、扬声器、显示器和ESP32芯片。麦克风用来接入用户的语音,扬声器用来播放AI的回答,显示器用来实时显示AI回答的文字,芯片则是调度处理各种硬件的输入输出以及调用各种模型。
  • 软件:主要包括语音转文本、大语言模型(LLM)和文本转语音(TTS)。语音转文本用来对麦克风输入的语音进行识别,并转为文本信息;LLM在输入上一步得到的文本信息后,经过分析处理返回输出文本并通过显示器展示;此外,输出文本还将经过TTS模型,转化为特定的音色进行输出并通过扬声器播放。

2 目前存在的一些问题

目前市面上基本都倾向于将小智AI做的很小,基本在AirPods充电盒的尺寸附近。这也就导致硬件部分包含电池的话,会使得电池所能占据的体积非常有限,也就意味着电池容量的续航很有限。以我购买的虾哥C3版本为例,充满电只够连续对话5分钟左右,使得不得不一直插着电源线,与便携反而背道而驰。

软件方面,由于目前LLM发展极为迅速,GPT、千问、DeepSeek等作为“大脑”,已经能够达到非常“聪明”的程度。同时,商业化TTS模型方面表现也极为出众,可以从目前各种AI配音的沙雕动画、小说等感受到。但语音转文本模型在我实际体验下来不是那么的友好。由于语音存在方言、口音差异、同音词、发音不准等各方面的问题,使得语音识别结果不是那么的准确。特别是在进行跨语种交流时,识别效果极为差劲,经常反复重复了好几遍也没有识别准确,

3 可能存在的市场需求

  • 语音陪伴:该项目主要功能就是能够连续对话,所以作为无聊时的聊伴再合适不过了。
  • 英语家教:通过TTS选择合适的音色之后,可以发出非常标准的英语,因此在一些时候用来学习英语口语是非常不错的。同理,也可以用来学习任意语种。
  • 实时翻译:如出国旅游的时候,随身携带一个进行实时翻译,应该还是比较方便的。

4 项目开源地址

1

评论 (0)

昵称
邮箱
网址
取消