【完成度很高的语音输入产品】
优点:
速度极快:结合模型占用 / 速度,推测可能是 SenseVoice / Paraformer 系的模型,为 CPU 专门优化过,GPU 上吞吐也很高,而且对中文进行了专门优化,综合下来比 Whisper-Small 好很多
隐私可控:ASR 模型本地部署、AI 修正 BYOK,没有隐私的困扰
功能完整:输入统计、输入历史、词典、提示词自定义,完全满足日常需求
缺点:
隋坡原则:这是个免费的产品,而且完全够用,没有缺点!
(不知道为啥不商业化赚米)
AI 语音输入法,比打字快 4 倍。
【完成度很高的语音输入产品】
优点:
速度极快:结合模型占用 / 速度,推测可能是 SenseVoice / Paraformer 系的模型,为 CPU 专门优化过,GPU 上吞吐也很高,而且对中文进行了专门优化,综合下来比 Whisper-Small 好很多
隐私可控:ASR 模型本地部署、AI 修正 BYOK,没有隐私的困扰
功能完整:输入统计、输入历史、词典、提示词自定义,完全满足日常需求
缺点:
隋坡原则:这是个免费的产品,而且完全够用,没有缺点!
(不知道为啥不商业化赚米)
牛逼!
说实话,要不是上班摸鱼刷论坛,我可能真的会错过这款产品。
闪电说这个名字听着有点中二,但结果是真·名不虚传。装上之后我随手试了江苏方言、粤语、小声嘀咕、英语、日语……结果它不仅听得懂,还几乎做到百分百识别。甚至在十几分钟的会议记录里,1–2 秒就能出稿,不像很多 TTS 要“思考人生”一样等好几秒。
其实我司也做过一些TTS产品。 所以我对闪电说的优缺点感知还是蛮清晰的。
优点是:本地化模型,不走云端、不传服务器,这点直接让人安心了不少。一些单位(尤其政府国企)经常要处理一些内部信息,这种纯本地化的方案非常友好。 AI 文本纠正功能也非常友好,经历过领导开会的或者做过TTS的都是到有时候会议录音会有各种语气助词比如“这个这个 那个那个 嗯嗯啊啊 然后然后”,闪电说可以自动帮删掉赘述。这点帮大忙了!纯净的记录文本,可以更有效的进行下一步操作,无论是转总结或者转思维导图。
缺点也有很关键的一点:1.没法导出成一个文本文件。 2.似乎音色识别也不行(在嘈杂的背景中,没法准确识别说话人的声音,但这这一点在会议讨论中是很重要的一点)。
最后给一点建议:
闪电说的能力不能只停留在“语音输入”层面,它搭配 AI 文本纠正之后,能做的事情非常多:
首先比如,会议记录。
就可以做到 1.全程录音实时转写2.自动生成纪要3.AI 总结要点、TODO、关键讨论。比手打快太多,而且准确率高。
其次,课程录播/学习笔记自动整理
用它听公开课或网课,可以在听课的同时获得自动笔记,还能让 AI 自动提炼重点。
第三,生成思维导图
它能把录音内容自动转换成结构化文本,再交给思维导图工具,几乎能做到“一键形成脑图”。
最后是多语言沟通场景
我试了英语、日语,都能正常识别,非常适合商务会议或跨境沟通。
用闪电说玩了两个小时,我的真实体验是:它确实极大地提升了输入效率,是一款“真能拿来干活”的生产力工具。
本篇测评的大部分文字,也是用闪电说口述完成的,最后只改了个别错误。
整体来说,它不是完美,功能也没有那么多,但它绝对值得一试。
刚试了一下“闪电说”,大概聊聊我最直观的感受。
ui非常简洁干净,这点非常好评。
但得吐槽个最搞心态的交互问题,就是这软件不能在打字框里实时显示我正在说的话。给人感觉就像盲打,我对着空气哇啦哇啦输出一大堆,心里根本没底它到底录没录上?
再加上那个“正在录音”的图标做得太靠下了,我屏幕本身比较大(30寸)所以我不太会专门低头最底部去看,然后有时候就根本不知道录没录上。
好几次讲得正起劲,说完一抬头发现没录上或者是卡 Bug 了,前面全白扯,真的很崩溃。
再说下性能和资源占用,我是windows系统,后台内存占用大概在 2000M 上下,比微信大两倍吧,考虑到刚起步的软件,这也没啥,完全能接受。
核心功能上,确实有惊喜也有硬伤。好的一点是,它最后那个 AI 润色确实有点东西,尤其是在修正错别字这块,比微软edge自带的那个语音转录要聪明的多,能够用内置api结合提示词去优化上下文。
但问题也有,
普通话,英语日语都还好,就是那个粤语功能是真挺拉胯的,我切到粤语试了试,软件的底层模型就检测不出来,可能也是粤语本身声调的问题,转出来的字根本没法看,跟说的意思差挺多。
自定义词典也是时好时坏,我在词典里填了一些专用词,结果它经常不替换,时灵时不灵的。我觉得这可能跟内置的提示词有关,权重给得不够。
最后给开发者提个醒就是关于提示词,那个默认的提示词写得太简陋了,甚至连“呃、啊、嗯”这种口癖都过滤不掉。 能不能多搞几个现成的模板给用户选?
毕竟大部分人是不会写 Prompt 的。与其让用户自己去调提示词,琢磨怎么把废话去掉,不如官方直接多给一套优化好的模板,把那些语气词过滤、专业词替换都给囊括,体验会好很多。
至于模型速度嘛,倒是没啥毛病,基于自己选的模型还挺快。
相比于微软本身要好,后续我也会继续使用的₍˄·͈༝·͈˄*₎◞ ̑̑
闪电说用下来体验特别好,核心优势特别突出。它是本地端侧模型,运行速度这块直接拉满,用起来特别流畅,还支持接入 API 实现 AI 纠正的功能。我实测下来,搭配 doubao-1.6flash 的使用效果是最好的,反观 GLM-4.5-X 和 GLM-4.6,适配后的效果就明显逊色不少。
对语音输入法来说,转写速度本就是重中之重,我之前一直用 wispr flow,哪怕开了付费会员,它偶尔的转写速度也实在拉胯,这也让我平时根本不怎么想用,对比下来闪电说的体验真的好太多了。
噢,非常好。这是我在使用闪电说自己的文本转模型,给闪电说写评价。这是我第一次尝试使用语音来写评价,我这个人比较喜欢讲故事。
我之前是 Whisper Flow 的用户,当然现在也是。之前是因为在 lenny's newsletter 有会员,他们送了一个 Whisper Flow 的年费。我尝试过使用一段时间,或者说几次,它的效果并不好,或者说我不满意。不满意在什么地方呢?它对中文的兼容不太好。也可能是我的使用方式不对,但结果就是这样,它不够让我满意。
我没有什么要使用英文输入的需求。此外,假如让它作为一个系统级的自启动的助手驻留在后台可以录音,好像没有什么存在感,我会觉得有点奇怪。毕竟一个能录音的东西,它没有什么存在感,而你又用不到它。
但不得不说,这个 App 是比较优雅的。它没有什么时候会突然弹出一个窗口,或者右上角系统显示有 App 正在录音。我没有发现这种恶意的行为或者奇怪的行为。
但它是付费的,而且联网,而且我不太确定它是不是会把我的数据上传给云端的 API。那我就会觉得,不仅我用不到,而且我也不太想用,而且我也不太敢用。关于 Whisper Flow 大概就是这样。
这一次接触到闪电说,是因为观察 11 月的这个活动。我看到了闪电说这么一个 App,它让我有点好奇,因为它有 9.0 的评分。那我就想一下它是干什么用的,发现它是作为 Whisper Flow 的替代。我就试了一下,感觉还不错。
整个安装过程和使用的过程,包括它的官网描述,都有在强调为了隐私和安全。我很喜欢这一点。同时它使用的是本地语言模型,这也会是一个让我觉得比较好的点。
此外,它还能够调用自定义的 AI 来做优化。那我就可以发挥我自己的 Prompt Engineering 的特长,把我的语言直接转化成文本的结果,甚至是 Markdown 的结果,我觉得非常好。
这是以上的优点。
当然,不够好的地方还是有一些的。比如说第一个就是语音悬浮窗。我现在在录这段音频的时候,我没有看到那一个语音悬浮的小窗口,就是左边是叉号,右边是勾号,中间是音频波动的那么一个小小的悬浮窗。我没有看到它。我记得有的时候它是会出现的。如果我采用的是那一个按一下之后开始录音,最长录 5 分钟的那个功能的话,我现在能观察到的就是我的右上角显示麦克风正在录音。(因为没有这个显示窗口,录音到此结束了而我还没注意到,导致我后面的吐槽都没录下来,怀疑是监听到吐槽闪电说就紧急停止 bushi)
补充一下其他没录进来的内容:
1. 展示录音状态的语音悬浮窗,建议固定在页面的某个位置,这样会有一种“我知道是不是在录音”的安全感。见图一,我今天看B站视频的时候不知道为啥这个录音就开始了,直到看到自己的历史记录
2. 虽然配置自动保存,但是缺少了那个“save”的按钮,让我觉得总像是配置没保存一样
3. 虽然存档了日志和语音,但是如果我启用了AI优化的话,语音转文本对应的那个原始内容就丢掉了,如果AI的优化效果或者数据丢了,或者内容被截断,我是不会想说第二遍的
4. 按一下录音为什么只有5分钟?不能增加长度或者自由调节?
5. 其实我还是没看懂这个保留剪切板原内容的设置是什么意思
以上
非常好的WisprFlow平替,目前试下来甚至就是在中文这一块的语音的识别的准确性比WisprFlow还更高一些,然后再加上就是本地运行,而且基本上没有太多需要付费的这个功能吧,所以还是非常不错的。--本条来自语音输入
老规矩先说产品体验下来的总体感受:语音识别延迟低、模型数据全本地的隐私性强、产品设计体验待优化。
语音识别延迟低
和同类的笔记产品、线上会议产品的语音识别模块相比,延迟相对更低,但不算非常明显,可能我的核心使用场景是会议的记录,对延迟的要求不高,所以感受不明显。
模型数据全本地的隐私性强
本地化的模型隐私性确实得到了保证,这一点就可以让这个产品在我的日常应用里占据一席之地,支持自定义词典进行AI纠正的功能很有价值,但是对于本地化的应用来说,这个功能对我来说有点鸡肋,如果是联网的应用我会有更多的产品选择。
产品设计体验待优化
1、流式输出的问题,现在用户基本已经都习惯了在语音识别的过程中实时查看识别结果的模式,没有流式输出会让用户对产品充满不安全感,同时如果词典未配置或者环境声音比较嘈杂,用户最后直接看到一个磕磕绊绊很多错字和标点符号的识别内容,会立刻下头,很大程度上影响了用户的产品体验,尤其是初次使用产品的用户。
2、既然AI纠正的配置已经可以引入远程大模型,那么完全可以根据远程大模型对录音文本内做一些二次加工或者简单问答,不然文本识别的内容依然要导出粘贴,如果可以一站完成简单处理,可以很大提升用户体验。
总结一下,我的体验主要是从一个会议录音转写的需求出发,这个产品的亮点主要在本地部署的隐私性上,但是如果是单纯喜欢语音输入这个方式的用户,可能使用产品的体验会更好,产品的低延迟和本地化的优势会更明显,同时使用频率越高,本地部署的免费优势也越大,能节省很多成本。最后能看到产品的开发者在用心的收集和响应用户反馈,很多用户的提出的建议也在被采纳,期望这样的产品可以越来越好。
1.首先产品界面很简约,看起来很舒服,没有华丽花销的配色。
2.为数不多的在下载界面加上“如有问题向创始人反馈”,再加上官网有①更新日志②产品路线图等,有种build in public的感觉。
3.测试了一下,用来转成一些自己才能看得懂的零散笔记(不太适合ocr识别,然后手打又感觉麻烦的)
4.支持多个大模型api渠道源头和Ollama本地模型就很棒。
5.原来直接点击输入框,然后按住指定的快捷键就可以使用了吗hhh有点小惊喜。(刚才不小心按住了这里,和人聊天被记录下来了hhhh)原先以为要识别到软件框里,在复制粘贴。现在看来是刚才没有弄明白咋用,软件那里的是有一个历史记录作用。好奇后面是推出买断制还是月费订阅
相对来说,还是有点没头脑,因为其他一些输入法也没有细看过语音转文字,基本上都是在手机上使用的语音转文字功能,在电脑上确实很少使用,或者基本上没有去看到过,所以这次接触到这个产品的时候,也仔细看了大家的一个评论,总结来说,它是一个本地的AI应用,能够完好的保护隐私性,并且转写速度也是很快,这点是很好评的,之后会尝试在更多场景去使用它
从MVP角度评价,这款产品做得确实可圈可点:核心差异化功能定位清晰突出,而那些辅助性的纠错、调整等配套功能也没有喧宾夺主,整体架构很干净。交互设计简洁明了,特别值得好评的是支持本地模型部署和自定义快捷键设置,用起来非常顺手。但UI设计真是一股浓浓的AI味(估计能把vibe coding的人吓到),部分配色方案夸张到快把我眼睛闪瞎了。至于核心卖点速度嘛,说实话使用过程中并没有明显感知到真的有多快,这可能就是这种差异化最大的软肋——优势很难被用户直观感受到。
我觉得闪电说是非常好用的。首先它是本地的端测模型,所以它速度非常的快。然后他也支持你接入API去做AI纠正。我目前是用下来用doubao-1.6flassh效果是最好的。GLM-4.5-X跟GLM-4.6,我觉得效果相对差一些。然后我其实之前用的是wispr flow。我觉得对于语音输入法来说,速度真的非常重要。我之前用 wispr flow,虽然我是付费会员,但他有时候实在是转写太慢了,所以我用的频率也不是很高。
其实我同一时间还在测试Typeless的效果。它是要付费的,就免费30天。转写的准确率比闪电说要好,对于普通话不是很标准的人来说,还是希望有一个更好的转写准确率。
闪电说不开AI纠正效果也还可以,追求准确率的话,还是要开一下,虽然牺牲了一点速度,但准确率会更好一点。就我觉得准确率这方面还是要跟Typeless看齐,他的准确率就非常的高。而且我发现现在所有的语音输入法,在关于中英文混合的情况下,识别率是会有一点降低的。特别是我的英语发音也不是很标准,所以它英语单词的识别就会有一点问题。
还有就是用户词典自学习这方面因为单靠我自己去填写我的用户词典,我其实有点懒,我只能现在写的也基本都是那几个我发音的英文单词,他老是识别错了。还有就是其实他好像不怎么做那种分点的格式优化,这个跟prompt也有关系。如果可以提供更多的那个prompt模板,或者说会效果更好一点,大家按需选择。
以上其实就是用闪电说加上Typeless来输入的,所以我才能说这么多话。我相信语音输入肯定是未来一个非常重要的交互方式,所以现在也在适应。
现在的趋势看大家也很喜欢用语音输入法做vibe coding,因为这样你可以说的内容跟细节都会更多。因为大部分人打字还是比较慢的。我觉得语音输入可以极大地激发所有人的表达欲。但这个其实可能在办公室就不太适合,因为会有噪音怕尴尬什么的。但是我觉得普通场景下语音输入都是一个应该优先考虑的交互方式。
前段时间正好在即刻盘点:https://web.okjike.com/u/e347ebfb-f0f4-4283-8039-1d7f84c7a7d2/post/69154e6a00c0686ab560f45a
我最近试了一大批这种类型的工具。先说结论:「闪电说」这个语音输入法,总体感觉还可以。
不过有个体验不太好的地方:我之前用的是它的前身「代体」,本以为能直接在老软件里检查更新、无缝升级。结果点进去才发现,「代体」好像已经停止维护了,最后我还得自己去重新搜新版下载。这个老用户迁移的体验有点断层了。
但「闪电说」本身的核心点抓得很好,就是“快”。本地AI模型确实牛,毫秒级响应,打字效率高多了。但是除了免费之外,我觉得 UI 还是没 voicelink 好看。
我最欣赏的是它没学「豆包输入法」那样搞得臃肿。这种工具就应该单独做,保持轻巧,用个快捷键随时调出来,这思路是对的。国外的同类工具,像 VoiceInk 那些,动不动就要几十美元一年,太贵了。
我现在不知道我删不删前身“代体”,还是删吧。。。。按着说的都是神人,最好的就是自由说。。。
不知道为啥感觉和之前体验的代体好相似啊。代体因为之前发现内存占2g就忍痛删了,改为用豆包语音替代,结果发现豆包语音不能单独用Fn触发所以又动了换一个的念头?相比豆包语音来说的话他不是那种能低延迟出字的类型,但是识别率还是不错的,而且Fn一键触发很方便,不用再有记住其他快捷键的负担(真的被各种按钮+space的工具逼疯了快)
我现在就是在用闪电说去录入我的评价信息。
我也是用了那款久誉盛名的,有25%分销的软件,但是那款实在是太慢了,好像去海外的网络联网去识别,对我的时效性考验很大。即便在免费试用期内,我也因为时间太慢,不方便而弃用了而拥抱闪电。
闪电说最大的优点就是快,它的语音识别率也许没有那么快,没有那么准确。但是当我FN键按下之后,很快我就可以使用了。文字就已经上墙了,这一点是非常牛逼,非常神奇的。
FN键就特别神奇,因为我平时打字的时候,左手指顺便就往右下角按一下,就输入了,非常丝滑。
往往都是其他人在那跟我聊天,我意识到他可能要说一个东西,我悄悄按下FN键,哇,他瞬间说完就看到自己说的话上了屏,他的那个震惊,我是一下子就看得到了。
我目前就非常喜欢这个FN键右边这个持续录入的功能,我还没有怎么去用,因为左边已经足够方便。
我理解中闪念说,还可以向typeless继续学习,他那边语音的识别确实很牛逼,他能识别我的语音能给我加备注括号,能过滤我的脏话,能把我的闲言碎语给清理掉。
但这个是模型可以追平的,飞速的体验是绝对不怕比拟的。
感谢这款产品,我已经安利给很多人了,都是强烈推荐。
甚至说我这个麦克风就是为闪电书而买,之前纠结了很久,要不要给我的Mac mini台式机配一个,后面遇到闪电说包的。
希望可以有一些设备同步登录,类似于微信输入法这样的设备端到端之间同步也挺好的。
据说电脑上豆包语音输入法的识别效果是最适配我们国人的,但是它没有很便捷的输入方法,这个就很不爽了。
闪电说是我2026年遇到最好的产品之一。
期待开发者的更新,上一次更新,我就觉得准确率大幅提升,速度好像慢了一丢丢,但非常牛。
作为一个I人,平时确实用语音输入的这个习惯还是比较少,所以之前确实也没有体验过其他的语音输入法。
但是在使用这个闪电说输入法之前就已经看到很多人在推荐这个东西了。所以今天也是下载下来使用,体验一下。
首先确实非常的方便,就是语音识别的准确程度也很高。甚至你看我在前面说的这个爱人(补:此处应该是I人),他也比较准确的识别到了,这个还是挺难得的。(然后在这他就错了哈哈哈哈哈)
其次就是说在安装的时候,它就会自动下载一个本地的模型(补:890M的大小),确保你的这个语音数据不会被上传,整体来说安全性和隐私性还是比较高的。
还有一个比较好用的东西,就是我原来觉得语音输入里面可能会有很多的这样的语气词。但是我发现它这里有一个文本正则化,能够比较好的解决这个问题。这个我在图里面也放了。
可能这样还是会有一个问题,就是他没有办法很好的把口语和就是正式的写作语言进行一个比较好的转换,就是因为还是会有很多特别口语化的东西,就是带有很多的“然后这个就是那个等等”这些词。(比如我的这段话)这个问题其实目前来说应该也比较难解决,如果要解决这个问题的话,在输出的速度上就肯定会有比较大的影响。所以这个应该也不算什么大问题。
所以整体来说使用的体验还是比较好的。不过对于我来说,唯一的受限就是在公司不太可能一直这么语音去输入了。所以可能它的使用场景还是仅限于我个人在独立办公的时候才会用得到。但整体来说,产品是一个不错的产品。
以上内容大部分(即除了括号部分)来自闪电说输入法。
我的天哪,这个竟然完全没有人发布评论,我竟然是第一个。
我现在这条评论就是用这个软件直接按住FN键,然后噼里啪啦讲一大堆东西,基本上在10s之内就可以完成所有的输入。
而且目前也是我看到的识别最快的。我试用过讯飞的mac版,还有豆包的mac版,虽然各有各的好处,但其实都没有这个快,这个真的是快到离谱了,而且好像识别错误、失败的概率非常非常低,简直就是彻底改变了我用电脑的体验。
对了,它有一个可以自动校准微调的功能,这个会需要用到联网的AI 去辅助,要自己去输豆包的 API,我试用完发现也就是差不多一秒多的延迟,完全可以接受,而且效果又会更好。这个真的让我感觉很惊艳了?
一个告别 Wispr Flow 转投「闪电说」之后的查评!
早在之前我就嫌弃海外的 Wispr Flow 每月 12 刀订阅费太贵。看到 「闪电说」是完全免费的本地端侧模型,还可以自定义接入 AI 润色工具,果断下载试试水。
语音转文字功能确实好用,但是深度体验之后还有以下几点建议:
希望能推出官方托管的付费 AI 服务。虽然现在支持自定义接火山引擎、OpenAI,但去控制台申请 API Key 对普通用户门槛太高。既然是代替海外软件,不如官方直接集成好用的模型,收取少量的订阅费,大家其实完全能接受,官方也能找到盈利点。
建议提供模型选择指南。市面上模型太多,智谱、DeepSeek、火山引擎等等,用户很难知道哪个做「文本纠正」效果最好。希望官方能做一个横向测评,直接推荐最佳搭配。
探索「智能输入法」方向。除了单纯转录,期望未来能基于语音做个人风格润色、文档撰写,这方面非常值得去探索。
好用啊,之前用过 Wispr Flow,感觉语音转文字真是太爽了,而且 Wispr Flow 产品交互也做的很清爽,默认按 fn 就从屏幕下方弹出一个小黑条提示我在语音转文字了,而且速度飞快,但是奈何订阅价格太高了,免费体验结束后就转用豆包了。但是用过豆包的应该知道豆包的启动速度好慢,没有即按即说的爽感,总是要等一下加载。
闪电说的效果就和 Wispr Flow 几乎一样,但是它是直接在本地跑了一个模型,而且产品整体设计非常清爽,闪电说的名字也很直观,前两天看到 LazyTyper 这个产品也是有类似的功能,但是那个 Logo 实在是有点草率,总感觉不像一个能提升效率的小工具,没有那种清爽感,闪电说的 Logo 就还不错,起码不会让我看着难受。
本地的模型需要常驻占用 2G 的内存,大家可以看图二。对我来说其实还好,由于是本地的模型所以转换速度非常快,比如我现在的这条查评其实就是用闪电说来语音输入的的,几乎是在我说完的那一刻,我的语音就已经转换出来了,延迟几乎为 0。
我自己是非常喜欢用语音转文字的形式来输入内容的,以前即便是在公司里面进行一些文档的编写,我都会觉得用语音转文字的方式来写,所以经常自己一个人小小声的在旁边念叨,声音小的话,对于模型识别的准确性要求还是蛮高的。而且其实用语音转文字来写文章的话,整体写出来的文章,大家读起来其实会更有代入感。因为它就像是有个人直接在对你说话这样。
不过我觉得闪电说在细节上还有优化的空间。比如语音识别时的声波动画,目前略显僵硬,不像 Wispr Flow 那么精致丝滑。虽然这只是个小细节,但毕竟每次输入都会弹出来,如果能优化一下,产品的精致感会提升不少。另外,目前的界面风格和 Wispr Flow 稍微有点 “撞脸”,既然产品包含闪电元素,不如尝试结合闪电的概念设计一套独特的识别动效,这样既有辨识度也更有趣。
当然这些都是我自己比较主观的想法,这些都是次要的。它在最主要的语音转文字的产品功能上,我觉得做的非常好,而且完全免费模型跑在本地不需要有任何开销,这会让我极大的提升我对这个产品的使用率,像这样的一个产品,作者应该是没有什么收入的。所以我觉得会非常感谢产品开发者的贡献,真的非常棒,好评好评,强烈推荐。
试了100天AI语音输入法,最后我还是用回闪电说
Typeless 独一档90分,除了贵其他都很棒
豆包顺手做了语音输入,路径太长,试过很多邪修手段只会更复杂
智谱没用心做产品,有些点子,勉强能用
闪电说,效果很棒吗也没有,离线很刚需吗不存在的。但他很专很稳,用的asr还是24年的版本,我发现最新模型效果更棒,给产品反馈才知道他们已经在调教测试了,但效果没有质变故而迟迟未发布
我的观点是,
大厂几乎都是 60/70 分的产品矩阵,然后垂直生态里肯定会有一个 90 分的付费产品和一个 80 分的免费/开源项目
闪电说正好是后者。
今天突然发现AI用习惯之后,错字错句都多了~ 但AI都能理解,下意识就没去纠正
比如这句“wow 我早上刚发现z合格,默认用的flash”,这个【z合格】是啥 随机问了身旁的人,完全看不懂。但让AI纠正,他能还原出来是【这个】,因为拼音都是 zhege 结合上文续写
在语音输入场景,现有方案都是asr先语音转文字再来一个llm纠错润色
那么,ASR、LLM能否像SOC一样原生集成呢?原来Qwen和DeepSeek 已经在探索了,未来可期?
闪电说,还好你不是疯狂动物城的树懒? 闪~~电~~侠。
在嘈杂环境下,测了“戴耳机无麦说”、“摘耳机对电脑说”两个场景;我把念的内容贴了原文,方便对比。
“戴耳机无麦说”:录音文件中声音模糊,文字识别不成功(合理)
“摘耳机对电脑说”:录音文件中声音清晰,文字识别成功,存在词汇错误(合理,暂时没开启AI纠正)
“手动开启AI纠正”:因为是调用API,本人没有去主动操作;调用Ollama本地模型,调用测试不成功
(我不急,不纠正也够用,我可以复制文字再次编辑)
建议:
-环境嘈杂,低成本辅助降噪
-录音文件,期望可以下载保存在本地
夸夸:
-本地运行,隐私安全
-操作轻便,界面不花里胡哨,即听即所得
-瞄到“直接向创始人反馈问题”,感受到主创团队满满的真诚
短时间内,我对笔记录音云存储、自动整理有要求,仍会继续使用千问录音、腾讯会议、飞书会议等。
自从昨天发现了它的快捷键【Ctrl】+【Windows】之后,我就仿佛打开了一个新世界,
非常好的一款产品,只能用良心来形容了,
目前用的非常爽,如果一直这么优秀下去,我愿意推荐给更多的朋友去用哈哈。
真的很好用,语音识别完全不用做任何修改!!!这点真的太值得表扬了!!!
我之前用的是wisprflow,已经达到上限了,但是!!!识别的准确度太差了(即使这样也已经用到上限了,可见我真的很喜欢语音输入;
无意间看到闪电说,听名字感觉有点犹豫哈哈哈哈哈哈(可能是莫名其妙的偏见。。。
下载下来我惊了,1G没了,心里在嘀咕这什么玩意要这么大。。。已经开始犹豫了;
但是抱着来都来了,下都下了的心态试用了一下,卧槽,相见恨晚!!!强烈推荐大家使用!!
说说缺点:
确实占用的内存太大了,寸土寸金的mac内存有点顶不住。。。
不知道是不是选择AI模型的问题,纠错好像不是特别准确,但是从识别率高这个方面可以弥补也还好。。。
我感觉闪电手的体验是众多TTS工具用下来最好的。支持本地的小模型,数据完全储存在本地,非常的安全。而且语音识别的效果也还不错,并且还可以有许多的配置,支持自定义大模型,自定义词库、语言风格等对于喜欢折腾的的我来说,非常的好玩。如果条件允许的话,希望可以尽快的适配移动端。
890M的模型。。。。
这段评论就是用三年说(闪电说)来写的,
我会把体验过程中的错别字标记出来。
整体上的识别和响应非常非常快。还是有些惊喜的。
没有太多的干扰,没有太多的弹窗提示。整个的体验非常顺滑。
对于大段大段的写作需求的人来说。是非常非常好的小理(效率)工具。
=====================================
可以看到,只有两个地方出错了,整体很不错,推荐。
我们有了一个新名字、新 Logo⚡️,和一颗追求极致速度不变的心。
许多老朋友可能更熟悉我们之前的名字:「代体」。没错,我们升级了!
感谢一路的陪伴,从“代体”到“闪电说”,我们对“快”的追求,永无止境。
我们还在持续优化和迭代产品,我们相信,你的灵感和你的表达之间,不应该有“等待”。
tips:有任何反馈都可以在评论区戳我
不愧是闪电说,刚刚不知道怎么网络波动,账号突然登了出去,把我差点写一半的查评一下子就没了,但还好此时闪电说的本地语音模型也下好了;于是这条就是闪电侠自动语音记录的;是这样的一回事啊,我一开始的时候一直写查评,我就一直在想,如果有语音语言输入就好了。打字实在是太慢了。正好就看到了有个闪电说这个名字,然后我进到这个闪电说的时候,这个这个查评的话,尤其是看到这个图标我以为是什么外卖骑手闪送的一个平台,不知道是干啥用的,结果没想到竟然是一个语音输入功能。一看到这个官网的信息,我就果断的时候下载了一下载的时候,下载到本地发现是一个本地语言模型下载的时间有点长,但是的时候,本地语音模型具有呃低延迟以及隐私安全保护的优势。从这点来说的话,就很棒了。而且的话我也没看到有任何的收费的一个软件,所以说还是不错的,而且点击 shift 加 win 的键,就可以直接开启一个语音调的一个小图标,直接就可以进行一个对话。这一点的时候,相面于其他的一些语音输入是比较方便的啊,点击取消的话,点击松开,它就自动取消了, 而且可以直接的可以键入到里面,而且它的低延迟做的是真的不错,而且它的去噪和主体识别也做的不错。因为我在电脑旁边一直放着音乐,而且放的挺大声的。它竟然都没有干扰我正常的一个语音识别的内容和主要的一个说话和表述方式。我觉得相比于其他一些网站在卷生卷死的做一些输入呃键盘之类的。我觉得语音输是呃语语音的手术倒是一种很方的方式,只是唯一一点的时候是在语的时候我需要长按这两个键。在进行一些会议交流或者是一些其他的一些方式的话,可能是有一些不太方便的地方。而且因为是语音的时候输入,所以说会经常会有一些口语化的一些表达。那么应该时候是可以进行一个优化的这样的一个方式,也可以保留原有的一声音。但是在旁边给出 1 个 AI 优化的一种方式。但随后令我惊喜发现,在设置当中时是可以进行一个 AI 优化的一个修改口语的这种。但是的时候需要你自己去介入一些 APIK。那这样的一种方式的话,其实是更满足一个本地化一个软件的一种形式。而且的话整体的 UI 界面是比较简洁和有效的。嗯,该有的功功能都有。那其实就已经很不错了。果然是这个软件是真的不错啊,我想到哪里它就有哪里真的能满足我确实的需求,真的需要点个赞。研发这个产品的这个人真的是功德无量了,就太需要了。我才发现可以按art键自由说,但是我按alt键的时候时间还是不太好使的。所以其实我还是搞不清楚这个自由说到底怎么按。就是有的时候你语音一直这么按的话,手是真的疼。后来发现是按右面的,我我今天才知道,原来键盘上有两个左右两个alt键,哭笑/(ㄒoㄒ)/~~
昨天试了下周刊提到的闪电说输入法,很惊艳啊,不是直接接替输入法,而是和原有的输入法协作,太赞了,而且整个交互体验,语言识别体验也做的很好。(特别是按着不放一直说话的交互输入操作,这个交互比按下激活再按下取消输入的交互好很多,也更符合使用习惯)
1626
更新于 2026-05-06