介绍是真的花里胡哨的点进去看是对各种视频功能的集合的一个网站吧。体验了一下最基础的视频转文本功能和说话人识别功能,上传的一段腾讯会议的视频进去,还是头一回见视频转文本功能是去介绍页面上有什么形状的,很奇怪,没有见过这样的结果。说话人识别功能识别的还是比较准确且到位的。从这两个功能的体验上来说,是不比国内的飞书妙记、通义听悟的。传一些英文的视频语料上去稍微好一些。
Memories AI
构建能够看见和记忆的 AI。
暂无相关文章
期待你给「Memories AI」写一篇深度文章
-
0 / 2000
-
可以理解成是帮助AI理解长视频的Infra,所以会去真的理解每一帧在表达什么,以及帧内元素相互之间时间序列上的关联。目前还是比较初步的阶段,但是LVMM的方向是正确的。个人认为真正的卡点还是在数据,仅仅理解图形元素只是第一步,更多的是很多进一步抽象的信息,所谓电影当中称之为“视听语言”,比如景别、运镜、人物关系人物神情和“空気”、色彩光线、环境描写当中的细节等等,需要的是分镜脚本、拉片这样的数据,最好是能管线化生成训练数据,可能是结合理解生成一体化、时序transformer和动态图嵌入等技术,相互反哺左脚踩右脚。所以还是方向正确的,期待founder能持续突破,点个赞。
0 / 2000 -
0 / 2000
话题 ID:
1450
更新于 2026-05-06