独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上

其它,模态,大模型,10/19/2024 10:32:29


图片由Soul官方提供

社交平台Soul App在出海方向上有了新的进展。他们将最新自研的3D虚拟人多模态AI交互体验首次落地10月14日-18日举办的迪拜GITEX GLOBAL海湾信息技术博览会上。

这也是Soul自2016年上线以来,首次亮相国际大型展会。在大会现场,参与体验的用户可以实现高相似度的3D虚拟人的AI建模,通过包含人脸的90余个形状参数和6个属性参数,于几秒钟内,快速在3D世界精细化还原真实人脸的特征 ,打造专属的虚拟化身。

据Soul App CTO 陶明对钛媒体APP介绍,该模型具备多模态理解、真实拟人、文字对话、语音通话、多语种等特性,实现更接近人类模式的互动体验。

“目前可以看到的是,海外市场对AIGC+社交的接受度非常高。”陶明对钛媒体APP表示。

从具体的数据增长情况来看,根据第三方数据公司data.ai,美国等海外市场的社交应用榜单TOP30上,已经频繁出现了如Pengu、Linky AI等AI社交类型的产品。

比如说Character.AI,尽管已经被Google以25亿美元收购,但在全球收获超过2亿用户后,Character.AI也通过2023上线后的疯狂增长速度,证明了海外用户对AIGC+社交产品的欢迎与认可。

不过,陶明也发现,目前在海外还没有见到特别亮眼的“AIGC+社交”的相关产品。

这背后主要的原因是,海外市场的重点其实还是聚焦在技术能力的突破上,而技术突破和应用层落地之间,有比较大的割裂,或者说,海外并不着急把技术尽快落地。

而国内目前的情况是,在技术上很多公司与海外巨头相比,存在一定的差距,但优势在于场景和应用的快速落地。这是国内在移动互联网、数字经济时代就有的鲜明特征。

所以,他认为,在“AIGC+社交”方向,国内的应用落地探索反而会是更快速和积极的。

“在推进AIGC+社交业务落地的过程中,我们采取的是‘模应一体’思路,大模型是Soul解决用户社交需求的方案之一,不是最终目的。”陶明说。

2016年,Soul在上线时,一个基本的思路是,希望能够在线上创造一个新的世界,它与现实世界可以不一样,是真实存在的另一个平行世界,但更有归属感。

所以,当时Soul没有采用彼时社交产品流行的导入通讯录现实关系,或者LBS的模式,而是采用了AI的解决方案,即,用基于AI算法的灵犀引擎,主要是通过对用户在站内多元场景下的行为数据分析,为用户推荐有可能结成深度社交关系的人,以去中心化的机制分发关系和内容。

这是Soul用AI对社交关系中“发现”环节的变革,也让Soul在用户层面形成了非常差异化的认知,在上线后,以很快地速度获得了市场的使用和认可。

截至2022年,Soul的月活用户近3000万,其中,Z世代用户占比超过78%;平台月活跃15天以上的用户占比63.7%;人均用户日均使用时长为46.4分钟,日均私人信息数为66.9条。

灵犀引擎的推出和受认可,让Soul坚定了对AI的投入,后续,Soul还陆续推出了集成AI的NAWA引擎,以及AI苟蛋等相关应用。

从目前推出的一系列新功能的用户反馈来看,AI的应用让Soul的用户对话轮数、次留、用户时长等关键数据都有不错的表现,并且在持续增长中。

陶明举例说,用户平均每天会给AI苟蛋发送超过70条消息,互动平均时长超过30分钟。而在辅助对话方面,在AI的参与下,陌生关系的对话框回复率提高了接近十个百分点。

整体来看,陶明认为,AI对Soul的用户产生了可持续的价值,同时也在Soul整体的用户时长、粘性、用户体验等方面都有积极、正向的助力,“这对我们来说就是难以衡量的收益”。

但AI在社交领域现有的应用落地实践,距离实现行业彻底的变革还有一定差距,陶明认为,这其中主要的挑战还在于技术侧。

以Soul关注的情感关怀这个方向为例,他认为,让AI理解社交、理解情感和情绪这件事情,这其实也是当下AGI的难题。比如说,面对“我感冒了”的信息,在不同的场景中,回答“多喝热水”可能并不是让用户满意的答案。

另一方面在于应用层,如何理解用户核心的社交需求,将前沿的技术能力转化为用户需要的产品功能。

诸多难点之下,可以看到的是,AI对话类的产品正经历新一轮的洗牌,相关产品正在批量式关停。

很大程度上,这是因为得益于ChatGPT横空出世,以及对话模型的开源,很多AI聊天APP,背后直接使用了开源模型,于是,市场上AI社交应用批量涌现,但问题也随之而来:同质化情况严重,人机交互体验、情绪价值反馈没有显著的改善,导致用户留存差,也无法实现有效的商业化。

而Soul在快速落地“AIGC+社交”的实践中发现,很多方向也在逐一被证伪。比如说,做“AI苟蛋”的时候,团队希望它能说会唱、能识图、有形象。他们原本也以为,把很多资源投入到每个点上,每个点都做得最好,一定能实现不错的用户反馈,但最终发现资源用了很多,效果并不明显。

“能说会唱只是一种增益,对话能力,即聊天的情感化再加上语境里的场景构建是最重要的。在不同场景,一个人用同样一句语料所表达的情感不一样,大模型产品在这里的改进空间还很大。我们的经验总结是,要先把基础分做好,然后再优化增益项。”陶明对钛媒体APP说。

在市面上众多AI人机交互产品之中,要做出差异化的关键在于“大模型的情感能力”。 而陶明认为,人机交互的本质,是让AI与人社交。社交的本质是情感的流动,只有能够实现情感的识别,才能让AI更好地理解人性、情绪和情感,实现理想的人机互动。

这需要大模型多模态的、具备拟人化属性,确保实现情感化、个性化和生活化。也就是说,情感识别是Soul一直在持续投入攻克的难点。

下一阶段,具备情感能力的大模型或许将会是“AIGC+社交”行业竞争的新焦点,同时,在“AIGC+社交”方向的探索过程中,产品形态不会仅局限于对话场景。

AI Agent是承载AI社交服务的重要载体,也是完成人机互动体验的重要组成。从更大视角来看,当人们习惯于与AI Agent对话、互动,AI Agent便成为人们接触数字世界和数字服务的入口,这将进一步打开“AI+社交”赛道的发展空间。

陶明更看好的是,多模态端到端大模型的应用,特别是在情感能力突破、多模态互动和端到端能力方向。

情感能力突破指向的是AI更能理解、反馈人类,多模态互动则更接近真实、自然的真人日常互动模式,端到端则意味着,为用户服务的底层方案的创新和真正意义上“在场感”的实现。

“这都是颠覆社交体验的关键。”陶明说,快的话,预计在今年年底,Soul多模态端到端大模型将再次升级,推出全双工视频通话能力,让用户可以便捷、自然地体验到包括文字、语音、视觉在内的多模态创新交互。(本文首发于钛媒体APP,作者|李程程,编辑|胡润峰)