武汉景麟投资有限公司问大模型到底该注重市场化还是研发？

5回复/ 0亮2134 浏览

虎扑JR1910083884(2级)楼主2024-05-08 14:51:12发布于山东

武汉景麟投资有限公司问大模型到底该注重市场化还是研发？由虎扑JR1910083884 发表在步行街主干道 https://bbs.hupu.com/topic-daily

武汉景麟投资有限公司问大模型到底该注重市场化还是研发？创新是从思想、理论、方法、技术，到产品、市场。市场派关注更后端的产品和市场，技术派关注前端的理论、方法和技术，这其实是整个链条上不同层面的事情，不存在说非此即彼的关系。

只是有的公司会选择将大部分精力放到产品和市场上，有的公司会把精力放在整个链条上，重视理论、方法、技术、产品、市场的全链条创新。不同公司会从自身角度出发，做出不同的选择。智谱AI恰恰是属于后者。理论、方法、技术、产品、市场的全链条我们都坚持自研和创新。

只看楼主

全部回帖

收起

虎扑JR1910083884楼主2024-05-08 14:53:21发布于山东

点灭只看此人举报1楼

我们认为，大模型是提供基础能力，基于大模型的开发未来会出现2C端的大模型杀手级应用，大模型会在生产端渗透和赋能，跟千千万万的场景结合。所以我们希望跟更多的应用开发者合作，研发出各种各样的垂类模型，把大模型发挥出最大的效果。文生视频目前处于一个快速发展的阶段，预计今年将是文生视频大模型的爆发期，国内公司在文生视频技术方面的客户需求非常多样，从电影拍摄到短视频、游戏制作等。智谱也将通过使用更高质量的数据和更大的参数，开发高质量的文生视频产品。

虽然Sora商业化还需要时间且当前未开源，国内此前落地的文生视频大模型基本上都是基于diffusion的扩散模型生成4s的“类视频”，4月份朱军老师团队VIDU的发布，意味着国内开始真正实现突破，时长达16s，且一致性和逻辑性都比较好。

亮了(0)

虎扑JR1910083884楼主2024-05-08 14:54:43发布于山东

点灭只看此人举报2楼

5月5日，VALSE（中文全称：2024视觉与学习青年学者大会）在重庆开幕，本次会议由中国人工智能学会、中国图象图形学学会等权威机构主办、中国科学院院士胡事民、中国电信首席技术官李学龙、重庆邮电大学校长高新波等100多位知名专家学者分享前沿新知，吸引5000多位行业人士到场。马上消费人工智能研究院院长陆全作了题为“金融场景下的多模态理解与生成——大模型时代下的防伪挑战与机遇”的主题技术分享，引起广泛关注。

“Sora的发布无疑是技术领域的一次重大突破，但也会降低AI伪冒门槛，潜在引发Deep fake等黑色产业链滋生蔓延。”陆全在技术宣讲中开门见山地说，多模态生成大模型为金融黑产提供了“先进武器”，仅2023年，国内黑产欺诈引发的经济损失达1149亿元，金融业务欺诈金额达75亿元，国家监管机构持续预警，金融机构声誉严重受损，金融客户合法权益不时受到侵害。

亮了(0)

虎扑JR1910083884楼主2024-05-08 14:55:19发布于山东

点灭只看此人举报3楼

利用生成式AI技术衍生的金融“黑产”技术，对传统人工智能技术的人脸识别等防伪技术产生巨大挑战。马上消费已与武汉大学等多所大学联合研发，利用多模态大模型的最新技术：基于声波特征，图片和视频等多模态特征进行微调而构建的多模态防伪大模型——构建未来金融防伪和打击黑产的技术体系。

在经历了21世纪初Gabor/LBP局部特征引入商用的1.0技术防伪时代，2012年以卷积神经网络CNN兴起为代表的2.0技术防伪时代后，2023年至2024年，Gemini/Sora等多模态大模型发布，预示着3.0技术防伪时代来临——可以利用大模型技术有效防御从未出现的新型攻击。

以某银行大额业务场景为例，马上消费多模态大模型技术团队经过技术攻坚，成功应对客户方的高标准项目需求：对算法结果要求大于98%的高识别准确率；客户攻击数据多样，需要模型具有超强的泛化能力；定制化需求多，需要考虑建立完善的人机协同防御体系。从实际效果来看，该项目人脸和声纹相结合的核验防伪技术，将整个系统的安全性提高了一倍；已保障过亿转账资金安全落地；多模态防伪大模型将AI换脸、照片活化、视频翻拍等常见攻击方式的拦截率提升到98%。

在科技能力的加持下，金融行业打击黑产的效果越发显著。由马上消费研发的“爱马”平台试点以来，累计导入黑产数据3万多条，累计发现可用于联合打击数据近百条。

亮了(0)

虎扑JR1910083884楼主2024-05-14 16:51:18发布于山东

点灭只看此人举报4楼

当地时间5月13日，OpenAI发布一款名为GPT-4o的新旗舰生成式AI模型，并计划在接下来的几周内“迭代”推出到公司产品中。

　　据介绍，GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平，速度是上一代AI大模型GPT-4 Turbo的两倍，但成本仅为GPT-4 Turbo的一半，视频、音频功能得到改善。现场演示中，它的表现仿佛一个人正坐在旁边，和人类的对话节奏自然、融洽，完全听不出是个AI，在短短232毫秒内，GPT-4o就能对音频输入做出反应。并且，它可以将文本、音频、图像任何组合作为输入和输出。这意味着OpenAI朝着更自然的人机交互迈出了重要一步。

　　Open AI创始人Altman表示，GPT-4o是OpenAI有史以来最好的模型，它很聪明，速度很快，是天然的多模态。

　　证券研报认为，GPT-4o是迈向更自然的人机交互的重大进步，新功能带来了崭新的多模态交互能力，通过新的端到端模型实现了体验上的新突破，有望在各类终端实现用户体验的最大化，利好智能终端Agent、机器人等方向。

当地时间5月13日，OpenAI发布一款名为GPT-4o的新旗舰生成式AI模型，并计划在接下来的几周内“迭代”推出到公司产品中。

　　Open AI创始人Altman表示，GPT-4o是OpenAI有史以来最好的模型，它很聪明，速度很快，是天然的多模态。

亮了(0)

虎扑JR1910083884楼主2024-05-14 16:51:45发布于山东

点灭只看此人举报5楼

尽管多模态AI尚处于初期阶段，但已有多个模型开始涌现。Google的 Gemini Ultra模型在多学科多模态理解和推理（MMMU）基准测试中超越了GPT-4，显示出多模态模型的潜力。为了保持竞争力，更多的大型语言模型开发者将跟进开发多模态功能。此外，多模态AI预计将解锁新的商业机会，如Artera在医疗保健领域的应用、Google将Gemini集成到搜索中、Ghost Autonomy在自动驾驶领域的探索，以及Meta将其应用于消费设备如智能眼镜。

　　今年以来，全球AI大模型端都持续迭代升级，包括海外的Sora、Llama3等，国内的Kimi、昆仑天工AI、阶跃星辰等。华泰证券指出，伴随模型能力的升级，2C应用有望迎来加速发展。2C应用核心要解决的是产品性能以及用户的付费意愿，伴随底层基础模型的能力优化，2C应用的使用效果显著提升，同时应用模态正在加速拓展。