1k followers 30 articles/week
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降

机器之心报道编辑:Panda AI 研究发展的主要推动力是什么?在最近的一次演讲中,OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。 近日,斯坦福大学《CS25: Transformers United V4》课程迎来了一位我们熟悉的技术牛人:Hyung Won Chung。 Chung 是 OpenAI ChatGPT 团队的研究科学家,博士毕业于麻省理工学院,之后曾在谷歌从事了三年多的研究工作,参与了 PaLM、Flan-T5 和 BLOOM 等多个重要项目。机器之心之前曾报道过他的另一个热门演讲:《OpenAI 科学家最新大语言模型演讲火了,洞见 LLM 成功的关键》。 在这次演讲中,他将阐述 AI 研究的主要推动力并尝试通过 Transformer 的发展(尤其是编码器...

Mon Jun 17, 2024 10:43
字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。 在这个过程中,模态的对齐是通过文本 token 隐式实现的,如何做好这一步的对齐非常关键。 针对这一问题,武汉大学、字节跳动豆包大模型团队和中国科学院大学的研究人员提出了一种基于对比学习的文本...

Mon Jun 17, 2024 10:43
答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com 本文第一作者和通讯作者均来自上海算法创新研究院。其中,通讯作者李志宇博士毕业于中国人民大学计算机专业,并曾在阿里巴巴、小红书等互联网公司从事算法落地与研究工作,曾参与了包括千亿级商品知识图谱、用户图谱和舆情图谱的研发工作,累计发表论文四十余篇。李志宇当前在上海算法创新研究院大模型部门(由熊飞宇博士带领)负责整体的技术研发工作。研究院主页:https://www.iaar.ac.cn/...

Mon Jun 17, 2024 10:43
大模型+蒙特卡洛树搜索,一招让LLaMa-3 8B奥数水平直逼GPT-4

机器之心报道编辑:陈萍、杜伟通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。 这几天,17 岁中专生姜萍在 2024 阿里巴巴全球数学竞赛预选赛中取得全球第 12 名的新闻刷了屏。而同时,AI 挑战赛的成绩显示,在所有 563 支 AI 参赛队伍中,最高分 34 分,平均分 18 分,赶上了人类选手平均水平。 AI 参与数学竞赛的主要短板是逻辑推理能力弱,证明题很难拿到完整得分点。这也是 GPT-4、LLaMA 等当前大语言模型(LLM)在需要策略和逻辑推理的任务中面临的重大挑战。 其中的一大障碍是输出的准确性和可信度,尤其是在需要保证精度的数学上下文中,LLM 在推理时往往容易产生幻觉。输出结果表面上看似合理,但实际上不相关或事实不正确,最终导致不合理的推理过程。 虽然像 Self-Refine...

Mon Jun 17, 2024 10:43
3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

机器之心发布机器之心编辑部 2024 年 5 月,DreamTech 官宣了其高质量 3D 生成大模型 Direct3D,并公开了相关学术论文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。 链接:https://arxiv.org/abs/2405.14832 这是首个公开发布的原生三维生成路线的 3D 大模型,通过采用 3D Diffusion Transformer (3D-DiT),解决了长期以来困扰行业的高质量三维内容生成难题。 坚持原生 3D 技术路线并取得突破 此前,3D AIGC 通常采用的技术路线是 2D-to-3D lifting,即通过 2D 图像模型升维得到...

Mon Jun 17, 2024 10:43
星环科技孙元浩:语料已经是大模型最大的挑战

机器之心报道作者:Esther 「原来以为语料已经匮乏了,大模型训练已经没有语料了,实际上不是的,数据还远远没有跑光」。 作为大数据领域超过十年的创业者,「星环科技」创始人及CEO孙元浩并不认同「大模型已经将人类互联网数据穷尽」的说法。 根据他的观察,如今在各行各业企业内部的数据还远远未被足够利用,人类在互联网上的存量数据远远大过目前大模型能够利用的量级。拥有了这些来自各行各业内部高质量的数据,大模型可以在如今的基础上,大大提高准确性。 而关键问题就在于,怎样可以高效地开发这些数据? 大模型时代,语料的开发遇到了新的挑战。孙元浩分享称,目前企业内部的数据往往多是非结构化的、海量的、不同形式的、以小文件居多的,同时标注和校正这些专业数据还有较高的门槛。这对文件系统、知识库系统、语料开发系统等都提出了新的要求。...

Sun Jun 16, 2024 09:49

Build your own newsfeed

Ready to give it a go?
Start a 14-day trial, no credit card required.

Create account