首页 > 快讯 >

环球快看点丨当GPT-4学会看图文,一场生产力革命已势不可挡

2023-03-24 15:20:28 来源:钛媒体官方

「太卷了!」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后,相信很多人都有这样的感想。

与 GPT-3.5 相比,GPT-4 在很多方面都实现了大幅提升,比如在模拟律师考试中,它从原来的倒数 10% 进化到了正数 10%。当然,普通人对于这些专业考试可能没什么概念。但如果给你看一张图,你就明白它的提升有多么恐怖了:


(资料图片)

这是一道物理题,GPT-4 被要求根据图文逐步解题,这是 GPT-3.5(此处指升级之前的 ChatGPT 所依赖的模型)所不具备的能力。一方面,GPT-3.5 只被训练用来理解文字,题中的图它是看不懂的。另一方面,GPT-3.5 的解题能力也很薄弱,鸡兔同笼都能把它难倒。但这一次,两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候,微软又放出了一个重磅炸弹:GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力,Microsoft 365 Copilot 不仅可以帮你写各种文档,还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

从技术亮相到产品落地,OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间,一场新的生产力革命已经到来。

由于变革来得太快,学界和业界都或多或少地处于一种迷茫和「FOMO(fear of missing out,怕错过)」的状态。当前,所有人都想知道一个答案:在这场浪潮中,我们能做些什么?有哪些机会可以抓住?而从微软发布的 demo 中,我们可以找到一个清晰的突破口:图文智能处理

在现实场景中,各行各业的很多工作都和图文处理有关系,比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此,这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文对这种影响做了预测:约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响,而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见,这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上,哪些研究工作或工程努力是值得探索的呢?在近期中国图象图形学学会(CSIG)主办,合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中,来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨,或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文,从做好底层视觉开始

前面提到,GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题,OpenAI 的技术报告里还举了其他例子,比如让 GPT-4 读论文图:

不过,要想让这样的技术广泛落地,可能还有很多基础工作要做,底层视觉便是其中之一。

底层视觉的特征非常明显:输入是图像,输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用,如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好,很多 high-level 视觉系统(如检测、识别、理解)无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解?我们可以看一些例子:

和 OpenAI、微软 demo 中所展示的理想情况不同,现实世界的图文总是以充满挑战的形式存在,比如存在形变、阴影、摩尔纹,这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。

为此,他们将这项任务分成了几个模块,包括感兴趣区域(RoI)的提取、形变矫正、图像恢复(如去除阴影、摩尔纹)、质量增强(如增强锐化、清晰度)等。

这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索,这些模块已经实现了相当不错的效果,相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。

从字到表,再到篇章,一步步读懂图文

图像处理好之后,接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作,甚至可能以「字」为单位。

在很多现实场景中,字不一定会以规范的印刷体的形式出现,这就给字的识别带来了挑战。

以教育场景为例。假设你是一位老师,你肯定想让 AI 直接帮你把学生作业全部批改好,同时把学生对各部分知识的掌握情况汇总一下,最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。 

具体来说,他们创建了一套基于部首的汉字识别、生成与评测系统,因为与整字建模相比,部首的组合要少得多。其中,识别与生成是联合优化的,这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面,而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。

文字之外,表格的识别与处理其实也是一大难点,因为你不仅要识别里面的内容,还要理清这些内容之间的结构关系,而且有些表可能连线框都没有。为此,杜俊团队设计了一种「先分割,后合并」的方法,即先把表格图像拆分成一系列基础网格,然后再通过合并的方式做进一步纠正。

当然,所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中,模型所面临的文档大多不止一页(比如一篇论文)。在这一方向,杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过,这些方法在多版式的场景下还存在局限性。

大模型、多模态、世界模型…… 未来路在何方?

聊到篇章级别的图文处理与理解,其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后,我们也在想能不能在这些方面做些事情」,杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。

一直以来,GPT 系列模型的目标都是努力提高通用性,最终实现通用人工智能(AGI)。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型,OpenAI 给出了一些借鉴,也留下了不少谜团和未解决的问题。

首先,GPT-4 的成功表明,大模型 + 多模态的做法是可行的。但大模型要研究哪些问题,多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。

对于第一个问题,复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息,我们知道 ChatGPT 离不开几项关键技术,包括情景学习(in-context learning)、思维链(chain of thought)和指令学习(learn from instructions)等。邱锡鹏在分享中指出,这几个方向都还有很多待探讨的问题,比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外,他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。

对于第二个问题,厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为,语言和视觉存在着天然的联系,二者的联合学习已经是大势所趋。但面对这波浪潮,任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始,尝试说服研究人员将算力整合起来,形成一个网络去做多模态大模型。其实,在前段时间的一个活动上,专注于 AI for Science 的鄂维南院士也发表了类似看法,希望各界「敢于在原始创新方向上集中资源」。

不过,GPT-4 所走的路就一定会通向通用人工智能吗?对此,有些研究者是存疑的,图灵奖得主 Yann LeCun 便是其中之一。他认为,当前的这些大模型对于数据、算力的需求大得惊人,但学习效率却很低(比如自动驾驶汽车)。因此,他创立了一套名为「世界模型」(即世界如何运作的内部模型)的理论,认为学习世界模型(可以理解为为真实世界跑个模拟)可能是实现 AGI 的关键。在活动现场,上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说,他的团队着眼于视觉直觉的世界模型(因为视觉直觉信息量大),试图把视觉、直觉以及对时间、空间的感知建模好。最后,他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养,然后变成蝴蝶。人们已经提取了数十亿条理解的线索,GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天,深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前,还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是,这还不是一只完美的蝴蝶,整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

上一篇:

自学成才,女生花2百做国风家宴把生活过成诗|环球看点

下一篇:

最后一页

x
推荐阅读

环球快看点丨当GPT-4学会看图文,一场生产力革命已势不可挡

自学成才,女生花2百做国风家宴把生活过成诗|环球看点

linux防火墙设置端口(linux防火墙设置) 热点评

天天速递!什么是工时管理系统?企业使用时需要注意哪些事项

95后女生“收破烂”月入过万:别让学历成为枷锁-天天关注

世界新资讯:华硕笔记本uefi设置u盘启动设置-(华硕笔记本uefi设置u盘启动设置在哪)

每日时讯!夏至习俗

里院变身油画小镇|天天快报

上能电气(300827):3月23日北向资金增持23.65万股

天天看点:卷土重来? 宝能系号称举牌南玻A遭质疑:10亿现金哪里来?

上海清算所总经理汪洪波会见法国兴业银行亚太区首席执行官一行 世界信息

来金桥“双创”示范区,感受元气满满的一天

qq如何修改密码 精彩看点

浙江海宁:以高弹性电网建设为主路径 充分发挥电网的能源枢纽平台作用 环球热推荐

安永松|天天新消息

每日热文:感觉工作压力大心累怎么办_心累怎么办

增收不增利!厨邦酱油母公司中炬高新去年亏损5.92亿元

AI生成“特朗普被捕”图网络疯传-环球看热讯

新资讯:人什么什么什么成语

南部战区新闻发言人就美舰擅闯中国西沙领海发表谈话 聚焦

LCS春季常规赛最佳阵容公布:Gori一阵,Impact二阵,大师兄三阵

后冬奥时代,这些冰雪运动潜在风险你知道吗?

快消息!古风运河生态水岸将现朝阳东五环

环球微动态丨演员歌词完整版_演员歌词

全球快资讯:楚河汉界什么意思

这部8.8分的京阿尼动画,还有这些你不知道的事!

福建启动暴雨IV级应急响应 世界热资讯

樊城两学校获省级公共机构节水型单位称号

摩贝化学赴美IPO 红杉资本、复星、天风等参股

反反复复拨浪鼓歌词_拨浪鼓歌词

每日视讯:被欠薪球员谈第二批清欠名单:去年领了一个月工资,很多人没签字

今日观点!地球的平均公转速度是多少_地球的平均公转速度

《生化危机4重制版》新动画PV:里昂舍身勇救艾什莉

底商宾馆大面积渗水影响经营,逐楼层排查修补漏点

微动态丨安徽建工:3月21日融资买入2506.33万元,融资融券余额4亿元

【世界新要闻】连接龟头的系带撕裂会不会无法勃起_系带撕裂多久可以愈合

带来财运的手机壁纸 吉顺福_带来财运的手机壁纸

全球热消息:瑞信危机:“百年老店”缘何溃败收场

黄金现在多少钱一克(2023年3月21日)

巴萨2-1补时绝杀皇马,近10万名球迷现场见证,冠军基本稳了|环球时快讯

这款白葡萄酒,遇到了就无脑冲吧!|全球观热点

2008年属鼠男2023年的运程 2008年属鼠男2023年命运

央行今日开展1820亿元7天期逆回购操作

罗辑思维音频全集百度云_罗辑思维音频打包下载_环球热门

百货商场开始慢慢消失了

精达股份: 精达股份第八届监事会第十一次会议决议公告

摆地摊卖什么利润大一点_摆地摊卖什么利润大-实时焦点

陈春花个人资料_陈春花简历

今日观点!网络新词

新车报讯:L0-L5等级更加明确SAE自动驾驶等级更新|当前报道