首页 梗流行语 正文

corpus 中国首座CORPUS人体博物馆开工建设

中国首座CORPUS人体博物馆开工建设

中新社合肥6月3日电 (记者 赵强)中国首座CORPUS人体博物馆——安徽省马鞍山市郑蒲港新区CORPUS人体博物馆3日举行开工仪式,预计2020年8月可建成并对外营业。

CORPUS人体博物馆位于荷兰乌赫斯特海斯特,是世界首座人体博物馆。此次开工的郑蒲港新区项目,是CORPUS博物馆在亚洲的首次布局。该项目通过全息图、影像资料和声光电互动技术来讲解人体奥秘,将知识性和娱乐性融于一体。通过体验“人体之旅”,提醒人们爱护自己的身体,向公众传达健康生活、合理饮食和增加锻炼的康养理念。

据介绍,郑蒲港新区CORPUS人体博物馆项目占地50.08亩,其中一期占地22.25亩,二期占地27.83亩。项目总投资约为6亿元人民币,

荷兰王国驻沪领事馆总领事万鹤庭在开工仪式上说,CORPUS人体博物馆的使命是让人们了解自己的身体和健康,相信CORPUS项目在中国也能完成它的使命。

郑蒲港新区党工委书记、管委会主任吴晓东说:“荷兰CORPUS项目落户郑蒲港新区,丰富了新区文旅资源,加快了新区人气集聚,将进一步促进中荷双方在产品、知识、服务等方面的交流与合作。”(完)

破解AI“胡说八道”,这家公司要给大模型投喂好原料|产品观察

作者|黄楠

编辑|袁斯来

大模型今天所展示出的强大能力,源于背后海量数据,为其注入了丰富的人类知识。如果将大模型视为正在疾驰的科技列车,数据语料便是珍贵的“燃料”。其中,语料质量的提升对模型性能取得阶段性突破至关重要。

然而一个现实情况是,高质量语料正在被急速消耗。国内大模型厂商所面临的语料短缺问题十分严峻。

以中文语料为例。中国工程院院士高文指出,当前全球通用的50亿大模型数据训练集中,中文语料占比仅为1.3%,其数量和质量上同英文等其他语言相比存在明显不足。“沉睡”在报告、论文、报纸等文档内的大批高价值语料数据,由于其复杂的版面结构,制约了大模型的训练语料处理能力,无法被轻易解析并提取。

解决中文数据不足和质量问题,处理多样化数据,仍是各厂商面临的一大挑战。

为了帮助企业应对数据局限问题,日前,合合信息在WAIC 2024上发布了用于大模型语料训练的“加速器”产品——TextIn智能文档处理平台。

在训练前期阶段,使用“加速器”文档解析引擎,破解书籍、论文、研报等文档中的版面解析障碍,为模型训练与应用输送纯净的“燃料”;同时,“加速器”搭载了文本向量化模型,以解决大模型“已读乱回”的幻觉问题。

合合信息的思路是,从“炼丹”源头的燃料出发,通过标准化平台进行语料结构化,提高数据预训练效率,帮助大模型厂商达成有效的模型性能提升和迭代。

处理复杂语料

合合信息此次发布的大模型“加速器”TextIn智能文档处理平台,由TextIn文档解析、TextIn Embedding(文本向量数据模型)以及OpenKIE三大工具组成。

目前,无线表、跨页表格、公式等复杂元素的处理,仍是大模型语料清晰的“拦路虎”。

以银行常见的基金对账单托管业务为例,市面上基金公司众多,各家企业的账单样式都不相同,加上复杂的表格呈现形式,要将数据从非结构化图文信息中抽取,并整理成模型训练需要的形式,往往十分耗费人力和时间。

失之毫厘、差之千里,一个单元格的理解问题,可能导致表格整体识别的结果发生巨大误差;同时,表格的还原准确率,也直接影响了模型问答的效果。

TextIn文档解析在文本、表格、图像等非结构化数据的表现上,最快1.5秒就能完成百页长文档的解析;不仅速度快,同时还具备理解能力,可以智能还原文档的阅读顺序。

大模型使用文档解析引擎之前(左)和之后(右)的效果对比。结果表明,使用后大模型具备了更快速、优秀的文档要素分析、表格内容识别能力。

面对多类型样本问题,合合信息在TextIn文档解析的算法阶段,就很注重图表数据训练。当前,TextIn文档解析工具可以将柱状图、折线图、饼图、雷达图等十余种常见图表,以及任意格式文件 “还原”,并其拆解为Json(轻量级的数据交换格式)或Markdown(轻量级标注语言)格式。

经拆解后的数据语料清晰易懂,可以让大模型更好地理解图表数据,进而学习商业研报和学术论文等专业文档中的论证逻辑。同时,在图表不显示具体数值的情况下,TextIn文档解析也可以仅依据坐标轴区间,估算出具体数值。

文档解析引擎基于坐标轴区间,对不显示具体数据的图表进行数值估算。

另一方面,大模型或许在通用问答中生成表现很好,但就现阶段来看,面对专业领域问题,大模型仍存在局限性,容易出现“一本正经地胡说八道”的幻觉,稍不注意,便可能带来严重的影响。

经测试,使用合合信息的TextIn Embedding模型(文本向量数据模型)后,能提高大模型信息搜索和问答的质量、效率和准确性。

TextIn Embedding模型是一个acge_text_embedding模型(以下简称:acge模型)。就像“指南针”一样,通过大量中文语料的深入学习,acge模型可以迅速对全文进行查找,找到目标信息定位,并将有效的文本特征提取出来,准确完成分类和聚类任务。

与其他开源模型相比,acge模型体量较小,占用资源少,1024输入文本长度能满足绝大部分场景的需求。

虽然大模型支持的token数量在持续增加,令其具备了“短暂记忆”的能力,但仍会出现灾难性遗忘的问题。针对这一问题,acge模型引入了持续学习训练方式。

相较之下,acge模型支持可变输出维度,让企业能够根据具体场景去合理分配资源,从而提升了模型系统的性能和体验。

以大模型厂商实际引用场景为例,在未引入向量数据库时,如果厂商采用的是分布式系统的开源方案,其缺点在于,随着语料增长到一定规模时,分布式存储很快就会遇到瓶颈;同时,每天上亿的数据处理量,按照传统单线程序处理方式速度有限。引入acge模型后,其文档的整体处理速率可得到显著提升,同时在数据齐备的情况下,还能消除部分幻觉、多文档元素识别、版面分析等问题。

OpenKIE是一个可用于图像文档的信息抽取工具,其中包括了字段抽取、列表抽取和元素抽取三种模式。

客户只需创建好文档类型,设置需要提取的字段并上传文件,OpenKIE就能自动抽取文档中所需信息,并直接应用、或导入到其他系统中使用。

合合信息文档解析引擎与常规OCR引擎适用对比

比如在大模型文档处理场景中,合合信息与百川智能合作,共同破解困扰大模型产业已久的多文档元素识别、版面分析难题,将对百页文档的整体处理速率提升超过10倍。

合合信息智能创新事业部总经理唐琪告诉硬氪,目前,TextIn智能文档处理平台可覆盖金融、医学、财经、媒体等47个场景,共3200余类文档;已被用于百川智能等多家头部大模型厂商的预训练流程,同时也积累了小批量开发者用户。

泛场景、通用的工程化能力

就目前来看,几乎大模型每一次能力提升,其预训练数据的数量、语料质量、领域类型等多维度都起到了关键性作用。

在数据处理方面,国内大部分厂商选择的方案主要有两类:一类是交给提供基础设施服务的第三方公司,例如合合信息的TextIn智能文档处理平台、Amazon Textract文本提取服务;另一类是以银行、券商等垂直赛道企业为代表,在传统OCR算法基础上叠加训练内部模型。

唐琪告诉硬氪,“从调研来看,企业选择供应商的标准无非就三个维度——快、稳、准。”

快,即文档解析引擎的速度要快;根据合合信息测算, TextIn智能文档处理平台保持在1.5秒内的解析时长,而当前市场上部分同类型工具的速度在其3-5倍。稳,指面向大批量、复杂格式的语料,例如PDF文件、表单等,是否都能兼容并进行高准确度的解析工作。准,即能否将文档信息精准还原为表格。

当前,高质量、经梳理过的语料短缺是一大问题,“特别是中文数据更是稀缺,”唐琪说到。

国内外大模型数据集主要为英文,均源于许多开源数据集进行训练,如Common Crawl、RedPajama、BooksCorpus、The Pile、ROOT等。这部分数据虽然量多,但质量上却良莠不齐。一大优质的中文语料数据,沉睡在报告、论文、报纸等文档里。

从获得海量数据到高价值数据,预训练阶段的语料处理十分关键。这意味着,作为一个平台型产品,向大模型厂商和开发者“递铲子”,其基础的工具能力是否足够扎实,关系到种子用户的购买意愿。

唐琪经历过这样一件事。有位从事二手奢侈品贸易的商家手上积攒了大量小票,为了计算利润,他每次需要人工将售价减去原始价格后,将最终结果录入后台,整个过程涉及的公式计算很复杂,包括数额差价、各款式的库存等问题,传统OCR模型无法应用。对方找到唐琪后,通过在加速器平台上调节了小参数,很快需求得以解决了。

这只是一个细分场景中极为精细的小问题。在大模型时代,平台工具的本质形态,不同于单层的私有化部署逻辑,更强调面向泛场景、通用的工程化能力。

基于这一思路,合合信息在产品设计阶段提前做了几件事。首先是场景前置,在未个性化阶段提前给模型补充大量优质的垂直领域Know-how,比如金融、法律、教育等,关注特定行业中的普遍痛点,基于用户诉求在产品设计时提供解决方案,进而提高大模型加速器在核心应用场景中表现能力。

二是专注产品化,不只对客户提供通用场景的API,而是提供更多工具型产品,降低应用门槛,做到开箱即用,这对技术资源较为薄弱的传统企业、中小创业公司或个人开发者来说非常友好。

大模型变革的浪潮里,以数据为中心,成为行业人士从事大模型研发和应用的共识。具体到实践层面,大模型上游阶段在文本解析、逻辑版面、文档问答等方面,仍有很多的提升工作可以做。

未来,合合信息将重点瞄准金融、医疗等行业推出垂直领域产品,同时面向开发者推进内测计划,吸纳更多用户参与到产品共创和优化中去。

相关问答

warframe职业介绍?

每个战甲都有自己的定位和用法,而且mod的不同搭配可以让战甲有更多不同的玩法,前期开荒建议用Rhino战甲。warframe场景地图Corpus瓦斯城corpus瓦斯城是位于...

game corpus 是什么文件夹?

gamecorpus是一个文件夹,可能是用于存储游戏相关的数据和文件的目录。它可能包含游戏的资源文件、配置文件、存档文件、插件或模组文件等。这个文件夹通常用...

存折上的“储蓄所,本金,转存日期,到期日,存期,钞/汇(C/E)”英...

[回答]储蓄所Instead,本金theprincipal,转存日期keepdate,到期日duedate,存期thedepositperiod,钞/汇(C/E)issuing/Ex...

星际战甲潜入 corpus 档案库怎么过?

在潜入Corpus档案库时,首先要确保准备充足,如使用控制技能快速削弱敌人,装备隐身道具进行偷袭,并破坏防御系统。利用交互功能解锁电脑,找到目标文件并下载...

有谁知道,さもなくば的中文解释吗?

さも‐なくば[然もなくば(然も無くば)][接]さもないと。对於我来说,不自由,毋宁死。われに自由を与えよ、さもなくば死を。--InternetCorpu...

星际战甲潜入 corpus 档案失败后卡死?

星际战甲卡住有以下原因:1、玩家电脑配置可能跟不上游戏所需配置,可以检查下自己电脑配置,进行配置升级,或者把游戏中的画质调低,并在运行游戏时将一些不必...

这句话中flat是什么意思

说白了很简单flat就是平的,空的的意思嘛钱包空的一张支票也没有个人认为flatout是一起的,词典解释是筋疲力尽的。我猜上文是说他的不幸之类的。...

物理阴茎增长训练教程 可行吗_千问健康

他们介绍的非常有道理而且是免费的是真的吗?可哪有免费的午餐呀请专家们给解释一下吧

corpus luteum是什么意思

[最佳回答]corpusluteum英[ˈlu:ti:əm]美[ˈlutiəm]词典黄体双语例句1Thecorpusluteumofthepreviouspregnancyreg...

ありませh什么意思?

没有1.感謝のことばもありません不知如何表示感谢才好--来源--InternetCorpus2.たいしたことはありません。没什么大问题。--来源--In...