彩神 - -(中国)百度百科
彩神2023-01-31 16:05

向善而生的AI助盲,让AI多一点,障碍少一点******

  有人说,盲人与世界之间,相差的只是一个黎明。在浪潮信息研发人员的心中,失去视力的盲人不会陷入永夜,科技的进步正在力图给每一个人以光明未来。

  AI助盲在人工智能赛道上一直是最热门的话题之一。以前,让失明者重见光明依靠的是医学的进步或“奇迹”。而随着以“机器视觉+自然语言理解”为代表的多模态智能技术的爆发式突破,更多的失明者正在借助AI提供的感知、理解与交互能力,以另一种方式重新“看见世界”。

  新契机:多模态算法或将造福数以亿计失明者

  科学实验表明,在人类获取的外界信息中,来自视觉的占比高达70%~80%,因此基于AI构建机器视觉系统,帮助视障患者拥有对外界环境的视觉感知与视觉理解能力,无疑是最直接有效的解决方案。

  一个优秀的AI助盲技术,需要通过智能传感、智能用户意图推理和智能信息呈现的系统化发展,才能构建信息无障碍的交互界面。仅仅依靠“一枝独秀”超越人类水平的单模态人工智能比如计算机视觉技术还远远不够,以“机器视觉+自然语言理解”为代表的多模态算法的突破才是正确的新方向和新契机。

  多个模态的交互可以提升AI的感知、理解与交互能力,也为AI理解并帮助残障人士带来了更多可能。浪潮信息研发人员介绍说,多模态算法在AI助盲领域的应用一旦成熟,将能够造福数以亿计的失明者。据世卫组织统计,全球至少22亿人视力受损或失明,而我国是世界上盲人最多的国家,占世界盲人总数的18%-20%,每年新增的盲人数量甚至高达45万。

  大挑战:如何看到盲人“眼中”的千人千面

  AI助盲看似简单,但多模态算法依然面临重大挑战。

  多模态智能算法,营造的是沉浸式人机交互体验。在该领域,盲人视觉问答任务成为学术界研究AI助盲的起点和核心研究方向之一,这项研究已经吸引了全球数以万计的视障患者参与,这些患者们上传自己拍摄的图像数据和相匹配的文本问题,形成了最真实的模型训练数据集。

  但是在现有技术条件下,盲人视觉问答任务的精度提升面临巨大挑战:一方面是盲人上传的问题类型很复杂,比如说分辨冰箱里的肉类、咨询药品的服用说明、挑选独特颜色的衬衣、介绍书籍内容等等。

  另一方面,由于盲人的特殊性,很难提取面前物体的有效特征。比如盲人在拍照时,经常会产生虚焦的情况,可能上传的照片是模糊的或者没有拍全,或者没拍到关键信息,这就给AI推理增加了难度。

  为推动相关研究,来自卡内基梅隆大学等机构的学者们共同构建了一个盲人视觉数据库“VizWiz”,并发起全球多模态视觉问答挑战赛。挑战赛是给定一张盲人拍摄的图片和问题,然后要求给出相应的答案,解决盲人的求助。

  另外,盲人的视觉问答还会遭遇到噪声干扰的衍生问题。比如说,盲人逛超市,由于商品外观触感相似,很容易犯错,他可能会拿起一瓶醋却询问酱油的成分表,拿起酸奶却询问牛奶的保质期等等。这种噪声干扰往往会导致现有AI模型失效,没法给出有效信息。

  最后,针对不同盲人患者的个性化交互服务以及算法自有的反馈闭环机制,同样也是现阶段的研发难点。

  多解法:浪潮信息AI助盲靶向消灭痛点

  AI助盲哪怕形式百变,无一例外都是消灭痛点,逐光而行。浪潮信息多模态算法研发团队正在推动多个领域的AI助盲研究,只为帮助盲人“看”到愈发精彩的世界。

  在VizWiz官网上公布的2万份求助中,盲人最多的提问就是想知道他们面前的是什么东西,很多情况下这些物品没法靠触觉或嗅觉来做出判断,例如 “这本书书名是什么?”为此研发团队在双流多模态锚点对齐模型的基础上,提出了自监督旋转多模态模型,通过自动修正图像角度及字符语义增强,结合光学字符检测识别技术解决“是什么”的问题。

  盲人所拍摄图片模糊、有效信息少?研发团队提出了答案驱动视觉定位与大模型图文匹配结合的算法,并提出多阶段交叉训练策略,具备更充分的常识能力,低质量图像、残缺的信息,依然能够精准的解答用户的求助。

  目前浪潮信息研发团队在盲人视觉问答任务VizWiz-VQA上算法精度已领先人类表现9.5个百分点,在AI助盲领域斩获世界冠军两项、亚军两项。

  真实场景中的盲人在口述时往往会有口误、歧义、修辞等噪声。为此,研发团队首次提出视觉定位文本去噪推理任务FREC,FREC提供3万图片和超过25万的文本标注,囊括了口误、歧义、主观偏差等多种噪声,还提供噪声纠错、含噪证据等可解释标签。同时,该团队还构建了首个可解释去噪视觉定位模型FCTR,噪声文本描述条件下精度较传统模型提升11个百分点。上述研究成果已发表于ACM Multimedia 2022会议,该会议为国际多媒体领域最顶级会议、也是该领域唯一CCF推荐A类国际会议。

  在智能交互研究方面上,浪潮信息研发团队构建了可解释智能体视觉交互问答任务AI-VQA,同时给出首个智能体交互行为理解算法模型ARE。该研究成果已发表于ACM Multimedia 2022会议。该研究项目的底层技术未来可广泛应用于AI医疗诊断、故事续写、剧情推理、危情告警、智能政务等多模态交互推理场景。

  眼球虽然对温度并不敏感,但浪潮信息的研发团队,却在努力让盲人能“看”到科技的温度,也希望吸引更多人一起推动人工智能技术在AI助盲、AI反诈、AI诊疗、AI灾情预警等更多场景中的落地。有AI无碍,跨越山海。科技的伟大之处不仅仅在于改变世界,更重要的是如何造福人类,让更多的不可能变成可能。当科技成为人的延伸,当AI充满人性光辉,我们终将在瞬息万变的科技浪潮中感受到更加细腻温柔的善意,见证着更加光明宏大的远方。

彩神

国双科技祁国晟:在赋能数智化转型路上不断夯实“底座”******

  ■文/光明网记者 李政葳

  审前过滤、阅卷审查重点标注与高亮识别、文书自动生成、智能文书校对……这是我们在国双科技北京总部展厅一角看到的一幕,这里系统展示了大数据赋能“智慧司法”建设的生动实践。

  通过使用智讼系统,原来一位法官要做4个小时的案件,现在仅需要10分钟。作为中国领先的大数据和人工智能解决方案提供商,国双科技不断发挥在该领域积累的技术能力,在政府及央企数字化转型中发力探索。

  回顾国双科技的创业经历,也正是国内大数据、人工智能产业发展以及技术赋能行业的缩影。如果把时间指针倒回到千禧年初,此时中国互联网发展已10年有余,在网易、搜狐、阿里巴巴、腾讯、百度等互联网公司掀开时代帷幕之后,一批又一批互联网弄潮儿投入巨大蓝海。国双科技创业团队便是其中一员,成为时代洪流中的开拓者。

  迭代的是技术,不变的是持续积累

  见到国双科技创始人、CEO祁国晟,是在展厅旁边的一间会议室里。经历了行业的初创、发展、变迁,此时的祁国晟多了不少沉稳和淡定。他背后的国双科技成立于2005年,英文名叫“Gridsum”,是“Grid”(网格)和“Sum”(求和)两个单词的合成,代表用并行分布式架构Grid处理加法Sum运算。

  17年前的这一命名逻辑,始于祁国晟对于分布式计算的敏锐技术预见。这一思考,也在云计算、大数据等新一代网络架构升级及信息技术落地的当下逐渐得以验证。

  “我们认为,它是一个并行且可以并行化运算的数据仓库系统,可以拿来服务新一代数字化、智能化转型企业需求的‘底座’。它支持了当年很好地服务世界500强外企。”祁国晟回忆。

  团队成立之初,国双科技将服务客户聚焦于大型及超大型企业。在最初为上百家世界500强企业提供大数据处理SaaS的服务中,积累了强大的数据处理能力,并在不断衍生迭代中将SaaS从应用变成平台,推进自主SaaS软件的PaaS化发展,实现了国产软件技术的产品化推进。“当时百分之八九十的业务是服务500强企业。但是现在一半的业务是这些,其他一半是央企。”祁国晟说。

  迭代的是技术,不变的是一以贯之的创业理念。伴随国内消费互联网产业不断发展,国双科技经历了基础算力积累期、智能算法成熟期、产业场景贯通期。这三次重大业务转型,在外部看来都是跨越式甚至是进入完全不同的赛道。但就自身而言,国双以科技力解放社会生产力、以科技劳动迭代生产关系的初心从没变过。

  “我们的发展战略还是和在上市时招股书里写的一样——要把‘底座技术’抽出来产品化,然后去服务数字化、智能化转型企业的需求……”祁国晟提到,以前服务500强企业时发现,平台软件“底座”不会购买中国软件公司的产品,但在中国做业务时需要购买一些SaaS、应用,以适应中国的互联网环境。

  2016年以后,国双用三年的时间把积累十几年的能力“底座”,转变成了一个平台级的软件,这也带动了国双客户结构的转变。“大量央企在目前自主可控、安全可靠的信创要求下,在数字化、智能化转型浪潮下,平台软件实实在在地给企业带来利益与价值。”

  2022年开年伊始,国双科技呈现出强劲的业务增长态势。截止目前,2022年合同订单额接近10亿元人民币,并在不断增长中。

  打造智能化转型的“底座”工具集

  “数字化、智能化转型的概念很宽泛,我觉得它应该是在新的信息科技时代,可以做到大幅地解放生产力。”祁国晟这样判断。

  在产业数智化转型浪潮中,油气田作为国家战略资源和工业基础,始终追求提质增效和高质量发展。2019年,国双与某超大型油田企业开展了石油炼化产业的数字化、智能化转型探索。

  在转型过程中,数据壁垒、数据安全等问题备受关注,尤其是重点行业、重点央企的转型更为谨慎。对于国双科技的核心优势,祁国晟概括为以下两点:一是把很多原来条块分割、烟囱式的数据实现全面打通,数据打通以后就能够比较容易地、实时地拿到个人透明的、全面的数据;二是在智能化转型中可以比较有效地运用算法模型,一手知识、一手数据,双轮驱动很好地支持甚至部分替代脑力劳动者。

  “这几年实践证明,非常有效!”基于全面感知的物联接入,数字化、智能化融合管理体系,信息安全保障体系以及数据和业务的智能协同,国双科技打造了一套全面感知、自动预测、智能调控、实时优化的产业智能化解决方案,实现了油气田企业的组织优化、效率提高、管控提升、成本降低的若干建设性目标。

  “数字化、智能化转型的‘底座’,就是一个工具集。就像去解决别人问题时,会带一个‘背包’,里面装着工具。这就要求工具集非常完备、非常稳定好用。”在祁国晟看来,在做别人看似定制化、个性化工作时,因为有了强大的工具集,既可以让客户感到满意,又很有效率,“这个就是‘底座’的能力”。

  从实践来看,任何一家大型企业的数字化转型,都不止是一项技术工作,更多的是管理理念通过技术工具、信息系统的输出。而对于各行各业来说,数字化转型都不是一夜诞生,而是基于几十年技术创新的延续。“我们的优势在于过去积累的时间非常长,在积累过程中又因为种种原因,心无旁骛地去做聚焦、深耕,让我们有非常完备的工具集。”祁国晟说。

  自2020年以来,此起彼伏的疫情给数字化按下“快进键”。基于国双科技解决方案,上述油气田在面临疫情带来现场减员的管控下,不仅没有因此造成对生产的不利影响,反而实现了产量不减反增的收益。

  “根据疫情防控要求,生产现场人员只能控制在30%,这种情况下数字化价值就实实在在地凸显出来了。疫情推动了数字化、智能化需求,很多央企在数字化转型以及自动化运维、数字孪生上有明确需求,给了我们很多机会。”祁国晟说。

  让“底座”更加自主可控、安全可靠

  在过往的企业数字化、智能化转型中,往往采用咨询、平台软件选型、实施三步走式方式推进。而在平台软件选择上,大多面临着国外企业垄断的局面。鉴于数据安全、本土适配、性能优化等诸多需求,亟需拥有自己的基础软件来解决“缺芯少魂”中“魂”的问题。

  “我们要做的是,第一要有自己的平台‘底座’能力;第二要在这个平台‘底座’能力的边界上,滋生出来咨询,也就是和他对接的能力。”祁国晟说。

  通过多年在大数据及人工智能领域的浸润,国双科技将自主可控、安全可靠数字化、智能化软件“底座”技术优势,运用于大型企业及政府数字化、智能化转型。

  在夯实平台软件“底座”能力的同时,国双科技也在不断打磨基于业务场景的理解与咨询能力,将大数据、人工智能的解决方案,从技术层面提升至覆盖技术工具、信息系统、IT和DT等综合输出的管理理念层面,助推大型企业实现自上而下全业务、全链路的集团级数字化、智能化转型。

  不同于传统的病毒库、攻防,国双科技更是将安全根植于数字化产品研发的骨髓里,确保超大型企业庞杂数据处理中的安全与稳定。比如,在平台开发和应用过程中,先后开发出自主可控的数据仓库、智能CRM等大型企业应用软件,可以对SAP、甲骨文(Oracle)等国外同类产品进行升级替代,成为“国产替代”计划的一个重要组成部分。

  截止目前,国双科技已拥有3000多项专利技术,并将不断加大技术研发投入,促进平台级软件“底座”更加成熟稳健。因此,国双科技成为工信部颁发的“网络安全技术应用试点示范单位”,其工业互联网数据安全智能检测平台也成为“网络安全技术应用试点示范项目”。

  经历创业之初的筚路蓝缕和行业转型的裂变升华,未来在深耕企业服务的基础软件领域中,国双科技将搭建包含咨询、平台基础软件、实施在内的生态系统,以对接更多政府及企业,为其提供更高效、精准、便利的大数据、人工智能一站式解决方案。“做一个成熟的基础软件企业,建立一个‘ecosystem’!”祁国晟这样说。

中国网客户端

国家重点新闻网站,9语种权威发布

彩神地图