2022年,达观技术团队发布了数十篇有关人工智能领域的精品技术文章,现将本年度最受欢迎的精品技术文章推荐给大家。我们汇总了2022年度在全网各大技术平台阅读量最高的10篇文章,欢迎读者们品阅。
1.OCR技术发展综述与达观数据的实践经验|阅读量:75899
在过往40余年的技术发展历程中,OCR始终具备很强的产业应用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域。近年来OCR技术已经在工业界成熟落地应用,学术界里对此的研究热度反而弱于其他方向。甚至有人认为OCR技术已经充分成熟,没有更多研究必要了。然而随着近年来智能文本处理IDP(Intelligent Document Processing)在工业界的逐步落地应用,OCR和IDP相结合的应用场景越来越多,用语义理解NLP的角度进一步去延伸OCR的应用,出现了很多更有产业应用价值的场景。本文回顾了OCR技术的发展历程,并结合达观数据在工程实践方面的经验,介绍与语义分析技术结合后,当前OCR技术的一些最新发展和落地经验。
2.文字语义纠错技术探索与实践|阅读量:61123
文本语义纠错的使用场景非常广泛,基本上只要涉及到写作就有文本纠错的需求。书籍面市前就有独立的校对的环节来保障出版之后不出现明显的问题。在新闻中我们也时不时看到因为文字审核没到位造成大乌龙的情况,包括上市公司在公开文书上把“临时大会”写成为“临死大会”,政府文件把“报效国家”写成了“报销国家”。有关文本纠错的辅助工具能给文字工作人员带来较大的便利,对审核方面的风险也大幅降低。
3.AIGC用于智能写作的技术综述|阅读量:55916
AIGC,即AI-generated Content,基于AI的内容生产,它是利用人工智能进行内容创作的方式,它被认为是继PGC(Professionally-generated Content)、UGC(User-generated Content)之后的新型内容创作方式。AIGC在文本、图像和音视频等多领域都正在高速发展。其中,文本写作技术在很长一段时间里以RNN Seq2Seq为主,发展迟缓,而当Transformer模型结构问世后,这一领域的技术发展迅速爆发,围绕着Transformer的文本写作技术喷涌而出,包括微软亚洲研究院、谷歌AI、Facebook AI、OpenAI等诸多国际知名研究机构都纷纷投入,先后诞生了UniLM(2019)、MASS(2019)、T5(2020)、BART(2020)、GPT系列(2018-2022)等多个影响力显著的研究成果。本文将沿着这条技术发展脉络,从传统的智能写作到如今的前沿研究为读者做详细的阐述,并为大家介绍达观数据的智能写作产品实践。
4.知识图谱增强下的智能推荐系统与应用|阅读量:48184
随着互联网技术的迅速发展,尤其是移动互联网的兴起,新产生的信息呈现爆炸式的增长。为了更好地解决信息获取中的信息过载(Information Overload)和长尾问题(Long Tail),推荐系统应运而生,目前基本上已经成为了各种产品的标配功能。近年来,将知识图谱作为辅助信息引入推荐系统已经成为了工业界和学术界的研究热点。KG一方面可以提供丰富的领域知识作为补充信息来克服协同过滤和基于内容过滤的推荐方法所面临的问题;另一方面,推荐系统可以使用 KG 中存在的语义关系来提高其准确性并增加推荐物品的多样性。本文分享了基于KG的推荐方法和应用展望。
5.智能文档处理IDP关键技术与实践|阅读量:38447
关于自然语言处理技术的研究有很长历史,针对不同层面文本处理和分析有很多技术点,常见技术例如分词与词性标注、命名实体识别、句法结构分析、文本分类、文本摘要等功能。相较于纯文本,文档的信息表达更加复杂,除各种形式的文本信息外,还包括表格、图片等信息。因此要正确理解文档中的所有内容,仅凭自然语言处理技术难度很大,需要结合其他技术。本文介绍了智能文档处理IDP的通用流程和核心技术。
6.知识图谱构建下的自动问答KBQA系统实战|阅读量:36062
知识问答相比文本检索,减少了用户对检索文档内容的二次提取和推理的过程,会显著提升用户知识获取的体验。根据问答底层技术的差异,目前工程落地实现问答的技术路线基本分为基于知识图谱的问答(KBQA)、基于阅读理解的问答(MRC)和常见问题问答(FAQ)三种模式。本文从智能问答的不同策略出发,介绍达观知识图谱平台问答系统的一些具体的实践经验。
7.探索人机深度融合的高可用性人工智能应用|阅读量:35486
NLP被誉为人工智能皇冠上的明珠,AI落地特别是NLP落地尤其不容易,通过机器处理办公文档远比从一堆图片中找出有猫的图片要复杂得多。因为让机器处理办公文档,往往存在缺少大量的训练语料情况,不同行业间需要处理的具体问题千差万别,人工都需要专业培训甚至几年工作经验才能处理妥当。本文主要结合达观的实践落地经验,探讨在具体NLP项目落地时,计算机“智能”需要哪些必不可少的“人工”。
8.多模型结合的等长拼写纠错|全国中文纠错大赛冠军方案|阅读量:32082
达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了全国冠军,本文基于赛道一中文拼写检查任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。
9.一文详解BERT模型实现NER命名实体抽取|阅读量:29043
在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。BERT是一个大规模预训练模型,它通过精心设计的掩码语言模型(Masked Language Model,MLM)来模拟人类对语言的认知,并对数十亿个词所组成的语料进行预训练而形成强大的基础语义,形成了效果卓绝的模型。通过 BERT来进行实体抽取、NER的方法是当前在NLP和知识图谱的产业化应用中最常用的方法,是效果与成本权衡下的最佳选择。本文详细讲解使用BERT来进行实体抽取,看完本文就会用当前工业界最佳的模型了。
10.海量文本中挖掘人物关联关系核心技术介绍|阅读量:28270
本文重点就人物关联关系挖掘及其关键技术展开分析。人物关联关系挖掘是网络关系挖掘中的重要一步,通过人物关联关系挖掘,可以获得关系网络中的关键结点和关键路径,进一步获取更多的人物关联关系信息。人物关联关系挖掘包括通联关系挖掘、人物群体关系挖掘、关系网络关键节点发现以及关联网络关键路径发现。
(*注:阅读量数据统计自微信公众号、知乎、CSDN、ITPub、软服之家、机器之心、51CTO、腾讯云、SegmentFault、我爱自然语言处理、今日头条、雪球网等平台)