达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

如何用语义分析技术解决“垃圾分类”难题?
文本分类问题是企业在自然语言处理(NLP)领域中处理文本数据时经常会遇到的一个问题。自动文本处理成为了人们每天与计算机交互的关键成分,也是从网页搜索和内容排名到垃圾过滤这些所有事情中的主要组成。
对信息的分类这与我们日常生活中面对生活垃圾分类时的难点相似,它难在:分类繁杂、人工效率低、工作量大。很多企业已经开始使用智能分类来为人工减负,智能分类究竟是什么原理?又能不能做到垃圾智能分类呢?下面以文本分类技术为例来做一下详解。

NLP为分类工作减负

我们使用各种app观看视频、新闻、评论时,经常会看到一个筛选栏或者是标签按钮,筛选什么就看什么,选什么标签就只看什么标签的内容,这种功能能够大幅提升用户的使用好感度和认同,同时也让搜索变得更为简便。
那么如何将其做到文本智能分类呢?文本分类是自然语言处理(NLP)中非常底层且至关重要的任务之一。相对于计算机语言(计算机能够理解的语言,如汇编、C语言等)而言,人类日常使用的语言就是自然语言,计算机语言与自然语言的差异导致计算机无法直接理解人类语言的含义,所以也无法处理使用人类使用自然语言沟通的内容,NLP的存在就是为了让计算机能够理解自然语言中每个词每句话的意义,甚至是背后的文化与意图。
pic_001
比如说,你说想要个女朋友,计算机能够理解这是个单身狗,并且建议你打开交友网站。虽然自然语言处理这个词,听起来离我们的生活很遥远,但是它的应用领域非常之广,我们几乎每天都在使用它,除了文本分类,NLP实现的还包括:
  • 自动摘要获取:给定文章,它可以分析内容,删繁就简,总结文章摘要;
  • 情感分析:给定产品评论内容,它可以判断评论的情感正负面;
  • 文本审核:给定文本内容,它可对各种违禁因子(黄赌毒或自定义)进行过滤、预警
  • ………
计算机能理解自然语言之后,将NLP与机器学习、深度学习等技术结合起来,将让文本分类做的更好。

达观文本智能处理平台介绍

达观数据目前已有一套成熟完备的文本智能处理平台,包含文本分类、文本审核、自动摘要、信息提取、情感判断等多个功能:通过先进的自然语言处理(NLP)技术,提供的智能系统能够自动对文本进行抽取、审核、纠错、搜索、推荐、写作等操作,让计算机代替人来完成工作,大幅提高效率。
达观智能文本处理平台进行文本分类流程如下:
  • 首先,需要进行大数据采集。要知道一个平台可以容纳的话题种类千奇百怪,而网上每时每刻都会有全新的内容在产生,要做好文本分类需要海量数据来支持,并且实时增加数据源。
  • 其次,进行数据清洗,无用信息太多,避免干扰。
  • 再次,进行文本挖掘,即进行语义分析,根据文本内容进行分词、实体、标签、特征识别、情感分析等。
  • 最后,进行智能分类,构建业务模型,并按照符合需求的算法进行排序。
借助机器学习,结合NLP技术,利用人工标注的样本数据构建分类模型,获得最终分类结果。
pic_002
     
现如今,AI技术百花齐放风头正旺,也在慢慢深入各个行业,目前达观数据文本智能分类已经成为服务华为、解放日报、迪卡侬、土巴兔、大河网等多个行业领军企业,为企业创造更高效率与价值。