达观数据是为企业提供大数据处理、个性化推荐系统服务的知名公司,在应对海量数据处理时,积累了大量实战经验。其中达观数据在面对大量的数据交互和消息处理时,使用了称为DPIO的设计思路进行快速、稳定、可靠的消息数据传递机制,本文分享了达观数据在应...
1深度学习背景 深度学习是近十年来人工智能领域取得的最重要的突破之一,通过建立类似于人脑的分层模型结构对输入数据逐级提取从底层到高层的特征从而能很好地建立从底层信号到高层语义的映射关系。 近年来谷歌微软IBM百度等拥有大数据的高科技公司相继投...
1、引言 从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年历史长河里,为人类文明的发展进化带来了难以估量的巨大价值。 ...
达观数据搜索引擎的Query自动纠错技术和架构 1 背景 如今,搜索引擎是人们的获取信息最重要的方式之一,在搜索页面小小的输入框中,只需输入几个关键字,就能找到你感兴趣问题的相关网页。搜索巨头Google,甚至已经使Google这个创造出来的单词成为动词,有...
2016“互联青春 创梦未来”中国青年互联网创业大赛决赛在杭州梦想小镇举行。9月24日,大赛以秘密答辩、公开答辩形式进行晋级赛比拼,经过激烈角逐,达观数据获大赛全国第一名,冠军奖大奖,共青团中央书记处书记汪鸿雁为达观数据颁奖。 共青团中央书记处书...
2016年10月15日,浙江桐乡,达观数据参加 “第五届中国创新创业大赛互联网及移动互联网行业总决赛”,参赛项目“基于用户行为的大数据预测应用系统”获得优秀企业奖。 联合创始人高翔领取奖牌 2016年第五届中国创新创业大赛自今年4月份启动以来,全国报名积极...
文本指纹介绍 互联网网页存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计...
伴随着互联网的飞速发展,web中对于前端的要求越来越高,前端的代码的代码量、复杂度与日俱增,带来了诸如前端代码复用率低,难维护等问题。针对这些现有问题,达观科技采用了requirejs框架,用模块化的思想去解决这些问题。(达观数据 施列宇) 一、什么是...
前言 中文分词算法是指将一个汉字序列切分成一个一个单独的词,与英文以空格作为天然的分隔符不同,中文字符在语义识别时,需要把数个字符组合成词,才能表达出真正的含义。分词算法是文本挖掘的基础,通常应用于自然语言处理、搜索引擎、智能推荐...
研发背景 互联网时代也是信息爆炸的时代,内容太多,而用户的时间太少,如何选择成了难题。电商平台里的商品、媒体网站里的新闻、小说网站里的作品、招聘网站里的职位……当数量超过用户可以遍历的上限时,用户就无所适从了。 对海量信息进行筛选、过滤,将...