AI如何反低俗?今日头条推内容检测工具“灵犬”3.0,首次公开其技术原理

时间:2019-08-15 来源: 佛学
?

来自北三环的安妮

男性沉默的女人流泪,看起来不像中国人,看完后惊呆了,身份是惊人的,不要看失去,癌症凶手.这些成语的标题党文章仍然是熟悉的。

昨天(7月30日),今天的标题发布了内容健康检测工具“灰狗3.0”,它不仅识别这些粗俗内容,暴力内容和标题派对,还支持图像识别。

今天的标题说,在文字识别领域,灵狗3.0的检测准确率从85%提高到91%。在图像识别领域,还在数据,模型和计算能力方面进行了有针对性的优化。

这次,Byte Lab AI Lab首次公布了其反俗系统概述和相应的技术原理。

%5C

它在哪里有所改善?

这个名为Greyhound的小程序可以从WeChat applet“The Unconventional Helper”或今天的标题中打开。

因此,与去年5月的Mayor 2.0小工具相比,3.0版本的狗已经有了很大的改进。

首先,界面已经改变。以前的测试界面分为三类:反色情粗俗,反暴力和反对党。新版本将这三者合二为一,统一为文本识别。

%5C

左:狗界面版本3.0;右:狗界面版本2.0

用户只需输入文本或文章链接即可检测内容健康索引,系统返回标识结果。这包括您是否可以获得算法建议,是否需要引入手动判断等。

其次,新系统可识别图片,上传图片或其连接,只需点击一下即可检测图片的健康指数。

今天的标题说,自去年3月推出一代雪纳瑞以来,直到今年6月,反流氓助手的使用量已超过300万。

BERT祝福

Byte Beat人工智能实验室主任王长虎说,与一般的分词技术+词汇技术文本识别方案不同,灵狗使用NLP技术。

%5C

与上一代相比,灵狗每次更新时都会进化一次。

王长虎表示,1.0版使用了word vector + CNN技术,训练数据集包含350万个数据样本。随机样本的预测准确率为79%。

在2.0版本中,该技术成为LSTM(长期记忆)+注意机制。前者擅长建模序列,对长句具有良好的识别效果。后者有助于理解句子的整体情况。此时,训练数据集包含840万个数据样本,准确率提高到85%。

王长虎说,3.0版本的狗也应用了BERT和半监督技术,并在此基础上,采用特殊的中文语料库来调整模型结构而不牺牲效果,使计算效率达到实用水平。

这一代“灰狗”训练的总数据集为1.2T,相当于百度百科全书总量的20倍或维基百科数据的100倍,包括920万个样本,准确率提高到91%。

%5C

之前已经报道过量子比特,可以毫不夸张地说,BERT是2018年最热门的NLP模型。它甚至被称为NLP新时代的开始。

它由Google推出,全名是Transformers的双向编码器表示,意思是Transformer的双向编码器表示,以及预先训练的语言表示。

王长虎说,引入最新的图像识别和检测功能已经面临三个技术难题。

一个图像多尺寸问题,解决方案是多桶模型,每个桶模型处理不同大小的数据。这不会增加模型计算所花费的时间,但也会提高准确性。

第二个是图像的多尺度问题。图片中肖像的大小和比例是不同的,因此研究人员建立了特征金字塔。

新闻使用分段辅助分类网络方案来提取粗俗位置,并结合区域信息分析来解决小目标问题。

%5C

AI内容主管

今天的标题说,反庸俗系统自2012年开始建造。

自成立以来,内容安全(包括反粗俗)已被置于公司的最高优先级队列中。在成立之初,已经成立了一个审查小组。那时,只有不到40名学生开发了所有客户端,后端和算法。

新闻不仅仅是为了精明,而且还有数百种类似模特来解决粗俗,低质,暴力等内容审核团队。

%5C

新闻,而且其他内容平台也推出了类似的产品。

今年6月,微信推出了一个名为“珊瑚内容安全助手”的小程序。只要它针对的是公共内容内容运营商和小型程序开发人员,任何人都可以确定内容和产品是否安全并且可以通过测试。

小程序显示当前可以识别图片和文本内容,并将跟踪音频识别和视频识别。

例如,如果您想使用AI构建智能社区,去年4月,您推出了专门用于“回答问题”的机器人磁贴。您可以使用机器学习来理解问题下的内容,这样您就可以快速处理未回答的问题和侮辱,标签等。内容也可以识别阴阳的答案(具有讽刺意味)。

但是,必须在双方都看到效果。在线上超过一年,许多用户已经感觉到瓦片力的检测效果略微智力迟钝,并且存在识别不准确并且回答无法解释的折叠的情况。

%5C

当然,社交平台上也有很多内容检测播放器。

Facebook是一个拥有近20亿现场用户的社交平台,面临着每天由C端用户贡献的各种图片和短信,并测试内容是否合规。

他们依靠名为Rosetta的机器学习系统,该系统实时提取10亿张图片和视频中的文本,识别文本中包含的信息,并检测内容的安全性。

人工智能已经启动了一个大规模的内容监督人员,节省了大量的人力,但这不是人力资源建设的另一项工作吗?

“灰狗”仍然需要发展,直到不再需要这么多人的那一天。

新闻排行
  1. 我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,

    我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,...

  2. ?你的早鸟票特权仅剩2天!百度、快手、商汤、图森等重磅嘉宾确参加AIProCon2019从用于移动支付的自动售货机到用于支付面孔的智能容器;从个人验证到柜台到人体面部远程打开卡片;从排队购票的不良旅行

    ?你的早鸟票特权仅剩2天!百度、快手、商汤、图森等重磅嘉宾确参加AIProCon2019从用于移动支付的自动售货机到用于支付面孔的智能容器;从个人验证到柜台到人体面部远程打开卡片;从排队购票的不良旅行...

  3. ?来自北三环的安妮男性沉默的女人流泪,看起来不像中国人,看完后惊呆了,身份是惊人的,不要看失去,癌症凶手.这些成语的标题党文章仍然是熟悉的。昨天(7月30日),今天的标题发布了内容健康检测工具“灰狗3

    ?来自北三环的安妮男性沉默的女人流泪,看起来不像中国人,看完后惊呆了,身份是惊人的,不要看失去,癌症凶手.这些成语的标题党文章仍然是熟悉的。昨天(7月30日),今天的标题发布了内容健康检测工具“灰狗3...

  4. 我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,

    我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,...

  5. ?

    ?...

  6.   08:09  来源:中小学生教育经验分享家长的心酸:“孩子,对不起!放下工作养不起你,拿起工作陪不了你

      08:09  来源:中小学生教育经验分享家长的心酸:“孩子,对不起!放下工作养不起你,拿起工作陪不了你...

  7. 我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,

    我想在2天前分享牛车河以上是广告“公司决定在集团内建立生产基地,这里良好的环境吸引了我们。”7月22日,...

  8.   背包旅行2天前我要分享  日本新富町,老爷爷木敏幸与妻子靖子平静而幸福的生活着。  他们热爱旅行?

      背包旅行2天前我要分享  日本新富町,老爷爷木敏幸与妻子靖子平静而幸福的生活着。  他们热爱旅行?...

  9.   08:09  来源:中小学生教育经验分享家长的心酸:“孩子,对不起!放下工作养不起你,拿起工作陪不了你

      08:09  来源:中小学生教育经验分享家长的心酸:“孩子,对不起!放下工作养不起你,拿起工作陪不了你...

  10. ?

    ?...

日期归档