Skip to content

一个极小化的,基于深度学习的,文本内容违规检测(文本内容安全、文本审核)库

Notifications You must be signed in to change notification settings

hqu-little-boy/Filter4J-python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Filter4J

python实现的文本内容违规检测(文本内容安全、文本审核)库

Filter4J是一个极小化的,基于深度学习的,文本内容违规检测(文本内容安全、文本审核)库。 参考https://github.com/LL4J/Filter4J

以下是原项目介绍

优点:

  • 基于深度学习,能够有效地对抗拆字、影射、混淆等规避手段
  • 代码无第三方依赖,仅3个文件,可以内嵌到任何项目中使用*
  • 具有一定的上下文理解能力,能够识别一些包含某些关键词但并不违规的句子

缺点:

  • 模型较大,速度较慢
  • 模型具有一定的不可解释性,无法直接得知为什么某个句子被判定为违规
  • 受到上游数据集与预训练精度限制,可能会出现一些误判、漏判

警告:

基于机器的文本审核系统,无法完全替代人工审核。请在使用本库时,仍然保持对用户输入的警惕。 作者在此明示,本模型一定存在缺陷且会存在错误判断,其输出结果与实际情况一定存在偏差。 使用者不应该将其用于任何环境中,除非这种偏差不会对使用者造成任何损失。

演示:

Filter4j 演示程序 已经启动!
在吗?我想草你
异常
山火十分可怕,所过之处寸草不生
正常
青山绿水,白草红叶黄花
正常
在吗?我想ca/o你
异常
我问候你全家
异常
我们去照相馆拍全家福了
正常
“你好”是一个常用的问候语
正常

特别鸣谢

北京信息科学与技术国家研究中心 Jiawen Deng(清华大学) et,al. 提供的COLDataset。 此数据集为我们提供了无与伦比的帮助。

About

一个极小化的,基于深度学习的,文本内容违规检测(文本内容安全、文本审核)库

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages