(19)中华 人民共和国 国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210008487.2
(22)申请日 2022.01.06
(65)同一申请的已公布的文献号
申请公布号 CN 114021564 A
(43)申请公布日 2022.02.08
(73)专利权人 成都无糖信息技 术有限公司
地址 610000 四川省成 都市高新区吉瑞三
路99号1栋1单 元20层20 01号
(72)发明人 刘晓雪 王剑辉 伍仪洲 张瑞冬
童永鳌 朱鹏
(74)专利代理 机构 成都为知盾专利代理事务所
(特殊普通 合伙) 51267
代理人 李汉强
(51)Int.Cl.
G06F 40/289(2020.01)
G06F 40/242(2020.01)
G06F 16/23(2019.01)
G06F 16/215(2019.01)(56)对比文件
CN 113011156 A,2021.0 6.22
CN 105574090 A,2016.0 5.11
CN 108717408 A,2018.10.3 0
CN 105373528 A,2016.0 3.02
CN 109933778 A,2019.0 6.25
CN 101071420 A,20 07.11.14
CN 103186524 A,2013.07.0 3
CN 111669757 A,2020.09.15
CN 111259151 A,2020.0 6.09
CN 10746 3666 A,2017.12.12
CN 111831785 A,2020.10.27
CN 110727880 A,2020.01.24
US 20140 58723 A1,2014.02.27
suibianshen2012.N-gram详解分析.
《csdn》 .2017,1- 5. (续)
审查员 何守兵
(54)发明名称
一种针对社交文本的切分取词方法及系统
(57)摘要
本发明公开了一种针对社交文本的切分取
词方法及系统, 属于社交文本处理技术领域, 针
对现有技术中存在的无法满足对从事网络诈骗
的人员涉及的社交文本进行精 准切分的问题, 本
发明包括文本预处理模块, N ‑gram词库创建模
块, 分词函数模块和N ‑gram词库更新模块, 根据
分词模块中的自定义分词函数对文本信息进行
精准分词, 且设置一定的更新周期, 更新周 期间
产生的新数据对N ‑gram词库进行更新, 以便提升
分词准确度, 其目的为: 针对上述关于从事网络
诈骗的人员聊天信息强烈鲜明的语 言风格, 以及
与传统聊天内容上的巨大差别, 本发 明根据不同
类型的语料, 形成有自身特点的文本识别和切分
技术, 对文本进行精准切分取词。
[转续页]
权利要求书3页 说明书6页 附图1页
CN 114021564 B
2022.04.01
CN 114021564 B
(56)对比文件
崔珊.网络内容 安全中不良文本过滤研究.
《中国优秀硕士学位 论文全文数据库 (信息科技
辑)》 .2018,(第0 3期),I138-23 04.
卢媛媛等.电子商务搜索引擎中文分词算法
分析. 《信息网络安全》 .2010,52- 54.Fei Wu等.A C hinese Mes sage Sensitive
Words Filtering System based o n DFA and
Word2vec. 《Procedia Computer Science》
.2018,293-298.
张红梅等.使用否 定选择算法改进 文本过
滤. 《计算机 工程与科 学》 .2008,(第08 期),2/2 页
2[接上页]
CN 114021564 B1.一种针对社交文本的切分取词方法, 其特 征在于, 包括
S1: 采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据, 并对原始文本数
据进行清洗; S1中对原 始文本数据的清洗具体为:
S1.1: 通过正则表达式去除原始文本数据中的无效字符, 包括: 不可见字符、 网址、 数
字、 非中文、 @字符串和无意 义字符;
S1.2: 判断是否存在敏感词分隔符, 若存在则将其 替换为空字 字符:
S1.2.1: 首先创建一个候选敏感词分隔符集合, 将原始文本数据中所有 的表情符号和
标点分隔符号加入该候选敏感词分隔符集 合, 并作为 候选敏感词分隔符;
S1.2.2: 然后使用正则表达式提取所有 的某一种候选敏感词分隔符加入到第一列表,
然后提取 所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3: 若第二列表中的字符长度最小值小于等于2, 并且第一列表长度与第二列表长
度相等, 则认为该候选敏感词分隔符是 敏感词分隔符;
S1.2.4: 将敏感词分隔符替换为空字 字符;
S2: 使用N ‑gram模型构建N ‑gram词库, 并通过互信息对清洗后的原始文本数据进行计
算过滤, 将保留的文本数据存 入N‑gram词库;
S3: 利用N ‑gram词库并通过文本分词函数对文本数据进行分词, 具体为:
S3.2.1: 提取N ‑gram词库中的所有字符串, 对字符串 进行依次判断;
S3.2.2: 若字符串是纯数字或字母或字符串的中文字符长度小于等于4, 则将该字符串
添加到result列表中;
对剩余的字符串通过文本切分函数进行切分, 并对切分后的字符串列表中的每个字符
串w进行判断;
S3.2.3: 若字符串w是中文加数字, 将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字, 将字符串w中的中文提取 出来并赋值 为r后继续判断:
S3.2.4: 若字符串r小于 5个字符, 则将字符串w添加到result列表中;
若字符串r大于等于8个字符, 使用结巴分词, 并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符, 判断结巴分词结果中单个字的数量, 如果
单个非停用字的数量大于0, 说明结巴分词是错误切分, 将 字符串w添加到result列表中, 否
则, 将结巴分词结果添加到result列表中;
S4: 对分词结果进行复核, 若存在错 误分词结合则对其进行修复;
S5: 设置固定的时间为 N‑gram词库的更新周期, 对N ‑gram词库进行 更新。
2.根据权利 要求1所述的一种针对社交文本的切分取词方法, 其特征在于, 所述N ‑gram
词库包括已登录词典、 处 理完成的原 始文本数据和自定义词典, S2具体为:
S2.1: 将清洗后的原始文本数据, 利用空格进行分隔形成列表, 筛选长度大于1的字符
串加入待处 理列表中;
S2.2: 将待处理列表中所有字符串取出, 统计它的4gram和对应 的词频, 加入到N ‑gram
字典中, 并计算 N‑gram字典中字符串长度为1的词的数量, 作为词的总数;
S2.3: 根据 N‑gram字典中的词的字符串长度不同, 设置不同的阈值, 然后计算N ‑gram字
典中每个词的互信息, 保留互信息大于阈值的词作为输出集 合存入N‑gram词库。
3.根据权利要求2所述的一种针对社交文本的切分取词方法, 其特征在于, S3 中文本分权 利 要 求 书 1/3 页
2
CN 114021564 B
3
专利 一种针对社交文本的切分取词方法及系统
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 11:17:31上传分享