安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210008487.2 (22)申请日 2022.01.06 (65)同一申请的已公布的文献号 申请公布号 CN 114021564 A (43)申请公布日 2022.02.08 (73)专利权人 成都无糖信息技 术有限公司 地址 610000 四川省成 都市高新区吉瑞三 路99号1栋1单 元20层20 01号 (72)发明人 刘晓雪 王剑辉 伍仪洲 张瑞冬  童永鳌 朱鹏  (74)专利代理 机构 成都为知盾专利代理事务所 (特殊普通 合伙) 51267 代理人 李汉强 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/23(2019.01) G06F 16/215(2019.01)(56)对比文件 CN 113011156 A,2021.0 6.22 CN 105574090 A,2016.0 5.11 CN 108717408 A,2018.10.3 0 CN 105373528 A,2016.0 3.02 CN 109933778 A,2019.0 6.25 CN 101071420 A,20 07.11.14 CN 103186524 A,2013.07.0 3 CN 111669757 A,2020.09.15 CN 111259151 A,2020.0 6.09 CN 10746 3666 A,2017.12.12 CN 111831785 A,2020.10.27 CN 110727880 A,2020.01.24 US 20140 58723 A1,2014.02.27 suibianshen2012.N-gram详解分析. 《csdn》 .2017,1- 5. (续) 审查员 何守兵 (54)发明名称 一种针对社交文本的切分取词方法及系统 (57)摘要 本发明公开了一种针对社交文本的切分取 词方法及系统, 属于社交文本处理技术领域, 针 对现有技术中存在的无法满足对从事网络诈骗 的人员涉及的社交文本进行精 准切分的问题, 本 发明包括文本预处理模块, N ‑gram词库创建模 块, 分词函数模块和N ‑gram词库更新模块, 根据 分词模块中的自定义分词函数对文本信息进行 精准分词, 且设置一定的更新周期, 更新周 期间 产生的新数据对N ‑gram词库进行更新, 以便提升 分词准确度, 其目的为: 针对上述关于从事网络 诈骗的人员聊天信息强烈鲜明的语 言风格, 以及 与传统聊天内容上的巨大差别, 本发 明根据不同 类型的语料, 形成有自身特点的文本识别和切分 技术, 对文本进行精准切分取词。 [转续页] 权利要求书3页 说明书6页 附图1页 CN 114021564 B 2022.04.01 CN 114021564 B (56)对比文件 崔珊.网络内容 安全中不良文本过滤研究. 《中国优秀硕士学位 论文全文数据库 (信息科技 辑)》 .2018,(第0 3期),I138-23 04. 卢媛媛等.电子商务搜索引擎中文分词算法 分析. 《信息网络安全》 .2010,52- 54.Fei Wu等.A C hinese Mes sage Sensitive Words Filtering System based o n DFA and Word2vec. 《Procedia Computer Science》 .2018,293-298. 张红梅等.使用否 定选择算法改进 文本过 滤. 《计算机 工程与科 学》 .2008,(第08 期),2/2 页 2[接上页] CN 114021564 B1.一种针对社交文本的切分取词方法, 其特 征在于, 包括 S1: 采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据, 并对原始文本数 据进行清洗; S1中对原 始文本数据的清洗具体为: S1.1: 通过正则表达式去除原始文本数据中的无效字符, 包括: 不可见字符、 网址、 数 字、 非中文、 @字符串和无意 义字符; S1.2: 判断是否存在敏感词分隔符, 若存在则将其 替换为空字 字符: S1.2.1: 首先创建一个候选敏感词分隔符集合, 将原始文本数据中所有 的表情符号和 标点分隔符号加入该候选敏感词分隔符集 合, 并作为 候选敏感词分隔符; S1.2.2: 然后使用正则表达式提取所有 的某一种候选敏感词分隔符加入到第一列表, 然后提取 所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中; S1.2.3: 若第二列表中的字符长度最小值小于等于2, 并且第一列表长度与第二列表长 度相等, 则认为该候选敏感词分隔符是 敏感词分隔符; S1.2.4: 将敏感词分隔符替换为空字 字符; S2: 使用N ‑gram模型构建N ‑gram词库, 并通过互信息对清洗后的原始文本数据进行计 算过滤, 将保留的文本数据存 入N‑gram词库; S3: 利用N ‑gram词库并通过文本分词函数对文本数据进行分词, 具体为: S3.2.1: 提取N ‑gram词库中的所有字符串, 对字符串 进行依次判断; S3.2.2: 若字符串是纯数字或字母或字符串的中文字符长度小于等于4, 则将该字符串 添加到result列表中; 对剩余的字符串通过文本切分函数进行切分, 并对切分后的字符串列表中的每个字符 串w进行判断; S3.2.3: 若字符串w是中文加数字, 将数字替换为空字符串后添加到result列表中; 若字符串w是中文加非数字, 将字符串w中的中文提取 出来并赋值 为r后继续判断: S3.2.4: 若字符串r小于 5个字符, 则将字符串w添加到result列表中; 若字符串r大于等于8个字符, 使用结巴分词, 并将结果添加到result列表中; 若字符串r大于等于5个字符且小于8个字符, 判断结巴分词结果中单个字的数量, 如果 单个非停用字的数量大于0, 说明结巴分词是错误切分, 将 字符串w添加到result列表中, 否 则, 将结巴分词结果添加到result列表中; S4: 对分词结果进行复核, 若存在错 误分词结合则对其进行修复; S5: 设置固定的时间为 N‑gram词库的更新周期, 对N ‑gram词库进行 更新。 2.根据权利 要求1所述的一种针对社交文本的切分取词方法, 其特征在于, 所述N ‑gram 词库包括已登录词典、 处 理完成的原 始文本数据和自定义词典, S2具体为: S2.1: 将清洗后的原始文本数据, 利用空格进行分隔形成列表, 筛选长度大于1的字符 串加入待处 理列表中; S2.2: 将待处理列表中所有字符串取出, 统计它的4gram和对应 的词频, 加入到N ‑gram 字典中, 并计算 N‑gram字典中字符串长度为1的词的数量, 作为词的总数; S2.3: 根据 N‑gram字典中的词的字符串长度不同, 设置不同的阈值, 然后计算N ‑gram字 典中每个词的互信息, 保留互信息大于阈值的词作为输出集 合存入N‑gram词库。 3.根据权利要求2所述的一种针对社交文本的切分取词方法, 其特征在于, S3 中文本分权 利 要 求 书 1/3 页 2 CN 114021564 B 3

.PDF文档 专利 一种针对社交文本的切分取词方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种针对社交文本的切分取词方法及系统 第 1 页 专利 一种针对社交文本的切分取词方法及系统 第 2 页 专利 一种针对社交文本的切分取词方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:17:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。