专利 一种针对社交文本的切分取词方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210008487.2 (22)申请日 2022.01.06 (65)同一申请的已公布的文献号申请公布号 CN 114021564 A (43)申请公布日 2022.02.08 (73)专利权人成都无糖信息技术有限公司地址 610000 四川省成都市高新区吉瑞三路99号1栋1单元20层20 01号 (72)发明人刘晓雪　王剑辉　伍仪洲　张瑞冬　童永鳌　朱鹏　 (74)专利代理机构成都为知盾专利代理事务所 (特殊普通合伙) 51267 代理人李汉强 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/242(2020.01) G06F 16/23(2019.01) G06F 16/215(2019.01)(56)对比文件 CN 113011156 A,2021.0 6.22 CN 105574090 A,2016.0 5.11 CN 108717408 A,2018.10.3 0 CN 105373528 A,2016.0 3.02 CN 109933778 A,2019.0 6.25 CN 101071420 A,20 07.11.14 CN 103186524 A,2013.07.0 3 CN 111669757 A,2020.09.15 CN 111259151 A,2020.0 6.09 CN 10746 3666 A,2017.12.12 CN 111831785 A,2020.10.27 CN 110727880 A,2020.01.24 US 20140 58723 A1,2014.02.27 suibianshen2012.N-gram详解分析. 《csdn》 .2017,1- 5. (续) 审查员何守兵 (54)发明名称一种针对社交文本的切分取词方法及系统 (57)摘要本发明公开了一种针对社交文本的切分取词方法及系统，属于社交文本处理技术领域，针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题，本发明包括文本预处理模块， N ‑gram词库创建模块，分词函数模块和N ‑gram词库更新模块，根据分词模块中的自定义分词函数对文本信息进行精准分词，且设置一定的更新周期，更新周期间产生的新数据对N ‑gram词库进行更新，以便提升分词准确度，其目的为：针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格，以及与传统聊天内容上的巨大差别，本发明根据不同类型的语料，形成有自身特点的文本识别和切分技术，对文本进行精准切分取词。 [转续页] 权利要求书3页说明书6页附图1页 CN 114021564 B 2022.04.01 CN 114021564 B (56)对比文件崔珊.网络内容安全中不良文本过滤研究. 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 .2018,(第0 3期),I138-23 04. 卢媛媛等.电子商务搜索引擎中文分词算法分析. 《信息网络安全》 .2010,52- 54.Fei Wu等.A C hinese Mes sage Sensitive Words Filtering System based o n DFA and Word2vec. 《Procedia Computer Science》 .2018,293-298. 张红梅等.使用否定选择算法改进文本过滤. 《计算机工程与科学》 .2008,(第08 期),2/2 页 2[接上页] CN 114021564 B1.一种针对社交文本的切分取词方法，其特征在于，包括 S1：采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据，并对原始文本数据进行清洗； S1中对原始文本数据的清洗具体为： S1.1：通过正则表达式去除原始文本数据中的无效字符，包括：不可见字符、网址、数字、非中文、 @字符串和无意义字符; S1.2：判断是否存在敏感词分隔符，若存在则将其替换为空字字符： S1.2.1：首先创建一个候选敏感词分隔符集合，将原始文本数据中所有的表情符号和标点分隔符号加入该候选敏感词分隔符集合，并作为候选敏感词分隔符； S1.2.2：然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表，然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中； S1.2.3：若第二列表中的字符长度最小值小于等于2，并且第一列表长度与第二列表长度相等，则认为该候选敏感词分隔符是敏感词分隔符； S1.2.4：将敏感词分隔符替换为空字字符； S2：使用N ‑gram模型构建N ‑gram词库，并通过互信息对清洗后的原始文本数据进行计算过滤，将保留的文本数据存入N‑gram词库； S3：利用N ‑gram词库并通过文本分词函数对文本数据进行分词，具体为： S3.2.1：提取N ‑gram词库中的所有字符串，对字符串进行依次判断； S3.2.2：若字符串是纯数字或字母或字符串的中文字符长度小于等于4，则将该字符串添加到result列表中；对剩余的字符串通过文本切分函数进行切分，并对切分后的字符串列表中的每个字符串w进行判断； S3.2.3：若字符串w是中文加数字，将数字替换为空字符串后添加到result列表中；若字符串w是中文加非数字，将字符串w中的中文提取出来并赋值为r后继续判断： S3.2.4：若字符串r小于 5个字符，则将字符串w添加到result列表中；若字符串r大于等于8个字符，使用结巴分词，并将结果添加到result列表中；若字符串r大于等于5个字符且小于8个字符，判断结巴分词结果中单个字的数量，如果单个非停用字的数量大于0，说明结巴分词是错误切分，将字符串w添加到result列表中，否则，将结巴分词结果添加到result列表中； S4：对分词结果进行复核，若存在错误分词结合则对其进行修复； S5：设置固定的时间为 N‑gram词库的更新周期，对N ‑gram词库进行更新。 2.根据权利要求1所述的一种针对社交文本的切分取词方法，其特征在于，所述N ‑gram 词库包括已登录词典、处理完成的原始文本数据和自定义词典， S2具体为： S2.1：将清洗后的原始文本数据，利用空格进行分隔形成列表，筛选长度大于1的字符串加入待处理列表中； S2.2：将待处理列表中所有字符串取出，统计它的4gram和对应的词频，加入到N ‑gram 字典中，并计算 N‑gram字典中字符串长度为1的词的数量，作为词的总数； S2.3：根据 N‑gram字典中的词的字符串长度不同，设置不同的阈值，然后计算N ‑gram字典中每个词的互信息，保留互信息大于阈值的词作为输出集合存入N‑gram词库。 3.根据权利要求2所述的一种针对社交文本的切分取词方法，其特征在于， S3 中文本分权　利　要　求　书 1/3 页 2 CN 114021564 B 3

专利 一种针对社交文本的切分取词方法及系统

专利一种针对社交文本的切分取词方法及系统