专利 文本处理方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210134995.5 (22)申请日 2022.02.14 (71)申请人北京爱奇艺科技有限公司地址 100080 北京市海淀区海淀北一街2号鸿城拓展大厦1 1层1101 (72)发明人赵瑞书　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师吕俊秀 (51)Int.Cl. G06V 20/40(2022.01) G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06V 10/762(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 30/10(2022.01) (54)发明名称文本处理方法、装置、电子设备和存储介质 (57)摘要本发明实施例提供了一种文本处理方法、装置、电子设备和存储介质，涉及图像处理技术领域。该方法包括：对当前视频的视频帧序列进行文字检测，确定多个文本行；根据文本行的位置信息，对文本行进行初始分类，获得第一集合和第二集合，第一集合被识别为台词文本，第二集合被识别为非台词文本；根据文本行的字体特征信息和预设聚类网络，对文本行进行聚类得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；根据多个聚类结果，对文本行进行二次分类，确定当前视频最终的台词文本。该方法通过字体特征信息对初分类的文本行进行二次过滤，能够过滤掉台词文本中误检测的非台词文本和召回漏识别的台词文本，提升了准确性。权利要求书3页说明书13页附图7页 CN 114596522 A 2022.06.07 CN 114596522 A 1.一种文本处理方法，其特征在于，包括：对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。 2.根据权利要求1所述的方法，其特征在于，所述预构建的聚类网络根据如下过程获得：获取训练样本集，所述训练样本集中的训练样本包括真实的台词图像和仿真的台词图像；根据预构建的字体特征提取模型，获取所述训练样本集中每一训练样本的字体特征信息；根据所述每一训练样本的字体特征信息，训练得到所述聚类网络。 3.根据权利要求1所述的方法，其特征在于，根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，包括：针对每一聚类结果，根据所述第一集合和所述第二集合，确定所述聚类结果的标识；其中，所述聚类结果的标识包括台词标识和非台词标识；根据所述聚类结果的标识，对所述第一集合和所述第二集合中的文本行进行调整。 4.根据权利要求3所述的方法，其特征在于，根据所述第一集合和所述第二集合，确定所述聚类结果的标识，包括：对于每一聚类结果，确定所述聚类结果中属于第一集合的文本行所占的第一比例；在所述第一比例大于预设的第一阈值的情况下，确定所述聚类结果的标识为台词标识；在所述第一比例小于或等于所述预设的第一阈值的情况下，确定所述聚类结果的标识为非台词标识。 5.根据权利要求3或4所述的方法，其特征在于，根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类包括：对于标识为台词标识的聚类结果，确定所述聚类结果中属于第二集合的第一待识别文本行，根据所述第一待识别文本行的位置信息，对所述第一待识别文本行进行二次分类，以确定所述第一待识别文本行是否为台词文本；若是，则将所述第一待识别文本行由所述第二集合迁移至所述第一集合；对于标识为非台词标识的聚类结果，确定所述聚类结果中属于第一集合的第二待识别文本行；确定所述第二待识别文本行为非台词文本，并将所述第二待识别文本行由所述第二集合迁移至所述第一集合。 6.根据权利要求5所述的方法，其特征在于，所述根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类包括：权　利　要　求　书 1/3 页 2 CN 114596522 A 2根据所述多个文本行的位置信息，确定在所述当前视频的视频帧上每一像素点出现文本行的频次；将出现文本行的频次大于预设的第二阈值的像素点组成的区域确定为台词区域；根据所述文本行的位置信息，确定所述文本行对应的文本区域的宽度信息和高度信息；根据所述文本行对应的文本区域的宽度信息和高度信息，计算所述文本区域与所述台词区域的面积交并比；根据所述文本行对应的文本区域的高度信息，计算所述文本区域与所述台词区域的高度交并比；根据所述文本行对应的文本区域的宽度信息，去计算所述文本区域与所述台词区域的宽度交并比；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第三阈值、高度交并比大于预设的第四阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。 7.根据权利要求6所述的方法，其特征在于，根据所述第一待识别文本行的位置信息，对所述待识别文本行进行二次分类包括：将所述预设的第三阈值更新为预设的第六阈值以及将所述预设第四阈值更新为预设的第七阈值，其中，所述预设的第六阈值小于所述预设的第三阈值，所述预设的第七阈值小于所述预设的第四阈值；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比大于预设的第五阈值的情况下，确定所述文本行为台词文本；在所述文本行的面积交并比大于预设的第六阈值、高度交并比大于预设的第七阈值、宽度交并比不大于预设的第五阈值但所述文本行在宽度方向上落于所述台词区域的范围内的情况下，确定所述文本行为台词文本。 8.一种文本处理装置，其特征在于，包括：文字检测模块，用于对当前视频的视频帧序列进行文字检测，确定所述视频帧序列中的多个文本行；识别模块，用于根据所述多个文本行的位置信息，对所述当前视频的文本行进行初始分类，获得第一集合和第二集合，其中，所述第一集合中的文本行被识别为台词文本，所述第二集合中的文本行被识别为非台词文本；聚类模块，用于根据所述多个文本行对应的字体特征信息和预构建的聚类网络，对所述当前视频的文本行进行聚类，得到多个聚类结果，同一聚类结果中的文本行具有相同的字体；更新模块，用于根据所述多个聚类结果，对所述第一集合和所述第二集合中的文本行进行调整，以对所述当前视频的文本行进行二次分类，确定所述当前视频最终的台词文本。 9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；权　利　要　求　书 2/3 页 3 CN 114596522 A 3

专利 文本处理方法、装置、电子设备和存储介质

专利文本处理方法、装置、电子设备和存储介质