一种文本提取方法及装置

发布者:系统管理员发布时间:2023-06-09浏览次数:0

本发明涉及一种文本提取方法,所述方法包括:步骤一、预处理给定的网页的超文本传输协议html源码,以获取所述源码中的文本的字符串序列,所述字符串序列包含N个文本行;步骤二、提取所述字符串序列中每个文本行的特征元素,所述特征元素包含M个属性;步骤三、依据第一关联规则,确定所述字符串序列中的潜在正文行组成的潜在正文块,所示第一关联规则由所述特征元素中的所述M个属性确定。通过本发明实施例能够提高网页中文本块提取的准确度,提高搜索引擎的搜索效率和准确度。

Copyright © 2024 南京财经大学科学研究院 版权所有
地址:南京市仙林大学城文苑路3号(邮编:210023)
联系电话:综合处025-86718747;科技处:025-86718572;社科处:025-86718562;平台处:025-86718573
科学研究院
南京财经大学