XPath2Doc(通用网站数据采集及Doc生成工具)是一款专为网页数据采集与Word文档生成设计的全自动工具。它集成了天眼查和天眼查采集功能,能够方便地实现网页数据的自动化采集和文档生成。使用XPath2Doc,用户需在WebBrowser对话框中手动登录并定位所需的数据网页,点击程序流程按钮即可开始采集。它是一个真正的网页数据填充Word文档的自动化工具。
原理
网页上的每一个元素都可以转化为XPath语句。通过加载浏览器中的网页源码,使用XPath语句提取网页元素中的文字。XPath语句的获取方法如下:
使用Google Chrome浏览器打开网页,按F12进入开发者工具页面。
在Elements菜单栏下,移动鼠标,网页元素将被黑影覆盖。
点击三角符号,可以进一步精确定位元素。
在目标元素上点击,在弹出的菜单中选择“Copy - Copy XPath”,然后将其粘贴到文本文档中,即可获得所需的XPath语句。
,若XPath语句中含有“/tbody”,可能会影响采集效果。程序内部已对此问题进行了解决,但在某些特殊情况下仍可能受到影响,建议手动删除。
软件环境
Windows 7 SP1操作系统:请安装以下组件(关键:VC库,若未安装,程序无法启动):VC2017及以上版本、.NET Framework 4.5.2。
Windows 10系统:上述组件通常已内置,无需额外安装。
支持Windows 10 1903版本运行。
不兼容Windows XP操作系统。
操作指南
本程序运行需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。
自定义.ini和自定义模板.docx由用户自行创建,用于定义网页采集XPath语句及最终生成的Docx模板。
General.ini文件定义了INI文件和Docx模板文件的存储目录,可以不填写,默认为程序所在目录。
Docx模板文件中的“<#0001#>”等标识符用于在INI文件中定义的字符串数组,用于替换网页采集内容。
在使用本程序之前,请先创建自定义的INI配置文件和Docx模板文件(可参考附加的天眼查、天眼查2个配置文件和民事起诉书模板)。
使用方法:
启动程序选择模板,点击采集数据按钮旁边的灰色三角符号,打开下拉列表,选择需要采集的部分。
等待浏览器加载网页,手动输入需要查看的内容,点击查看,找到数据的实际网页,然后点击采集数据按钮。
观察右边的目录中是否已获取所需数据。
再次打开下拉列表,选择下一个需要采集的部分。如果网址发生变化,需等待浏览器重新加载页面,找到新的数据网页。
重复上述步骤,直到所有数据采集完成。
如果需要重新采集某个部分,请先点击下拉列表中的该部分名称,然后点击采集按钮重复采集该部分(此时可以随意更改浏览器的数据网页,以获取不同企业的数据)。
如果目录中采集获得的数据结果有误,可以点击手动修改。XPath语句如有错误,也可以自行修改以查看检测结果(XPath语句修改后,会立即重新爬取浏览器中的数据,所以浏览器最好显示真实的数据网页)。
在程序中修改的XPath语句不会保存到INI文件中,请用户自行保存。
如果目录中数据准确无误,浏览器中的Docx模板内容也正确,则可以点击生成文档按钮,填写要生成的文件名,程序会使用爬取到的网页数据替换模板中的索引字符串数组,自动生成Docx文档。
,右下方的Docx浏览窗口不支持详细的Word文档格式,对不规范文档可能会出现文字缺失或错位的情况。遇到此类情况,可忽略或修改模板文件为标准格式(单倍行距)。
- 新游戏暂无消息 参与地图设计大赛赢取奖励 10-31
- 2K公布免费第三人称英雄射击游戏《Ethos计划》 10-21
- 考试啦,《葫芦娃2》带来原动画细节小考卷(4) 10-21
- 王国两位君主北欧之地隐士有什么用 10-21
- 我的世界种子怎么种植方法 10-21
- 崩坏学园2怎么注销崩坏怎么注销账号 10-21
- 不止《生化危机》外媒精选30款恐怖佳作 10-21
- 王国两位君主北欧之地雷神之锤解锁顺序 10-21
- 梦幻西游梦玲珑穿什么 10-21
- 功夫熊猫阿宝邀你切磋,《蛋仔派对》联动KouKouLove第二弹开启 10-21