灵犀Claw实战:用浏览器访问企查查,自动化企业信息采集
> 本文由 WPS 灵犀 AI 自动生成,内容基于实际使用场景的经验总结。我只是负责日常用Claw干活,这篇是灵犀根据我的使用记录帮我整理出来的。## 背景做建筑资质代办这行,查企业信息是日常高频操作——查工商信息、查资质、查人员、查风险。以前每天要花大量时间在企查查、建设通、住建云之间反复切换,手动复制粘贴。灵犀Claw的浏览器能力让这件事变成了说一句话就搞定。## 前置准备:打开浏览器并开启调试端口要让Claw操控浏览器,需要在启动浏览器时开启远程调试端口。以360ChromeX举例:**第一步:找到浏览器安装路径**360ChromeX的exe路径:```D:\Users\任飞\AppData\Local\360ChromeX\Chrome\Application\360ChromeX.exe```用户数据目录:```D:\Users\任飞\AppData\Local\360ChromeX\User Data```**第二步:启动带调试端口的浏览器**命令行执行(端口选一个不冲突的,比如9225):```360ChromeX.exe --remote-debugging-port=9225 --user-data-dir="D:\Users\任飞\AppData\Local\360ChromeX\User Data" https://www.qcc.com```关键参数说明:- --remote-debugging-port=9225:开启调试端口,Claw通过这个端口连接浏览器- --user-data-dir:指定用户数据目录,保留所有登录态(企查查VIP、WPS账号等)- 端口不要跟其他浏览器冲突,Edge默认用9223的话,360就用9225**第三步:验证连接**启动后终端会输出 DevTools listening on ws://127.0.0.1:9225/... 就说明成功了。## 核心实现:Claw操控企查查### 连接已打开的浏览器在灵犀Claw中通过browser Skill连接:```pythonimport sys, ossys.path.insert(0, os.path.join(os.getenv("SKILL_PATH"), "browser", "scripts"))import browser# 页面已经在浏览器中打开着,直接导航到企查查result = browser.navigate(url="https://www.qcc.com")```navigate返回的是页面文本快照,包含页面标题、可交互元素索引列表和页面正文,Claw通过这个快照来理解当前页面状态。### 搜索企业企查查首页有搜索框,通过页面快照中的元素索引找到搜索框,填入公司名搜索:```python# 在搜索框中输入公司名,回车搜索result = browser.fill(element_index=0, text="公司名称", press_enter=True)```Claw会自动填入文字并回车提交,页面跳转到搜索结果页或企业详情页。### 提取工商信息进入企业详情页后,通过JS直接提取关键信息:```pythonresult = browser.execute_script( "return JSON.stringify({ companyName: document.querySelector('.company-name')?.textContent?.trim(), creditCode: document.querySelector('.credit-code')?.textContent?.trim(), legalPerson: document.querySelector('.legal-person')?.textContent?.trim(), }, null, 2);")print(result)```### 等待动态内容加载企查查信息是异步加载的,需要等元素出现后再提取:```pythonimport timefor i in range(10): has_content = browser.execute_script( 'return document.querySelector(".company-info-item") !== null' ) if has_content == "true": break time.sleep(1)```## 坑点总结### 坑1:登录态管理企查查需要VIP才能看完整信息。最开始的方案是每次新开浏览器,结果每次都要扫码登录,费时费力。**解决方案:** 连上本地已有登录态的浏览器页面,通过 --remote-debugging-port 启动浏览器并指定 --user-data-dir,Claw直接接管已经登录好的标签页,不用再重新登录。### 坑2:企查查页面的动态加载企查查的工商信息、股东信息、司法风险等模块都是异步加载的,直接等页面加载完还不够,要等具体模块渲染出来。踩坑教训:不能用固定的sleep等待,不同网速下时间差异很大。**解决方案:** 轮询检测关键元素的出现,出现后再提取数据。### 坑3:反爬策略企查查有滑动验证码、IP频率限制等反爬手段。频繁请求会被临时封禁。应对策略:- 控制采集频率,每个企业间隔3-5秒- 批量采集时不要同时打开太多页面- 用真实浏览器(非无头模式)绕过部分检测### 坑4:表格数据提取企查查的表格(如股东信息、变更记录)在DOM中结构复杂,提取时容易漏行或错位。**最佳实践:** 直接通过JS执行 document.querySelectorAll 按表格结构逐行提取,输出为结构化JSON,而非截取页面文本。## 实际效果目前用得最多的场景:1. **收壳尽调**:输入公司名,自动采集工商信息、行政处罚、司法风险、资质情况,生成尽调摘要2. **客户背调**:新客户来咨询资质代办,先查一下企业基本面和风险点3. **竞品监控**:批量采集同行企业的资质变更动态以前一个小姑娘一下午手工查20家企业,现在Claw跑一遍10分钟出表。## 总结用Claw操控浏览器的核心经验就三点:1. 连已登录的浏览器,别自己开新的2. 等元素加载,别死等固定时间3. 用JS取数据,别依赖页面文本截取欢迎交流讨论。---#灵犀Claw #WPS技巧达人 #企查查 #浏览器自动化