灵犀Claw实战：用浏览器访问企查查，自动化企业信息采集

> 本文由 WPS 灵犀 AI 自动生成，内容基于实际使用场景的经验总结。我只是负责日常用Claw干活，这篇是灵犀根据我的使用记录帮我整理出来的。## 背景做建筑资质代办这行，查企业信息是日常高频操作——查工商信息、查资质、查人员、查风险。以前每天要花大量时间在企查查、建设通、住建云之间反复切换，手动复制粘贴。灵犀Claw的浏览器能力让这件事变成了说一句话就搞定。## 前置准备：打开浏览器并开启调试端口要让Claw操控浏览器，需要在启动浏览器时开启远程调试端口。以360ChromeX举例：**第一步：找到浏览器安装路径**360ChromeX的exe路径：```D:\Users\任飞\AppData\Local\360ChromeX\Chrome\Application\360ChromeX.exe```用户数据目录：```D:\Users\任飞\AppData\Local\360ChromeX\User Data```**第二步：启动带调试端口的浏览器**命令行执行（端口选一个不冲突的，比如9225）：```360ChromeX.exe --remote-debugging-port=9225 --user-data-dir="D:\Users\任飞\AppData\Local\360ChromeX\User Data" https://www.qcc.com```关键参数说明：- --remote-debugging-port=9225：开启调试端口，Claw通过这个端口连接浏览器- --user-data-dir：指定用户数据目录，保留所有登录态（企查查VIP、WPS账号等）- 端口不要跟其他浏览器冲突，Edge默认用9223的话，360就用9225**第三步：验证连接**启动后终端会输出 DevTools listening on ws://127.0.0.1:9225/... 就说明成功了。## 核心实现：Claw操控企查查### 连接已打开的浏览器在灵犀Claw中通过browser Skill连接：```pythonimport sys, ossys.path.insert(0, os.path.join(os.getenv("SKILL_PATH"), "browser", "scripts"))import browser# 页面已经在浏览器中打开着，直接导航到企查查result = browser.navigate(url="https://www.qcc.com")```navigate返回的是页面文本快照，包含页面标题、可交互元素索引列表和页面正文，Claw通过这个快照来理解当前页面状态。### 搜索企业企查查首页有搜索框，通过页面快照中的元素索引找到搜索框，填入公司名搜索：```python# 在搜索框中输入公司名，回车搜索result = browser.fill(element_index=0, text="公司名称", press_enter=True)```Claw会自动填入文字并回车提交，页面跳转到搜索结果页或企业详情页。### 提取工商信息进入企业详情页后，通过JS直接提取关键信息：```pythonresult = browser.execute_script( "return JSON.stringify({ companyName: document.querySelector('.company-name')?.textContent?.trim(), creditCode: document.querySelector('.credit-code')?.textContent?.trim(), legalPerson: document.querySelector('.legal-person')?.textContent?.trim(), }, null, 2);")print(result)```### 等待动态内容加载企查查信息是异步加载的，需要等元素出现后再提取：```pythonimport timefor i in range(10): has_content = browser.execute_script( 'return document.querySelector(".company-info-item") !== null' ) if has_content == "true": break time.sleep(1)```## 坑点总结### 坑1：登录态管理企查查需要VIP才能看完整信息。最开始的方案是每次新开浏览器，结果每次都要扫码登录，费时费力。**解决方案：** 连上本地已有登录态的浏览器页面，通过 --remote-debugging-port 启动浏览器并指定 --user-data-dir，Claw直接接管已经登录好的标签页，不用再重新登录。### 坑2：企查查页面的动态加载企查查的工商信息、股东信息、司法风险等模块都是异步加载的，直接等页面加载完还不够，要等具体模块渲染出来。踩坑教训：不能用固定的sleep等待，不同网速下时间差异很大。**解决方案：** 轮询检测关键元素的出现，出现后再提取数据。### 坑3：反爬策略企查查有滑动验证码、IP频率限制等反爬手段。频繁请求会被临时封禁。应对策略：- 控制采集频率，每个企业间隔3-5秒- 批量采集时不要同时打开太多页面- 用真实浏览器（非无头模式）绕过部分检测### 坑4：表格数据提取企查查的表格（如股东信息、变更记录）在DOM中结构复杂，提取时容易漏行或错位。**最佳实践：** 直接通过JS执行 document.querySelectorAll 按表格结构逐行提取，输出为结构化JSON，而非截取页面文本。## 实际效果目前用得最多的场景：1. **收壳尽调**：输入公司名，自动采集工商信息、行政处罚、司法风险、资质情况，生成尽调摘要2. **客户背调**：新客户来咨询资质代办，先查一下企业基本面和风险点3. **竞品监控**：批量采集同行企业的资质变更动态以前一个小姑娘一下午手工查20家企业，现在Claw跑一遍10分钟出表。## 总结用Claw操控浏览器的核心经验就三点：1. 连已登录的浏览器，别自己开新的2. 等元素加载，别死等固定时间3. 用JS取数据，别依赖页面文本截取欢迎交流讨论。---#灵犀Claw #WPS技巧达人 #企查查 #浏览器自动化

WPS灵犀技巧教程

2026-05-12 17:28:57 江西省

9 +1

2 +1