迷你派采集器-最简单网页自动采集监控
截图
简介
技术小白网页采集器,免费赠送积分!自动识别,中英文网页采集。京东亚马逊淘宝虾皮拼多多电商价格采集监控知乎微博小红书携程内容采集
+ 与验证码识别器插件合作( https://chromewebstore.google.com/detail/captcha-solver-free-auto/hlifkpholllijblknnmbfagnkjneagid ) , 为任何有需要的人群提供自动采集过程中, 解决复杂验证码挑战的能力.
无需注册即可立即开启免费体验
最简单数据采集、网页采集、网页爬虫、浏览器自动化插件
最快点击3次即可轻松完成多页自动采集爬取
强大的多级网页采集,无需任何编码
可视化创建采集跨多页信息的自动规则
灵活的规则,允许设置节点级别,动作级别,数据行级别的各种条件控制
所有数据安全地存储在本地,具有双重保护
自动运行计划任务
无需学习Python, PHP, javascript,xpath,json,iframe等技术技能
轻松搞定亚马逊采集、虾皮采集、天猫采集、淘宝采集、京东采集、头条采集、携程采集、大众点评采集、百度查询结果采集、高德地图采集、腾讯地图采集、谷歌地图采集、脸书采集、领英采集、黄页采集等。
甚至迷你派甚至可以采集其他插件显示在网页中的数据!如鸥鹭等电商插件会在你打开Amazon网页的时候,自动在商品下面显示一些额外信息。 迷你派采集器可以帮助您实现这些信息的自动化收集。
采集器不同于传统的爬虫,采集器是一个完全受您控制的网页爬虫脚本。所有的执行规则由您定义。只需打开一个页面,让迷你派采集器插件自动识别表格数据或选择要手动抓取的元素,然后告知迷你派采集器如何在页面之间(甚至站点之间)导航(它也会尝试自动查找导航按钮)。 迷你派采集器可以智能地理解数据模式并通过自动导航页面来提取所有数据。
在线免费视频教学:https://www.bilibili.com/video/BV1nK4y1V7gT
所有免费功能:
•自动表格数据识别
• 自动列表翻页识别
•多网页数据采集或转化
•采集图片到本地或者云端
• 超简单登录后内容采集
• OCR方式识别加密字符或者图片内容
• 批量URL地址,批量关键词查询采集
• 自动iFrame内容采集支持
•数据变化监控和实时通知
•动态内容采集(JavaScript + AJAX)
•无限滚动翻页支持
•多种翻页模式支持
•跨网站抓取或数据转化
•增量数据采集
•可视化编辑采集规则
•无限数据导出到Excel或CSV文件
•国际语言支持
•高隐私
•高保密性
•通过webHook无缝衔接您自己的系统,或者Zapier等平台
•无需学习python, PHP, JavaScript,xPath,Css,JSON,iframe等技术技能
•除Chrome浏览器外没有依赖性
常用场景:
*亚马逊卖家,分销商和评论分析师收集产品价格和评论
*销售人员通过专业的社交资料自动定期收集销售线索
*目标商品价格调整监控
*自由职业者自动从公共目录中收集电子邮件,地址和电话号码
*在家或远程工作的人员安全地自动执行一些与数据相关的任务
*小企业主管理自己产品在多个网站的的评级和评论跨
* SEO专业人员将采集器与SEO工具一起使用
*业务负责人寻求简单的方法来收集数据
*招聘人员定期寻找合格应聘者
*求职者寻找目标雇主的最佳工作
*市场营销专业人员分析社交媒体网站
*数据科学家采集更多干净的数据
*学生学习数据科学和数据挖掘
迷你派采集器是如何工作?
数据采集器是一种数据提取器和转换器,可以从网页中收集电子邮件或任何其他文本。 迷你派采集器通过使用CSS选择器在HTML页面中标识信息来帮助您定义配方和作业。然后,它会按计划抓取该信息,并将结果以表格的形式存储在浏览器中,以后可以另存为CSV或XLS文件。 迷你派采集器支持UTF-8,因此可以轻松地采集英语,中文,日语,俄语,韩语等多种语言。您不需要具有编码,xml,json或xpath等IT技能。
重要信息:
所有抓取的数据始终是私有的,并且只有您自己可见。无论您使用的是免费还是付费计划,迷你派采集器都不会保留您抓取的数据,不会将您的数据发送到我们的服务器,也不会与任何人共享您的数据。 迷你派采集器使用您自己的计算机,并作为chrome扩展程序运行,仅在您的浏览器中运行。
迷你派采集器为您加密所有采集任务,注册用户可以设置操作密码以进一步保护。没有操作密码用户无法导出或删除采集任务和采集到的数据。
迷你派采集器不会匿名收集任何数据。采集器按照您定义或严格导入的采集任务运行。
迷你派采集器要求您了解并遵守所使用的任何站点的使用条款。针对用户开发生成的采集任务迷你派采集器没有义务修改或修复它们。如果不遵守目标网站的任何条款,请删除本插件。如果继续使用,则由您承担由此导致的任何结果。
迷你派采集器不包含任何恶意软件或间谍软件。所有抓取的数据和采集任务配置都存储在您的浏览器中,并且除了您的电子邮件帐户(如果已注册)之外,没有任何数据保留在我们的服务器中。您的电子邮件地址用于登录目的和通知,未经您明确同意,绝不会将其提供给他人。 迷你派采集器通过具有强大ASE加密算法的HTTPS传输您的帐户信息。
所需的Chrome插件权限说明:
activeTab:跟踪用于创建规则的标签页需要
WebNavigation:跟踪多个页面时打开的标签页需要
storage:存储当前配置和数据
unlimitedStorage:需要存储所有采集的数据以供以后导出
notification:采集任务完成时需要通知您
如果您有任何反馈或功能要求,请告诉我们:
service@minirpa.net
更新
+ 与验证码自动识别器无缝集成
+ 可以根据网站不同,设置hCaptcha和reCAPTCHA的解决速度, 解决后动作等设定
. 提供所有触发器的说明
. 增强下滚操作 – 提供更多的步长选项
. 增强激活窗口动作 – 确保规则的定制和规则的运行可以在同样大小的窗口下运行
. 增强自动规则以助手方式运行 – 即使接受批量输入的规则也可以通过右键以助手的方式运行
. 增强字段合并功能 – 动态名称的字段也可以合并
. 优化了无痕模式下的规则工作流运行 – 无痕模式下新启动的规则也在无痕窗口中运行
. 优化无痕窗口的打开和关闭, 以及事先判断浏览器是否对迷你派采集器开启了无痕模式运行
. 优化规则树的展示 – 可以直观查看节点之间的导航
. 优化规则树的展示 – 新添加节点在父节点的下面
. Bug修复: 某些场景下按下shift键无法选中元素的问题
. Bug修复: 右键菜单装载完整可助手化运行的规则问题
. BUG修复: AI识别后直接保存规则同名的问题
. 其它一些小的完善
. 优化ConfirmIt动作: 提示信息浮动在页面中心
. 优化数据转换: 支持使用空格来作为开始和结束的标识符
. 优化工作窗口: 普通工作窗口和无痕工作窗口默认打开时处于激活状态,方便识别
. Bug修复: 连续重复记录(Unique字段区分)达到临界值时自动停止
. Bug修复: 需要输入的信息警告提示
. Bug修复: 打开字段URL动作的问题
. Bug修复: 规则搜索的问题