Crawlmax是一款突破性的网站采集和抓取、文章生成器自动博客WordPress插件 ,它使用网站爬行和抓取将您的网站变成自动博客甚至赚钱机器!从几乎任何网页获取内容!您不再需要需要注册且访问权限有限的 API,还可以从不提供 API 的网站检索数据。安排一次,让它像大师一样全天候自动为您发布文章!
它是如何工作的?
此插件将抓取您提供的种子 URL(抓取意味着它将搜索网页包含的所有链接),并访问每个抓取的 URL 并从中提取内容。抓取过程是可自定义的:您可以设置抓取深度、抓取速率、最大抓取文章数、仅抓取具有特定类别或 ID 的链接以及更多自定义设置。
主要特点
- 自动检测采集区域
- 支持自定义文章类型和分类法,可以采集WooCommerce商品数据
- RSS Feed采集
- 可视化采集内容选取
- 支持多站点
可采集内容
更新内容
v2.0 更新
在 v2.0 更新中,插件中添加了一个新的实时抓取器短代码:[crawlomatic-scraper]。此新功能使此插件成为易于实现的 WordPress Web 数据提取器。因此,它可用于将来自任何网站的实时数据直接显示到您的文章、页面或侧边栏中。它还会暂时缓存抓取的内容,因此您的网站不会过度使用资源。您可以使用此插件来包含实时股票报价、板球或足球比分或来自公共域的任何其他通用内容!
此更新包含的新功能:
- 抓取的输出可以通过自定义模板标签、页面中的短代码、文章和侧边栏(通过文本小部件)显示。
- 可配置抓取数据的缓存。可以以分钟为单位定义每个抓取数据的缓存超时时间。
- 可以为每次抓取设置可配置的用户代理。
- 可配置的默认设置,如启用、用户代理、超时、缓存、错误处理。
- 查询内容的多种方式 – CSS 选择器、XPath 或 Regex、自动检测。
- 用于解析内容的多种参数。
- 将文章参数传递给要抓取的 URL 的选项。
- 将抓取的内容动态转换为指定的字符编码,以便从使用不同字符集的站点抓取数据。
- 使用动态生成 URL 来动态创建抓取的页面,以根据页面的获取或发布参数来抓取或发布参数。
- 用于对抓取的数据进行高级解析的回调函数。
插件功能:
- v2.5.5 更新: 如果源站点发生变化,则自动更新抓取的文章/页面/产品 + 如果抓取的 URL 在源站点上不再可用,则取消发布(设置为草稿)文章/页面/产品(可选功能,可以启用/禁用)
- v2.5.1 更新: 从其他 WooCommerce/Shopify 商店抓取 WooCommerce 产品变体
- v2.5.0 更新: 从 Google 或 Bing 抓取自定义关键字搜索的搜索引擎结果。
- v2.4.1 更新: 抓取 WooCommerce 产品的产品图库(对于非产品文章类型,将从抓取的图像中创建文章附件)
- v2.3.5 更新: 在抓取的 HTML 上执行您自己的 JavaScript 代码并抓取结果 – 此功能仅在使用无头浏览器进行抓取(Puppeteer/Tor/PhantomJS)或 HeadlessBrowserAPI 时可用
- v2.2.1 更新: 抓取 RSS 源中的链接并抓取其中列出的文章
- v2.2.0 更新: 使用 HeadlessBrowserAPI 从互联网上的任何网站抓取 JavaScript 生成的 HTML 内容,无需在服务器上安装任何东西(除了此插件)
- v2.1.0 更新: 使用 Tor 浏览器和 Puppeteer 从暗网上抓取 .onion 网站
- v2.0.0 更新: 添加了 Live Scraper 短代码,以实现更强的抓取控制和抓取能力:[crawlomatic-scraper]
- v1.7.1 更新: 支持站点地图抓取
- v1.6.5 更新: 添加了可视化内容选择器支持
- v1.6.0 更新: 添加了对抓取的页面进行截图并将其用于生成的文章内容的功能
- v1.5.2 更新: 使用 Shorte.st 链接缩短服务可以缩短传出(发布源)链接(并将其货币化)
- v1.4.8 更新: 为抓取的页面添加了 JavaScript 执行支持 – 需要在服务器上安装 PhantomJS
- v1.4.4 更新: 增加了设置多个代理抓取页面的功能,每次访问页面时插件会随机选择一个代理进行抓取。
- v1.4.0 更新: 增加了分页抓取的功能(对文章的抓取会在种子页的下一页继续)。
- v1.4.0 更新: 增加了导入抓取产品价格功能(兼容 WooCommerce)+ 直销价格自动修改
- v1.4.0 更新: 增加了将进口产品价格增加一个固定数字或乘以一个预定义数字的功能(对于直接代发货来说非常有价值!)
- v1.2.8 更新: 增加了分页文章导入支持(导入到单个抓取的文章中)
- v1.2.4 更新: 增加了设置代理抓取页面的功能
- v1.2.3 更新: 增加当直接抓取失败(被屏蔽)时从 Google 缓存中抓取页面的选项
- 谷歌翻译支持 – 选择您想要发布文章的语言
- 文本旋转器支持 – 自动修改生成的文本,用同义词更改单词 – 内置、最佳旋转器、SpinRewriter、WordAI、TurkceSpin 和其他 – 巨大的 SEO 价值!
- 可定制生成的文章状态(已发布、草稿、待处理、私人、垃圾)
- 列出此插件生成的所有文章的短代码:[crawlomatic-list-posts type => ‘any’, order => ‘ASC’, ‘orderby’ => ‘date’, ‘posts’ => 50, ‘category’ => ”, ‘ruleid’ => ”]
- 可以设置抓取和爬取以尊重网站的 robots.txt 文件和爬取页面的 robots HTML 标头
- 自动从市场项目生成文章类别或标签
- 手动将文章类别或标签添加到项目中
- 如果文章已经发布,请选择是否要更新文章
- 将自定义 cookie 与请求一起发送到抓取的网页(身份验证)
- 生成文章或页面或任何自定义文章类型
- 使用网站抓取和爬取功能嵌入来自 YouTube、Vimeo、Flickr、IGN、Ustream.tv 和 DailyMotion 的视频
- 定义发布限制:不要发布没有图像的文章、带有短/长标题/内容的文章
- 自动为文章生成特色图片
- 启用/禁用生成的文章的评论、pingback 或引用
- 自定义文章标题和内容(包含各种相关文章短代码)
- “关键字替换工具”——其目的是定义关键字,这些关键字会自动替换您网站内容中出现的任何地方的联盟链接。例如,您可以定义关键字“loowp”,并将其替换为指向 http://www.loowp.com/?ref=user_name 的链接,该链接会出现在您网站内容的任何地方。
- “随机句子生成器工具”(相关句子 – 由您定义)
- 一段时间后自动删除生成的文章的选项
- 详细的插件活动日志
- 计划规则运行
- 生成文章的自定义字段支持
- 生成文章的自定义分类法支持
- 无限制抓取变量导入(无限制导入抓取页面的部分)
- 选择在本地复制或不复制图像
- 使用 Regex 解析 JSON 数据的能力
- 为生成的文章添加规范元标记的选项
- 最大/最小标题长度文章限制
- 文章内容长度的最大/最小限制
- 仅当在标题/内容中找到预定义的必需关键字时才添加文章
- 仅当标题/内容中未找到预定义的禁止关键字时才添加文章
- 从文件保存和恢复插件规则列表
本站大部分资源收集于网络以及网友投稿,本不保证资源的完整性以及安全性,请下载后自行测试。
本站资源仅供下载者学习技术,版权归资源原作者所有,请在下载后24小时之内自觉删除。
本站资源仅供下载者学习IT编程开发技术,请遵守国家法律法规,严禁用于非法用途。
若作商业用途,请购买正版,由于未及时购买正版发生的侵权行为,与本站无关。
如您是版权方,本站源码有侵犯到您的权益,请邮件联系331752841@qq.com 删除,我们将及时处理!
本站资源仅供下载者学习技术,版权归资源原作者所有,请在下载后24小时之内自觉删除。
本站资源仅供下载者学习IT编程开发技术,请遵守国家法律法规,严禁用于非法用途。
若作商业用途,请购买正版,由于未及时购买正版发生的侵权行为,与本站无关。
如您是版权方,本站源码有侵犯到您的权益,请邮件联系331752841@qq.com 删除,我们将及时处理!