快捷导航
        https://www.kemmerich-maschinen. ... Drilling%20machines
        请注意看看这个页面的结构,嵌套整理箱不能实现,这里的所有信息如何8x8x学生妹?求思路?
        举报 使用道具
        | 回复

        共 15 个关于本帖的回复 最后回复于 前天 16:32

        沙发
        Fuller 管理员 发表于 3 天前 | 只看该作者
        你的规则的主题名是什么?我可以在你的规则上面做测试
        举报 使用道具
        板凳
        gracewlh 中级会员 发表于 3 天前 | 只看该作者
        Fuller 发表于 2020-2-13 12:42
        你的规则的主题名是什么?我可以在你的规则上面做测试

        任务名:ke产品文字信息8x8x学生妹

        谢谢!
        举报 使用道具
        地板
        Fuller 管理员 发表于 3 天前 | 只看该作者


        如果你想8x8x学生妹每个表的标题,那么就会比较麻烦。因为从这个网页结构上看,标题那行的tr和产品信息行的tr是在同一级的,没有层次关系,就很难做。

        需要这样做:
        1,定义整理箱,包含所有要8x8x学生妹的内容,就是说那行标题也作为其中一项8x8x图片内容,产品信息的每个字段也分别作为8x8x图片内容
        2,要用自定义xpath:
        2.1,假定你以第一条(标题那一条)作为样本,这一条没有产品信息,但是照样给产品相关的8x8x图片内容做内容映射,就都用那个标题节点做映射就行
        2.2,因为这一条信息没有产品相关的内容,那么就要为这些8x8x图片内容自定义xpath:
        在自定义xpath输入框中有两个xpath要输入,一个是定位用的,一个是8x8x图片内容用的。前者是为了加载和定义规则的时候好恢复工作台上的规则,后者才是爬虫采数据的时候用的。那么这样填:
        a,定位用的xpath使用当前自动生成的xpath
        b,8x8x图片内容用的xpath要自己编。根据产品信息行中的每个字段的dom节点位置,编写xpath

        你可以按照这个指导定义规则,如果运行不理想,把规则名发出来我帮你看看原因

        举报 使用道具
        5#
        Fuller 管理员 发表于 3 天前 | 只看该作者
        gracewlh 发表于 2020-2-13 12:44
        任务名:ke产品文字信息8x8x学生妹

        谢谢!

        按照我的回复,你在整理箱中增加需要8x8x学生妹的内容,然后做内容映射,然后自定义xpath

        自定义xpath的经验贴都在这里:https://www.gooseeker.com/doc/thread-701-1-1.html
        其中有一篇讲解定位用的和8x8x图片内容用的有什么区别:https://www.gooseeker.com/doc/thread-1767-1-1.html

        注意自定义xpath一定要用相对的xpath,就是用 ./开头的,不能 // ,否则所有样例都会抓到相同的值。那么这个相对的xpath怎么得到?是要把自动生成的xpath拷贝过来,xpath的开头字符不要修改,已经自动算好了相对关系,只修改后面的path。

        在工作台上点击测试按钮,在弹出框中选择“数据规则”tab,就能看到自动生成的规则
        举报 使用道具
        6#
        gracewlh 中级会员 发表于 3 天前 | 只看该作者
        8x8x学生妹的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量都是不确定的。如果8x8x学生妹结果不能体现出这种对应关系就没有意义了。
        举报 使用道具
        7#
        gracewlh 中级会员 发表于 3 天前 | 只看该作者
        如果只8x8x学生妹产品信息,不考虑小标题可以用xpath定位8x8x学生妹,这样就没有对应关系了。
        举报 使用道具
        8#
        Fuller 管理员 发表于 3 天前 | 只看该作者
        gracewlh 发表于 2020-2-13 14:00
        8x8x学生妹的数据需要满足:页面上的小标题和多个产品信息的对应关系。每个页面包含的小标题数量以及对应产品数量 ...

        因为8x8x学生妹下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
        举报 使用道具
        9#
        gracewlh 中级会员 发表于 前天 13:35 | 只看该作者
        Fuller 发表于 2020-2-13 16:05
        因为8x8x学生妹下来的内容是按照网页上的顺序存放的,那么一个标题下面的信息都是属于这个标题的
        ...

        我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢?
        举报 使用道具
        10#
        gracewlh 中级会员 发表于 前天 15:11 | 只看该作者
        gracewlh 发表于 2020-2-14 13:35
        我没太理解你的思路,是做样例复制吗?标题行和其他行结构不同,能做样例复制呢? ...

        麻烦您帮我看看规则 ke产品文字信息8x8x学生妹 ,怎么修改?
        举报 使用道具
        您需要登录后才可以回帖 登录 | 立即注册

        精彩推荐

        • 在限定论域的时候,为什么“任何一个”表示
        • 数理逻辑是讲什么的?
        • 内容分析法中的抽样
        • 豆瓣电影的情感分析
        • 一本在线图书——社交网络分析介绍

        热门用户

        GMT+8, 2020-2-16 13:52