潍坊市玉清街与虞河路交汇处锦绣园
您的当前位置:易迅网络公司->山东SEO->山东网站优化->浏览文章
山东网站优化

编写python爬虫、类搜索引擎的程序是否故意义?

标签:编写,爬虫,搜索,搜索引擎,索引,引擎,程序,是否  2020年01月21日  点击83

【题目】

最初有一个想法,就是用程序来写一个类似搜索引擎的爬虫,然后24小时循环抓取互联网上尽可能多的网站数据。

接着用这个数据来配合做SEO。目前已经完成了24小时不间断抓取Url部分。重要是用python做的。其他程序也试过。但是服从太低、要


么耗内存。照旧python最好。


我的题目是:有没有python方面经验雄厚的同伙? 能够提供一些方向的? 比如正文提取这一部分,这个有现成的模块吗? 本身写的话


,有点难度。我查过资料,python有爬虫类的模块。但是还没接触过。盼望能有前辈可以引导一下。真的,在此谢过了。


还有就是电源模块,想问下做这个东西你觉得故意义吗?


【回复】

首先要一定,你做这个开发是很故意义的。我去年的时候用C#开发过一个蜘蛛抓取体系和正文分析体系,虽然比较粗糙,但是也从过程


中感悟到了更深刻SEO优化策略。


例如配额的题目,我在家里本身架服务器然后一个抓一个分析,统统都是以低费用原则睁开的,所以带宽天然是不充裕的。这个情况下


我就深刻的意识到要抓什么网站,要抓什么类型的页面,时间和线程怎么分配比例,哪些内容是长期不更新的,哪些是具有实时更新意


义的等等,通常做seo的同伙,没办法真的换位去思考这些内容,所以只能等着别分享后再去思考,但是大多数分享也是浅尝则止,具


体的细节和原则照旧必要本身去摸索和实验的。


另外当我试图去分析HTML的时候,就碰到了前所未有的“无穷可能”,由于你的思路几乎是瞬间爆炸了,什么导航条面包屑,页面噪音


(代码层面,内容层面),HTML的标准化(涉及到DOM树是否精确的解析),H1优化,探求最大正文段落等等,太多的细节可以去做


分析。


其中我做了一个关于页面噪音的小测试,就是去试图针对一个网站,通过对比HTML获得类目框架。目的就是不想杂乱无章的内容影响我


分析正文,所以这里要最基础的去除噪音。如许一来营销策划,周边零散的代码就被我视为“低质量的,可忽略的,紧张性较低的”的内容。


又例如如何判断页面类型呢?列表页和内容页?不同的页面也会影响二次抓取的频率,由于列表页很显然更具备更新能力,而内容页则


相对不更新(主内容框架内不更新,周边框架内容更新,但意义不大)。所以当搜索什么“列车时刻”一类的词,默认列表页会有更大


的机会,而当你搜索知识性内容则内容页会有更大的可能性。当然这些都是可以通过体系设置的一个“着重权重”来实现。


总的来说,当你开发一个搜索引擎的时候,哪怕这个搜索引擎再简单和粗糙,你也会真正的有机会站在搜索引擎的角度去思考SEO,这


种思考和感悟是深刻而现实的,远比瞽者摸象更有引导意义。


python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。但是更保举你试试BeautifulSoup。


关于正文的提取,不知道你是要所有正文文本的提取,照旧最核心的内容的判断。

假如是提取所有HTML标签内的文本,那么解析器遍历一下,就可以获得一个清单了。

假如你要获得一个“相对最紧张正文区域”,那么就必要根据每一个DOM树中的内容量做一个初步的判断,当然假如要更正确无误的判


断正文,还必要其他许多细节的验证操作。


顺着你的话题,我在扩展一下。


我建议大家偶然间可以阅读有关“方_法_论”方面的书籍,由于通常,我们在一个行业或一个职位上,所关注和处理的工作,都是一个整


系统统中的一个局部,而是否能尽量多的去理解这个团体体系,对我们的控制能力来说,是至关紧张的。所以真正要做好SEO,就不能


仅仅寻求SEO的技巧,要更多时间去理解搜索引擎。


淘宝也好,亚马逊(海外)也好,百度也好,都是一个平台,我们无论要做运营,照旧SEO,其本质都是充分的获得平台的资源分配。


这个时候谁能站在平台的角度,谁就有更大的竞争力。这就好比产品经理们常常说的,站在用户的角度去开发产品。


你做这个事情百度搜索引擎优化,整个过程就是一个极其珍贵的学习过程,如许做的人特别很是少,你很棒!加油!


本文出自:http://www.esouou.com/gn1684673/question/19