Page 1 of 1

对我来说完全是新鲜事物的是

Posted: Mon Dec 09, 2024 9:09 am
by ahnafhossen43
根据schema.org我们得到了以下定义:

DefinedTermSet:“一组定义的术语,例如一组类别或分类方案、词汇表、词典或枚举。”
DefinedTerm:“具有正式定义的单词、名称、首 埃及电话号码数据 字母缩略词、短语等。通常用于类别或主题分类、词汇表或词典、产品或创意作品类型等。使用 name 属性来定义术语,如果术语分配了字母数字代码,则使用 termCode,使用 description 来提供术语的定义。”
这些都是为字典创建的模式,并且 Merriam Webster 已经在使用它们了。

我不清楚他们使用新的和记录较少的模式会产生什么影响,但也许由于这些举措,他们是搜索中性能最好的词典之一。

5. 抓取管理
我们谈论的是拥有数百万个有价值页面的网站。他们不仅要考虑搜索引擎机器人,因为这些机器人可以成就或毁掉如此规模的网站,还要考虑那些试图抓取和重复使用其内容的机会主义者。

大型词典不像典型的电子商务网站,你可以在周六下午抓取并分析。事实上,你甚至无法将其中大部分放入 Screaming Frog 中,也无法获得任何有价值的分析结果。

Image

即使他们根据用户代理阻止爬虫程序或仅允许某些 IP 通过,他们也肯定做得正确。

Robots.txt
robots.txt 的长度根据网站而变化。

它们通常不允许:

内部搜索
自动完成页面
已保存的搜索功能
注册信息