SEO观察
研究搜索引擎优化(SEO)技术。

怎样读取网站服务器的log日志文件?

网站服务器会把每一个访问信息、每一个服务器动作、每一个文件调用自动记录下来,存在服务器原始日志文件中。所以,日志中的信息是相对准确、全面的。有些SEO需要知道的信息在流量分析软件中很少支持,必须直接查看日志,如服务器返回的状态码。

网站SEO排名

原始日志就是一个纯文本文件,只要用文字编辑软件如 WordPad 或 Notepad 打开就可以,一般主机商会在控制面板提供网站log日志文件下载。

下面是我的博客“良家佐言”(https://www.badpon.com)2021年5月日志文件中随机选取的一行,一起看看包括哪些信息:

2021-05-02 16:11:02 GET /1467.html - - 111.225.149.189 HTTP/1.1 Mozilla/5.0+(compatible;+Bytespider;+https://zhanzhang.toutiao.com/)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/70.0.0.0+Safari/537.36 - 200 

时间日期
2021-05-02 16:11:02

这是文件被访问的准确时间,和IP地址结合起来,查看多条日志记录就可以跟踪某一个特定的用户从一个网页到另一个网页的访问顺序和网上活动。

用户IP地址
111.225.149.189

这是访问用户所在的IP地址,显示出访问的人来自什么地理位置。在百度上查询一下IP地址所属位置,结果显示是河北省张家口市电信用户。

服务器动作:
GET /1467.html – – 111.225.149.189 HTTP/1.1

服务器要做的工作要么是GET,要么是POST。除了一些CGI脚本外,通常应该是GET,也就是从服务器上获取某个文件,可以是HTML、图片、CSS等。

例子里的这段记录是,按HTTP/1.1协议获取URL /1467.html 处的文件。这里的URL是相对地址,已经省去域名部分,所以 /1467.html 指的是博客内页 https://www.badpon.com/1467.html。

服务器返回的常见状态码包括:

200—成功获取文件,一切正常
301—永久转向
302—暂时转向
304—文件未改变,客户端缓冲版本还可以继续使用
400—非法请求
401—访问被拒绝,需要用户名、密码
403—禁止访问
404—文件不存在/没有找到
500—服务器内部错误,通常是程序有问题
503—服务器没有答应,如负载过大

浏览器类型(User Agent):

Mozilla/5.0+(compatible;+Bytespider;+https://zhanzhang.toutiao.com/)+AppleWebKit/537.36+(KHTML,+like+Gecko)+Chrome/70.0.0.0+Safari/537.36

最后一段显示的是浏览器和用户电脑的一些信息。

例子中这段信息表示用户使用的是:

1、与Netscape兼容的Mozilla浏览器。实际上大部分浏览器User Agent都是用Mozilla/ 为开头,所以并不能区分浏览器。

2、浏览器是Google的Chrome/70。

如果与用户使用的是其他类型电脑或浏览器,在这段时间可能会看到这类代码:

1、Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.0;Masthon;Alexa Toolbar)—傲游浏览器。
2、Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8)Gecko/20210502 Firefox/3.6.8 GBT7.1—火狐浏览器。
3、Mozilla/5.0 (Windows; U; Windows NT 6.1;en-US)AppleWebKit/533.4(KHTML,like Gecko)Chrome/5.0.375 Safari/533.4—Google的Chrome浏览器。
4、Mozilla/4.0(compatible;MSIE 6.0;Windows NT 5.1;SV1;)—微软IE6浏览器。

搜索引擎蜘蛛就相当于一个浏览器,用于表明身份的用户代理就是这段信息。如字节跳动蜘蛛如下表明自己:

(compatible;+Bytespider;+https://zhanzhang.toutiao.com/)

本篇总结

以上就是关于读取网站服务器的log日志文件,它记录了系统和系统的用户之间交互的信息,是自动捕获人与系统终端之间交互的类型、内容或时间的数据收集方法。其中的具体数据信息已经整理出来了,SEO可以根据相关信息分析搜索引擎和用户的一些痕迹。

赞(0) 打赏
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《怎样读取网站服务器的log日志文件?》
文章链接:https://www.badpon.com/2991.html
免责申明:本站部分内容、图片来源于网络,如有侵权,请联系邮箱,本站将及时删除。

觉得文章有用就打赏一下文章作者

微信扫一扫打赏