WWW, 全称 World Wide Web(万维网)

什么是万维网

万维网

(英语:World Wide Web)亦作WWWWeb全球广域网,是一个透过互联网访问的,由许多互相链接的超文本组成的信息系统。英国科学家蒂姆·伯纳斯-李于1989年发明了万维网。1990年他在瑞士CERN的工作期间编写了第一个网页浏览器。网页浏览器于1991年1月向其他研究机构发行,并于同年8月向公众开放。——Wikipedia

为什么是万维网——Why web?

请注意,作者在此处有意将互联网(Internet)和万维网(World Wide Web) 的概念分开。从较为严谨(也可以说我是吹毛求疵)的角度来讲:万维网并不等同互联网;万维网只是互联网所能提供的服务其中之一,是靠着互联网运行的一项服务。

两个名词并非相同概念,而是包含关系。这也是我们 A-Level 计算机考试中的高频出题点。

严格来讲,互联网是一种物理层面的概念,指的是全球范围内由计算机组成的互联网络。互联网本身不传输信息,信息的传输是由基于互联网的信息传输协议(Protocol)进行的。互联网仅作为传输信息的载体。

举例说明这一点:我们平时玩的多人在线网络游戏(如英雄联盟、CSGO等)大多使用 UDP 协议,以互联网为载体进行传输。我们使用的电子邮件大多使用 IMAP 协议进行传输。

而”万维网“ 与上面两个提到的例子一样,也是众多信息传输协议的一种。其特指使用“超文本传输协议 (HTTP) 和具有统一资源标志符 URl(广义上可理解为我们常说的链接)在互联网上传输信息的一种模式。

举例说明:我们日常访问的 baidu.com(网页版)、你现在正在(chrisli.xyz)浏览的文章,都是Web的一部分。

那么,为什么是万维网呢?

1.共享

搜索引擎这个概念,各位应该都不陌生。全球几大常见的搜索引擎有:

  • Google(传说中的谷歌)
  • Bing(微软公司)
  • 百度(全球最大中文搜索引擎)
  • Yandex(俄罗斯搜索引擎)
  • DuckDuckGo
  • Yahoo
2023年6月 全球搜索引擎市场份额排名
数据来源:statcounter

如果把万维网比作一个大图书馆,那搜索引擎扮演的角色就是一个管理员。不间断搜集和发现新资源,制作索引(index)并在用户发出询问时提供相关的搜索结果。

2.快捷

万维网上的所有资源都有一个独一无二的”指向器“,URL(Uniform resource locator, 统一资源定位器)即我们常说的链接。

以你现在正在阅读的文章为例,网页URL为:https://www.chrisli.xyz/nonsense/why-web.html

其中,http(s)部分为互联网传输协议;chrisli.xyz是网站的域名 (Domain) ;域名前的www则为一级子域;后面的/nonsense/是网站下“自言自语”的目录名称;why-web.html 是本页面的名称。

子域这个概念很好理解,相当于在当前根域名下的次级域名,并且在功能上几乎能做到完全独立:独立的DNS解析和证书,就相当于完全独立的两个网站了。

例:本站域名 (chrisli.xyz) 目前有以下子域:

  • www.chrisli.xyz (即我的个人博客站);在访问chrisli.xyz会默认进入www.chrisli.xyz
  • oss.chrisli.xyz 我的图床地址,绑定了阿里云OSS作为资源图床
  • home.chrisli.xyz 我的主页地址
  • api.chrisli.xyz 我的个人公开项目部署地址
  • cloud.chrisli.xyz 我的公网云盘地址
  • chatgpt.chrisli.xyz 私有部署chatgpt项目地址

这些子域在服务器上是完全隔离的,指向不同的 cdn 和 ip 地址

在全世界接入互联网的任何一个角落,访问这些域名,都可以直接定位到我的web服务项目;其中图床和博客站由于站点安全保护的目的,部署了cdn服务,因此不会直接定位到服务器的 ip 地址;而是通过cdn服务商的入口进入网站。不过不论走了多少“弯路”,其最终结果和内容是一样的。这便是“便利性”的实现方式

还是举例子:在中国的A读到了我这篇文章,觉得写得很好(),于是决定分享给远在英国的B。此时A需要做的就是复制网址链接,并发送给B,甚至可以指定文章中的位置。而B只需要点击链接就可以查看到与A完全相同的内容。

3.开放

正如前面所说,若是要观阅网站上文章的内容,只需要打开链接就好了。在此之前,你无需下载安装app或是进行注册登录这类操作。这方面好处也可以理解为“快捷” 的一种,但我个人更倾向于把其归类为“开放”这一类别中。

什么是开放?在我看来,可以让使用者不受限制地在搜索引擎中定位到内容,对于阅读和复制不加限制的站点即可真正称为“开放”

以下是几种典型的反例:

  • 要求登录后查看
  • 要求打开APP查看(这是国内厂商最常见的行为)
  • 关注后阅读全文(点名批评CSDN)
  • 付费后查看全文

上面列举的反例基于一个大前提,即为“可被搜索到”,在搜索引擎上能够被查阅的内容。类似微信公众号等平台,虽在技术原理上与万维网完全相同,但由于从来无法在公网搜索引擎上被搜索到,故不认为满足要求。

其次是登录后访问,如微博和淘宝等平台:首先其网站禁止搜索引擎爬虫进行检索和收录,其次即使复制到了链接,在登录前也会被强制重定向到登录界面。遇到这类网站,一般我的处理方案是直接关闭。这也是我“非必要不使用” 淘宝的原因。

还有一种更恶劣的行为,就是为爬虫提供虚假信息。这个问题第一次大规模凸显是源自于年初 Chatgpt 的爆火导致的。有人发现使用微软基于 Chatgpt 打造的 New Bing 搜索中文内容时,经常会出现“一本正经的胡言乱语”现象。其具体表现为正确发现和引用到互联网上的文章,但人工浏览站点内容时会发现与必应给出的回答完全不符。经过研究发现:一些平台为了恶性竞争,在识别到爬虫后故意提供错误的内容和数据,从而造成误导性后果。

也有一些完全不开放的平台,如闲鱼,美团等,已经完全封死了任何web端访问的渠道,并强制要求用户使用APP。

从技术角度分析web的可行性

从目前Web编程的角度来讲,其功能实现几乎没有局限性。打开你的手机淘宝,其实你看到的首页都是使用Web语言编写的。Web 编程在互联网行业中的应用远比你想象的要多得多。

总有人认为 APP 端的功能总是比 Web 齐全,必须承认C++、Java 等广泛使用的编程语言得益于其优秀的性能和特性,可实现更高的运行效率和更加复杂的功能。但差距远没有大家认为的那么夸张...... 这其实是开发者故意打压web,抬高APP端这种行为用户带来的“错觉”。

Github上一个非常有趣的项目——CEF Detector,用于检测电脑上有多少软件使用了Chrome内核。当你打开后会惊讶地发现有许多常用的APP都在其列表中。微信、QQ、Steam、网易邮箱大师、百度网盘等一众常用软件都使用了Chrome内核,这意味着这其中全部都在APP中使用了 Web 编程语言。移动端(手机端)的Web编程化进程实际上要比电脑上还要快的多,所以移动端APP使用Web编程的现象实际上更为广泛。

那么问题来了,使用这些APP你有感觉到明显的卡顿或是性能低下吗?

并没有!

不过实际上,由于Chrome内核较为庞大(编写一个浏览器甚至比一个操作系统还要难)所以占用还是提高了很多的。不过由于近些年消费级产品性能的快速提升,这些多出来的负担很难被察觉到。然而如果你使用一个较为古老的设备,弊病就会很明显了。

总结

总结以上观点,这也是我选择自建博客,并极少在国内社交平台上发表评论和文章的原因。博客园(cnblog.com)也是一个不错的选择,但由于前些年的爬虫事件(曾经因为搜索引擎的网络爬虫导致被误认为DDos攻击),我仍然对其开放性持怀疑态度。国内的类似小红书,公众号,百度等平台我个人更是极为嫌弃的。

中文(简中)互联网的开放程度是远远低于其他语言的。曾经记得在知乎上看到过一篇文章,讲述在训练国产大语言模型时由于找不到优质语料而导致训练效果低下,导致GPT的中文完成度较低。其实互联网上并不缺乏优秀的中文文章作者和评论,但由于国内大厂极其封闭的态度,对优质资源加以垄断,难以在站外平台被发现。这就是“酒香也怕巷子深”

希望互联网平台能尽可能秉承互联网初心,开放、平等、共享地创造更好的简中网络环境

原文于2023年7月15日发表于chrisli.xyz,链接直达

作者 ADMIN_Chris

503 Brain unavailable

订阅评论
提醒
guest
0 评论
内联反馈
查看所有评论
0
希望看到您的想法,请您发表评论x
zh_CN简体中文