Hello World
今天母亲节,祝全天下母亲,节日快乐!!
今天母亲节,祝全天下母亲,节日快乐!!
域名大家并不陌生,上网的人,每天都在自己的浏览器里输入网站的域名,访问各种网上信息。
可是,还有很多人,每天都在查询域名是否已注册、抢注域名,这种场景,有点像,各个企业之间争先抢注商标、抢注公司名称一样。
查询域名是否注册,已经有很多网站支持了,比如Namecheap、GoDaddy等等。
但是这些网站一个个查询太费事,效率太低了,于是我研究了一下,如果从源头查询、如何批量自动查询呢?
每一个域名后缀(如 .com、.org)都有一个管理它的域名注册局,而 Godaddy 等我们通常使用的平台是域名注册商,他们是注册局的代理商。有趣的是,有些注册局并不直接管理域名,而是外包给其他公司,这些公司也同时扮演着注册商的角色。
一些提供域名注册服务的网站实际上只是某些注册商的代理。
域名注册数据存储在 Whois 服务器中,它们是一个无需注册、公开可查询的数据库。IANA(Internet Assigned Numbers Authority)维护着顶级 Whois 服务器。例如,whois.iana.org,存储着注册局的信息。
每一个 Whois 服务器通过 Socket 连接到 43 端口,输入域名即可返回详细信息。为了获取一个域名(如 google.com)的 Whois 信息,你可以首先访问 IANA 的服务器。
假设我们需要查询 google.com 的信息,可以通过以下步骤:
.com
并回车。同样,通过输入 ai
可以找到 ai 域名后缀的 Whois 服务器是 whois.nic.ai。
了解到足够的服务器信息后,您可以使用它们进一步查询注册局的 Whois 服务器获取更详细的域名信息。
通过学习以上内容,你可以熟练地查询全球数千种域名后缀的注册信息,掌握域名查询的核心技能。
过去 20 年,几次科技浪潮,让人们意识到,赶上趋势,抓住科技发展新机遇,对自身发展至关重要。随着大模型的爆发,人们趋之若鹜,都不愿意错过时代发展的红利和机遇。那么如何开始学习 AI,开始大模型领域知识的学习呢?
本系列文章,从我自身经验讲起,总结过去一段时间的学习内容,供有兴趣的人参考。
说明:本文部分内容是我学习 AGIClass,孙志岗老师的大模型全栈课的相关笔记。如果读者有兴趣可以去学习原版课程内容。在此,我也特别强烈的推荐孙志岗老师的相关课程。
在这个AI快速发展的时代,我们经常听到AGI、大模型、ChatGPT这些词汇。作为技术从业者或对AI感兴趣的朋友,你可能会问:我该如何参与这场技术革命?
AGI(Artificial General Intelligence)中文译为「通用人工智能」。是具备超越人类智能的 AI。
实现 AGI 是所有 AI 核心厂商的共同目标。其他人的期望:
AGI 多久会到来?
AGI 时代,AI 无处不在,形成新的社会分层:
越向下层,重要性越高,从业人数越少。
三懂:
争取三懂,至少两懂,无论如何要懂 AI。所以有三种人:
建议:
「深蓝」的创造者许峰雄曾和孙志岗面对面说过:「AI is bullshit。深蓝没用任何 AI 算法,就是硬件穷举棋步。」
一种观点:基于机器学习、神经网络的是 AI,基于规则、搜索的不是 AI。
大模型(Large Language Model,简称LLM)的能力远超出了简单的对话。以下是一些典型应用场景:
用 AI,要用「用人思维」:
英伟达 CEO 黄仁勋 2024 年 6 月 2 日在 Computex 上的演讲提到各种模态数据的统一支持:
其实,它只是根据上文,猜下一个词(的概率)……
OpenAI 的接口名就叫「completion」,也证明了其只会「生成」的本质。
下面用程序演示「生成下一个字」。你可以自己修改 prompt 试试。还可以使用相同的 prompt 运行多次。
1 | from openai import OpenAI |
开心,
因为我很期待明天
明天是个全新的一天
有数不尽的可能性等着我
我可以充满激情地迎接新的挑战
我可以抓住每一次机会
让自己变得更强大
我可以满怀希望地面对未来
相信自己能够实现梦想
今天的快乐会成为明天的动力
让我更加勇敢地追求美好的生活
无论遇到什么困难
我都会坚持不懈
勇敢前行,努力奋斗
因为明天的希望就在前方
我相信明天会更加美好
所以今天,我感到无比幸福和满足。
训练和推理是大模型工作的两个核心过程。
用人类比,训练就是学,推理就是用。学以致用,如是也。
例如,有下面训练数据:
「AI」之后出现「技」的概率大于其它字。这些字之间的概率关系,就是大模型训练时学到的。
用不严密但通俗的语言描述原理:
Token 是什么?
架构 | 设计者 | 特点 | 链接 |
---|---|---|---|
Transformer | 最流行,几乎所有大模型都用它 | OpenAI 的代码 | |
RWKV | PENG Bo | 可并行训练,推理性能极佳,适合在端侧使用 | 官网、RWKV 5 训练代码 |
Mamba | CMU & Princeton | 性能更佳,尤其适合长文本生成 | GitHub |
Test-Time Training (TTT) | Stanford, UC San Diego, UC Berkeley & Meta AI | 速度更快,长上下文更佳 | GitHub |
目前只有 transformer 被证明了符合 scaling-law。
OpenAI 首席科学家 Ilya Sutskever 说过:
数字神经网络和人脑的生物神经网络,在数学原理上是一样的。
所以,我们要:
凯文·凯利,和孙志岗老师,都提到过类似的观点:「和人怎么相处,就和 AI 怎么相处。」
当什么人呢?
这是贯彻整门课的心法,乃至我们与 AI 相伴的人生的心法。
Agent 模式还太超前,Copilot 是当前主流。
实现 Copilot 的主流架构是多 Agent 工作流
当人看:努力学习考试内容,长期记住,活学活用。
面对一个需求,如何开始,如何选择技术方案?下面是个不严谨但常用思路。
其中最容易被忽略的,是准备测试数据
值得尝试 Fine-tuning 的情况:
凡是问「哪个大模型最好?」的,都是不懂的。
不妨反问:「有无论做什么,都表现最好的员工吗?」
基础模型选型,合规和安全是首要考量因素。
需求 | 国外闭源大模型 | 国产闭源大模型 | 开源大模型 |
---|---|---|---|
国内 2C | 🛑 | ✅ | ✅ |
国内 2G | 🛑 | ✅ | ✅ |
国内 2B | ✅ | ✅ | ✅ |
出海 | ✅ | ✅ | ✅ |
数据安全特别重要 | 🛑 | 🛑 | ✅ |
然后用测试数据,在可以选择的模型里,做测试,找出最合适的。
为什么不要依赖榜单?
经常访问github看代码,默认的页面,看代码肯定是非常不方便的。
以前,我为了解决这个问题,都是把代码git clone到本地,然后打开vscode或cursor,详细的阅读代码。
现在,我发现了几个神器……
当你访问一个github代码,如 https://github.com/aaa/bbb/ , 那么把url改成 https://github.dev/aaa/bbb/ ,哈哈,你看看,是不是界面和vscode一样了
还有一个方法,就是改成github1s.com。
github.dev
(GitHub 官方在线编辑器)github.com
改成 github.dev
1 | https://github.com/用户名/仓库名 → https://github.dev/用户名/仓库名 |
gitpod.io
(GitPod 在线 IDE)gitpod.io/#
1 | https://github.com/用户名/仓库名 → https://gitpod.io/#https://github.com/用户名/仓库名 |
codesandbox.io
(CodeSandbox 在线环境)stackblitz.com
(StackBlitz 在线 IDE)stackblitz.com/github/
1 | https://github.com/用户名/仓库名 → https://stackblitz.com/github/用户名/仓库名 |
github.com
为 github.dev
(最简单,无需登录额外服务)。 gitpod.io/#
前缀)。 试试看,是不是你想要的?如果是其他场景,可以再补充说明! 😊