探析人工智能应用的蓝图系列之 – 模型算法的演变进程

算法的迭代更新层出不穷。在应用层面,各大模型本身已经可以实现快问快答,作为个人使用的AI助手来帮助解决问题。此外,各模型也可以作为API接口,作为辅助生产工具,应用在各个领域。

与决策式AI不同,生成式AI可以用于生成各种各样的媒体流,比如图像,音乐,视频等等。另一方面,生成式AI和机器学习的融合,也颠覆了各个行业的运行范式, 使得所有重复性的工作都有可能被AI替代。Photoshop无需再被初级绘图师学习,普通的知识性问询能够被大模型轻松解决,甚至是复杂的数学题和程序设计任务也可以被无误完成。

渐渐地AI演化成,可以不仅仅执行单个简单任务,而是一连串的复杂任务。随着AI 被用来生成人的动作,语言,情感,药物,蛋白质的结构, “解放生产力”离人类越来越近 ..

01. 神经网络的开端与发展

1943年,美国神经科学家麦卡洛克(Warren McCulloch)和逻辑学家皮茨(Water Pitts)提出神经元的数学模型。他发表的《神经活动中内在思想的逻辑演算》(A Logical Calculus of Ideas Immanent in Nervous Activity)论文被视为人工智能学科的奠基石。现在大热的「深度学习」,前身是人工神经网络,而其基础就是神经元的数学模型。人工神经网络的早期研究在1969年进入了长期停滞期,因为人们发现之前提出的感知器模型无法有效解决非线性问题。此后,被誉为”深度学习之父”的杰弗里·辛顿(Geoffrey Hinton)重新将这一研究推向前沿。

2014年,伊恩·古德费洛等人提出生成对抗网络(Generative Adversarial Network,简称GAN)。作为非监督式学习的一种方法,GAN通过两个神经网络相互博弈的方式进行学习,使得生成的图像细节更加逼真,同时可以在图像编辑方面实现信息补全,比如根据 2D 资料生成 3D 模型,将低分辨率图像转换为高分辨率图像,或将黑白图像转换为彩色图像等。

神经网络作为最经典的算法模型,经历了诸多演变。多年来,其他算法的研究层出不穷,包括判定树、随机森林算法、逻辑回归、SVM、朴素贝叶斯、K最近邻算法、K均值算法、Adaboost算法、神经网络、马尔可夫等等,在监督学习和无监督学习的方向上都有了多次迭代。

02. AI 目前所经历的阶段

1.早期阶段(1950s – 1960s):出现专家系统、博弈论、机器学习初步理论。

2.知识驱动时期(1970s – 1980s):专家系统、知识表示、自动推理得到发展。

3.统计学习时期(1990s – 2000s):机器学习算法如判定树、支持向量机、贝叶斯方法等兴起。

4.深度学习时期(2010s – 至今):深度神经网络、卷积神经网络、循环神经网络等技术广泛应用。

2000年后,深度学习慢慢开始在影像识别、尤其是手写数字辨识上崭露头角。

• 2007年,IBM开发Watson,作为能够使用自然语言(NLP)来回答问题的AI系统,期待能用自然语言来理解患者的电子病历,然后自动检索数据库,找寻适合的治疗方案和最新医学文献,最终得出病名并提供给医生参考;•  2014年,上述提到的机器(化名为Eugene Goostman)成功通过图灵测试;•  2016年,Google的AlphaGo透过自我对弈,进行深度学习,并击败顶尖职业棋士李世乭(九段),正式揭开AI打败人类的里程碑;•  2018 年 7 月,DeepMind 在「雷神之锤 III 竞技场」(Quake III Arena)夺旗游戏和人类随机组队打团战,击败了人类玩家。

03. 深度学习与自然能语言处理

Yann LeCun 是一名法裔美国计算机科学家,在1989~1998年间发表了许多关于CNN的研究,为现代CNN架构打下坚实的基础,因此被称为卷积神经网络之父。作为 2018 年的图灵奖得主之一,他与杰弗里・辛顿(Geoffrey Hinton)、乔舒亚・本吉奥(Yoshua Bengio)一起被誉为 “深度学习三巨头”。

2012年,在Imagenet图像识别大赛中,Hinton组的论文《ImageNet Classification with Deep Convolutional Neural Networks》中提到的Alexnet引入了全新的深层结构和dropout方法,一下子把错误率从25%以上提升到了15%,颠覆了图像识别领域之后,CNN开始蓬勃发展。

CNN和DNN(深度神经网络,可以理解为有很多隐藏层的神经网络。)的发展拉动了整个机器视觉的广泛应用,比如无人驾驶,面部识别,自动控制,信号处理等领域。

自然语言处理的研究始于1950年代。2011年以来,深度学习技巧在自然语言处理方面层层突破,例如语言模型、语法分析等等。在2017年, 谷歌大脑团队发表论文  “Attention Is All You Need”,将Attention的思想发挥到极致。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模型,仅由Attention机制实现。并且由于encoder端采用并行计算,训练时间大大缩短。

Transformer模型广泛应用于NLP领域,机器翻译、文本摘要、问答系统等等。在Google学术搜寻上索引的出版物的标题, 自然语言处理标记化(Tokenization)从最高频率到最低频率对搭配进行排序。Transformer将数据间的关系视为重要变量,通过对特定信息给予更多”关注”,它可以学习数据之间的复杂关系和模式,捕捉更多重要信息,从而产生更高质量的输出结果。

04. GPT模型的问世和竞争

GPT 1.0首次于2018年发布。2021年1月,OpenAI发布了文本生成图像的模型 DALL-E。和GPT 3一样,DALL·E也是基于Transformer的语言模型,它同时接受文本和图像数据并生成图像。2022 年 11 月 30 日,OpenAI 推出了 ChatGPT 3.5,拉开了算力基建的序幕。仅仅花了5天时间,ChatGPT的注册用户数量达到100万,创了互联网历史纪录。两个月后,2023年1月,ChatGPT的月活用户数量达到1亿。

2012年,Imagenet图像识别大赛中,该公司的 300 多名员工(资料截止到 2023 年 1 月)中有许多来自谷歌和 DeepMind 的母公司 Alphabet。数据显示,OpenAI 目前雇佣了约 59 名谷歌前员工和约 34 名 Meta 前员工,同时包括几名苹果和亚马的前逊员工。

在GPT横空出世的这两年多里,各大云服务及模型厂商争先竞赛,比拼大模型的效果和优化能力。其中的几家主要模型厂商发布的模型进度如下。
OpenAI GPT-3:发布于2020年,是一个具有1750亿参数的语言模型,广泛应用于文本生成、翻译、问答等任务。GPT-4:发布于2023年,进一步提升了模型的能力,支持更复杂的任务和更长的上下文处理。

Google BERT:发布于2018年,是一种双向编码器表示的变换器模型,广泛用于自然语言理解任务。PaLM:发布于2022年,具有5400亿参数,是Google迄今为止最大的语言模型,专注于提高语言理解和生成能力。Gemini:发布于2023年,进一步提升了多模态处理能力。

Meta (Facebook) LLaMA:发布于2023年,是一种轻量级的大模型,旨在提供高效的语言处理能力。LLaMA 2:发布于2024年,增加了参数规模和多模态处理能力

微软 Turing-NLG:发布于2020年,是一个具有170亿参数的生成模型,用于增强微软的语言处理能力。Turing-Next:后续版本在2022年推出,进一步优化了模型性能和应用场景。

Anthropic Claude:发布于2023年,是一个专注于安全性和伦理的语言模型,旨在提供更安全的人工智能服务。

05. DeepSeek 破冰

2025年1月20日,深度求索(DeepSeek)发布DeepSeek-R1模型,专门适用于数学、编码和逻辑等任务,性能对标OpenAI o1。由于Deepseek在MoE,KV cache,模型蒸馏,负载均衡,甚至是H800效能方面的极致探索,使得DeepSeek-R1的API定价仅为OpenAI o1模型运行成本的3%,从此拉开了各大模型厂商API竞相降价的序幕。

API的计价方式以token为单位。其中,一个英文字母约为0.3 token,一个中文字母约为0.6 -1 token,通常一轮对话需要消耗的几百左右的token,一段需要思维链的问答可能消耗过万token。

调用模型时产生的费用 = 输入调用消耗量 ×输入单价 + 输出调用消耗量 ×输出单价,如果需要联系上下文,则会将上下文的token一并计算。开启 Context Cache 模式时,用户的请求被系统判断是否命中了 Cache,被命中的 Token 会按照 cached_token 来计费,cached_token的单价为input_token单价的40%。然而,上下文缓存的命中概率并不是100%,即使是上下文完全一致的请求,也存在无法命中的概率,命中概率依据系统判断而定。

科学家Yann LeCun 评价,Deepseek模型的成功并不仅是中国的成功,而是开源模型的成功,每个人都会因此受益。DeepSeek 于 2025 年 1 月又发布了最新的开源 LLM DeepSeek-R1,专为逻辑推理、数学推理和实时问题解决而设计。

“鲶鱼效应”显现。继Deepseek R1 (Deepseek-Reasoner) 推出超高性价比的0.14美元输入/2.19美元输出API每百万Token之后,另一家国内AI创业公司MiniMax(稀宇)也于1月15日推出MiniMax-Text-01,基准检验结果显示,性能比肩GPT-4o和Claude-3.5,价格为输入每百万Token 0.2美元,输出每百万Token 1.1美元,和DeepSeek-V3几乎持平。在4月25日的百度AI开发者大会上,发布了文心大模型4.5 Turbo和X1 Turbo。4.5 Turbo每百万token的输入价格相当于0.11 美元,输出价格0.44美元,为 DeepSeek-V3的40%;X1 Turbo输入价格相当于每百万token 0.14美元,输出价格0.55美元,仅为DeepSeek-R1的25%。

06. 主流模型竞相角逐

目前市场上的主流开源模型有:Deepseek, LLaMA,元宝,豆包等。闭源模型有: GPT,Claude,Gemini,Mistral,Grok等。各个模型从性能比拼的战场,又转战到了价格比拼的赛道。即使是这样,各个模型厂商向前探索的脚步并未停止,从文字到多模态,各家模型在细分赛道上越来越卷“细节”。比如GPT-4o就可以直接理解语音和视觉输入,并在语音的模式下实时交互,还可以根据指令精准生成电影画质的图像。

2025年2月2日,OpenAI 发布 Deep Research ,成为继 Computer-Using Agent (CUA) 的新模型驱动的Operator之后的下一个agent。Deep Research更像是你的研究助理,在 ChatGPT 里启动 Deep Research 模式,告诉它你想知道什么(比如:「帮我研究并拟定某产品的宣传策略」),它就会自动上网搜索并分析数百份资料,然后生成一份详细的报告,连引用来源都标注得清清楚楚。根据官方测试显示,Deep Research 在多项公开评估中创下新高纪录。比如在综合性难题测试 「人类的最后考验」(Humanity’s Last Exam) 中,取得 26.6% 的正确率,远高于开源对手模型 DeepSeek-R1 的 9.4%,以及最近推出的推理模型 o3-mini-high 的 13%。

4月29日,OpenAI又在ChatGPT上新增购物功能,包含推荐精选商品与购买按钮,将用户对于产品的搜索引流至推荐的购物网站上消费。时至今日,大模型逐步突破服务的边界,越来越接近一个真正的全方位助手,集成了多个APP的功能为一体,让用户可以直接通过与模型对话,进行学习,办公,购物,办理一切事物…