演算法的反覆運算更新層出不窮。在應用層面,各大模型本身已經可以實現快問快答,作為個人使用的AI助手來幫助解決問題。此外,各模型也可以作為API介面,作為輔助生產工具,應用在各個領域。
與決策式AI不同,生成式AI可以用於生成各種各樣的媒體流,比如圖像,音樂,視頻等等。另一方面,生成式AI和機器學習的融合,也顛覆了各個行業的運行範式, 使得所有重複性的工作都有可能被AI替代。Photoshop無需再被初級繪圖師學習,普通的知識性問詢能夠被大模型輕鬆解決,甚至是複雜的數學題和程式設計任務也可以被無誤完成。
漸漸地AI演化成,可以不僅僅執行單個簡單任務,而是一連串的複雜任務。隨著AI 被用來生成人的動作,語言,情感,藥物,蛋白質的結構, “解放生產力”離人類越來越近 ..
01. 神經網路的開端與發展
1943年,美國神經科學家麥卡洛克(Warren McCulloch)和邏輯學家皮茨(Water Pitts)提出神經元的數學模型。他發表的《神經活動中內在思想的邏輯演算》(A Logical Calculus of Ideas Immanent in Nervous Activity)論文被視為人工智慧學科的奠基石。現在大熱的「深度學習」,前身是人工神經網路,而其基礎就是神經元的數學模型。人工神經網路的早期研究在1969年進入了長期停滯期,因為人們發現之前提出的感知器模型無法有效解決非線性問題。此後,被譽為”深度學習之父”的傑佛瑞·辛頓(Geoffrey Hinton)重新將這一研究推向前沿。
2014年,伊恩·古德費洛等人提出生成對抗網路(Generative Adversarial Network,簡稱GAN)。作為非監督式學習的一種方法,GAN通過兩個神經網路相互博弈的方式進行學習,使得生成的圖像細節更加逼真,同時可以在圖像編輯方面實現資訊補全,比如根據 2D 資料生成 3D 模型,將低解析度圖像轉換為高解析度圖像,或將黑白圖像轉換為彩色圖像等。
神經網路作為最經典的演算法模型,經歷了諸多演變。多年來,其他演算法的研究層出不窮,包括決策樹、隨機森林演算法、邏輯回歸、SVM、樸素貝葉斯、K最近鄰演算法、K均值演算法、Adaboost演算法、神經網路、瑪律可夫等等,在監督學習和無監督學習的方向上都有了多次反覆運算。
02. AI 目前所經歷的階段
1.早期階段(1950s – 1960s):出現專家系統、博弈論、機器學習初步理論。
2.知識驅動時期(1970s – 1980s):專家系統、知識表示、自動推理得到發展。
3.統計學習時期(1990s – 2000s):機器學習演算法如決策樹、支援向量機、貝葉斯方法等興起。
4.深度學習時期(2010s – 至今):深度神經網路、卷積神經網路、迴圈神經網路等技術廣泛應用。
2000年後,深度學習慢慢開始在影像識別、尤其是手寫數位辨識上嶄露頭角。
• 2007年,IBM開發Watson,作為能夠使用自然語言(NLP)來回答問題的AI系統,期待能用自然語言來理解患者的電子病歷,然後自動檢索資料庫,找尋適合的治療方案和最新醫學文獻,最終得出病名並提供給醫生參考;• 2014年,上述提到的機器(化名為Eugene Goostman)成功通過圖靈測試;• 2016年,Google的AlphaGo透過自我對弈,進行深度學習,並擊敗頂尖職業棋士李世乭(九段),正式揭開AI打敗人類的里程碑;• 2018 年 7 月,DeepMind 在「雷神之錘 III 競技場」(Quake III Arena)奪旗遊戲和人類隨機組隊打團戰,擊敗了人類玩家。
03. 深度學習與自然能語言處理
Yann LeCun 是一名法裔美國電腦科學家,在1989~1998年間發表了許多關於CNN的研究,為現代CNN架構打下堅實的基礎,因此被稱為卷積神經網路之父。作為 2018 年的圖靈獎得主之一,他與傑佛瑞・辛頓(Geoffrey Hinton)、約書亞・本吉奧(Yoshua Bengio)一起被譽為 “深度學習三巨頭”。
2012年,在Imagenet圖像識別大賽中,Hinton組的論文《ImageNet Classification with Deep Convolutional Neural Networks》中提到的Alexnet引入了全新的深層結構和dropout方法,一下子把錯誤率從25%以上提升到了15%,顛覆了圖像識別領域之後,CNN開始蓬勃發展。
CNN和DNN(深度神經網路,可以理解為有很多隱藏層的神經網路。)的發展拉動了整個機器視覺的廣泛應用,比如無人駕駛,面部識別,自動控制,信號處理等領域。
自然語言處理的研究始於1950年代。2011年以來,深度學習技巧在自然語言處理方面層層突破,例如語言模型、語法分析等等。在2017年, 穀歌大腦團隊發表論文 “Attention Is All You Need”,將Attention的思想發揮到極致。該論文提出的Transformer模型,基於encoder-decoder架構,拋棄了傳統的RNN、CNN模型,僅由Attention機制實現。並且由於encoder端採用平行計算,訓練時間大大縮短。
Transformer模型廣泛應用於NLP領域,機器翻譯、文本摘要、問答系統等等。在Google學術搜尋上索引的出版物的標題, 自然語言處理標記化(Tokenization)從最高頻率到最低頻率對搭配進行排序。Transformer將資料間的關係視為重要變數,通過對特定資訊給予更多”關注”,它可以學習資料之間的複雜關係和模式,捕捉更多重要資訊,從而產生更高品質的輸出結果。
04. GPT模型的問世和競爭
GPT 1.0首次於2018年發佈。2021年1月,OpenAI發佈了文本生成圖像的模型 DALL-E。和GPT 3一樣,DALL·E也是基於Transformer的語言模型,它同時接受文本和圖像資料並生成圖像。2022 年 11 月 30 日,OpenAI 推出了 ChatGPT 3.5,拉開了算力基建的序幕。僅僅花了5天時間,ChatGPT的註冊用戶數量達到100萬,創了互聯網歷史紀錄。兩個月後,2023年1月,ChatGPT的月活用戶數量達到1億。
2012年,Imagenet圖像識別大賽中,該公司的 300 多名員工(資料截止到 2023 年 1 月)中有許多來自穀歌和 DeepMind 的母公司 Alphabet。資料顯示,OpenAI 目前雇傭了約 59 名穀歌前員工和約 34 名 Meta 前員工,同時包括幾名蘋果和亞馬的前遜員工。
在GPT橫空出世的這兩年多裡,各大雲服務及模型廠商爭先競賽,比拼大模型的效果和優化能力。其中的幾家主要模型廠商發佈的模型進度如下。
OpenAI GPT-3:發佈於2020年,是一個具有1750億參數的語言模型,廣泛應用于文本生成、翻譯、問答等任務。GPT-4:發佈於2023年,進一步提升了模型的能力,支援更複雜的任務和更長的上下文處理。
Google BERT:發佈於2018年,是一種雙向編碼器表示的變換器模型,廣泛用於自然語言理解任務。PaLM:發佈於2022年,具有5400億參數,是Google迄今為止最大的語言模型,專注於提高語言理解和生成能力。Gemini:發佈於2023年,進一步提升了多模態處理能力。
Meta (Facebook) LLaMA:發佈於2023年,是一種羽量級的大模型,旨在提供高效的語言處理能力。LLaMA 2:發佈于2024年,增加了參數規模和多模態處理能力
微軟 Turing-NLG:發佈於2020年,是一個具有170億參數的生成模型,用於增強微軟的語言處理能力。Turing-Next:後續版本在2022年推出,進一步優化了模型性能和應用場景。
Anthropic Claude:發佈於2023年,是一個專注於安全性和倫理的語言模型,旨在提供更安全的人工智慧服務。
05. DeepSeek 破冰
2025年1月20日,深度求索(DeepSeek)發佈DeepSeek-R1模型,專門適用於數學、編碼和邏輯等任務,性能對標OpenAI o1。由於Deepseek在MoE,KV cache,模型蒸餾,負載均衡,甚至是H800效能方面的極致探索,使得DeepSeek-R1的API定價僅為OpenAI o1模型運行成本的3%,從此拉開了各大模型廠商API競相降價的序幕。
API的計價方式以token為單位。其中,一個英文字母約為0.3 token,一個中文字母約為0.6 -1 token,通常一輪對話需要消耗的幾百左右的token,一段需要思維鏈的問答可能消耗過萬token。
調用模型時產生的費用 = 輸入調用消耗量 ×輸入單價 + 輸出調用消耗量 ×輸出單價,如果需要聯繫上下文,則會將上下文的token一併計算。開啟 Context Cache 模式時,使用者的請求被系統判斷是否命中了 Cache,被命中的 Token 會按照 cached_token 來計費,cached_token的單價為input_token單價的40%。然而,上下文緩存的命中概率並不是100%,即使是上下文完全一致的請求,也存在無法命中的概率,命中概率依據系統判斷而定。
科學家Yann LeCun 評價,Deepseek模型的成功並不僅是中國的成功,而是開源模型的成功,每個人都會因此受益。DeepSeek 於 2025 年 1 月又發佈了最新的開源 LLM DeepSeek-R1,專為邏輯推理、數學推理和即時問題解決而設計。
“鯰魚效應”顯現。繼Deepseek R1 (Deepseek-Reasoner) 推出超高性價比的0.14美元輸入/2.19美元輸出API每百萬Token之後,另一家國內AI創業公司MiniMax(稀宇)也於1月15日推出MiniMax-Text-01,基準測試結果顯示,性能比肩GPT-4o和Claude-3.5,價格為輸入每百萬Token 0.2美元,輸出每百萬Token 1.1美元,和DeepSeek-V3幾乎持平。在4月25日的百度AI開發者大會上,發佈了文心大模型4.5 Turbo和X1 Turbo。4.5 Turbo每百萬token的輸入價格相當於0.11 美元,輸出價格0.44美元,為 DeepSeek-V3的40%;X1 Turbo輸入價格相當於每百萬token 0.14美元,輸出價格0.55美元,僅為DeepSeek-R1的25%。
06. 主流模型競相角逐
目前市場上的主流開源模型有:Deepseek, LLaMA,元寶,豆包等。閉源模型有: GPT,Claude,Gemini,Mistral,Grok等。各個模型從性能比拼的戰場,又轉戰到了價格比拼的賽道。即使是這樣,各個模型廠商向前探索的腳步並未停止,從文字到多模態,各家模型在細分賽道上越來越卷“細節”。比如GPT-4o就可以直接理解語音和視覺輸入,並在語音的模式下即時交互,還可以根據指令精准生成電影畫質的圖像。
2025年2月2日,OpenAI 發佈 Deep Research ,成為繼 Computer-Using Agent (CUA) 的新模型驅動的Operator之後的下一個agent。Deep Research更像是你的研究助理,在 ChatGPT 裡啟動 Deep Research 模式,告訴它你想知道什麼(比如:「幫我研究並擬定某產品的宣傳策略」),它就會自動上網搜索並分析數百份資料,然後生成一份詳細的報告,連引用來源都標注得清清楚楚。根據官方測試顯示,Deep Research 在多項公開評估中創下新高紀錄。比如在綜合性難題測試 「人類的最後考驗」(Humanity’s Last Exam) 中,取得 26.6% 的正確率,遠高於開源對手模型 DeepSeek-R1 的 9.4%,以及最近推出的推理模型 o3-mini-high 的 13%。
4月29日,OpenAI又在ChatGPT上新增購物功能,包含推薦精選商品與購買按鈕,將使用者對於產品的搜索引流至推薦的購物網站上消費。時至今日,大模型逐步突破服務的邊界,越來越接近一個真正的全方位助手,集成了多個APP的功能為一體,讓使用者可以直接通過與模型對話,進行學習,辦公,購物,辦理一切事物…