国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源

西風(fēng) 2024-03-17 14:06:36 來源：量子位

能提疏通方案，還能防患于未然

LLMLight團隊投稿

量子位 | 公眾號 QbitAI

大模型“上路”，干起了交通信號控制（TSC）的活～

模型名為LightGPT，以排隊及不同區(qū)段快要接近信號燈的車輛對路口交通狀況分析，進而確定最好的信號燈配置。

該模型由香港科技大學(xué)（廣州）的研究團隊提出，其背后關(guān)鍵是一個名為LLMLight的框架。

該框架向智能體提供詳細的實時交通狀況，并結(jié)合先驗知識構(gòu)成提示，利用大模型卓越的泛化能力，采用符合人類直覺的推理和決策過程來實現(xiàn)有效的交通控制。

在九個交通流數(shù)據(jù)集上的實驗證明了LLMLight框架的有效性、泛化能力和可解釋性。

具體來說，在真實數(shù)據(jù)集上，LLMLight在所有基準(zhǔn)測試中始終達到了SOTA或與經(jīng)典強化學(xué)習(xí)等方法同等的性能水平，并且擁有比后者更為強大的泛化性。

同時，LLMLight還能在決策時提供背后的分析邏輯，這一可解釋性實現(xiàn)了信號燈控制的透明化。

TSC垂類大模型LightGPT在此任務(wù)上的決策能力顯著優(yōu)于GPT-4。

即便在濟南、杭州、紐約等復(fù)雜路網(wǎng)下，也展示出突出性能。

目前，LLMLight框架、交通信號燈控制垂類大模型LightGPT已開源。

LLM應(yīng)用于TSC有何挑戰(zhàn)？

交通信號控制（TSC）是城市交通管理的重要組成部分，旨在優(yōu)化道路網(wǎng)絡(luò)效率并減少擁堵。

現(xiàn)有的TSC研究主要分為兩類：基于交通工程和強化學(xué)習(xí)的方法。

其中，交通工程方法主要側(cè)重于制定有效的啟發(fā)式算法，根據(jù)車道級交通狀況屬性，動態(tài)調(diào)整交通信號燈配置。然而，這些方法的設(shè)計嚴(yán)重依賴人力及專業(yè)領(lǐng)域知識。

之后，多數(shù)研究便基于深度強化學(xué)習(xí)技術(shù)來應(yīng)對這一任務(wù)，并在各種交通場景中都表現(xiàn)出了卓越的性能。

然而，基于強化學(xué)習(xí)的方法也存在明顯缺點。首先，由于他們的訓(xùn)練數(shù)據(jù)僅涵蓋有限的交通情況，致使其表現(xiàn)出局限的泛化能力，特別是在轉(zhuǎn)移到更大規(guī)模的交通網(wǎng)絡(luò)或在不常見的路況下（例如，極端高流量的情況）。

此外，由于深度神經(jīng)網(wǎng)絡(luò)（DNN）的黑盒特性，基于深度強化學(xué)習(xí)的方法缺乏可解釋性，這使得研究人員很難理解其在某交通狀況下控制行為的背后邏輯。

而當(dāng)今，大語言模型憑借其卓越的零樣本學(xué)習(xí)和泛化能力，它以模仿近似人類的推理過程來解決復(fù)雜任務(wù)，徹底改變了多個領(lǐng)域。

例如在交通控制任務(wù)上，PromptGAT使用LLM生成人類知識，以此來幫助DNN模型理解TSC任務(wù)中的長尾場景（例如極端天氣），旨在彌合現(xiàn)實世界與模擬之間的差距。

不過，雖然現(xiàn)有的研究已經(jīng)開始探索利用LLM作為輔助工具來增強決策，但直接利用LLM作為TSC智能體進行類人決策的潛力還尚未探尋。

具體而言，其有兩個重要挑戰(zhàn)。

第一個挑戰(zhàn)在于如何使LLM能夠理解實時交通動態(tài)并與交通環(huán)境做有效交互。

LLM通常在大規(guī)模自然語言語料庫上進行預(yù)訓(xùn)練，但很少包含非文本的流量數(shù)據(jù)（例如傳感器讀數(shù)和GPS軌跡）。盡管它們具有跨多種任務(wù)和領(lǐng)域的泛化能力，但實時交通數(shù)據(jù)和自然語言之間存在固有差距。

如何為信號燈控制任務(wù)選擇和開發(fā)專有垂類LLM，則是另一個重大挑戰(zhàn)。

首先，通才大模型往往缺乏特定領(lǐng)域的知識，容易出現(xiàn)專業(yè)領(lǐng)域的幻覺問題。盡管GPT-4等最先進的LLM表現(xiàn)出了優(yōu)異的泛化能力，但它們的閉源性質(zhì)和高昂成本并不利于投入到實時TSC任務(wù)及其后續(xù)優(yōu)化中。

因此，訓(xùn)練專門為TSC任務(wù)量身定制的LLM成為了當(dāng)下更優(yōu)的選擇。

如何將LLM應(yīng)用于TSC？

為了應(yīng)對上述挑戰(zhàn)，研究人員提出了LLMLight框架，其旨在整合大語言模型作為智能體，實現(xiàn)交通信號燈控制。

首先該研究將TSC視為部分可觀察的馬爾可夫博弈（Partially Observable Markov Game），其中每個LLM智能體管理一個十字路口的交通燈。

在每個信號切換時間步上，智能體都會收集目標(biāo)路口的交通狀況，并將其轉(zhuǎn)換為人類可讀的文本作為實時觀察。

此外，該研究還結(jié)合了信息量豐富的任務(wù)描述及一條與控制策略有關(guān)的常識知識，以幫助LLM理解交通管理任務(wù)。交通路口的實時狀態(tài)、任務(wù)描述與控制動作空間結(jié)合，形成了指導(dǎo)智能體決策的知識提示。

最后，LLM控制智能體利用思想鏈 (CoT) 推理來確定下一個時間片的最佳交通信號燈配置。

并且該研究還構(gòu)建了一個交通信號燈控制垂類大模型LightGPT來增強LLMLight框架。一方面，提出了模仿學(xué)習(xí)微調(diào)（Imitation Fine-tuning），讓學(xué)生LLM學(xué)習(xí)GPT-4產(chǎn)生的高質(zhì)量決策和推理軌跡。

另一方面，引入了一個由評論家模型指導(dǎo)的策略優(yōu)化（Critic-gudied Policy Refinement）過程，使其評估和改進LLM智能體的控制。

優(yōu)化后的LightGPT可以產(chǎn)生比GPT-4更具成本效益且更有效的控制策略，并在不同流量場景中展現(xiàn)出卓越的泛化能力。

一起來看具體實現(xiàn)方法。

LLMLight框架的構(gòu)建

LLMLight的工作流包括：

交通狀態(tài)觀測特征構(gòu)建：收集交通路口的交通狀態(tài)觀測；
常識知識增強的智能體提示構(gòu)建：組成一則整合了常識知識的提示，用于指導(dǎo)LLM推理出下一時間片最優(yōu)的交通信號燈配置；
智能體的分析推理及決策：LLM使用構(gòu)建的提示進行分析推理決策過程，隨后做出決策。其流程如下圖所示：

這些知識規(guī)定了智能體需要優(yōu)先考慮排隊長度較長的車道，而減弱對距離路口較遠車輛的注意力。形式化地，該研究將智能體提示表示為：

提示符模板的簡要示意如下圖所示：

在智能體的分析推理及決策方面，該研究利用上述提示LLM進行零樣本（Zero-Shot）推理。

其決策過程包含兩個關(guān)鍵步驟：分析推理及決策。

首先，LLM會對所給任務(wù)及常識知識進行理解，并評估各車道的當(dāng)前交通狀況。

隨后，LLM選擇合適的信號燈配置，以允許擁堵最嚴(yán)重的車道通行，從而優(yōu)化交通流量，確保車輛的順暢通過。

通過這種方式，LLMLight不僅可以制定有效的控制策略，還可以為每個決策提供其背后推理邏輯。這會極大有助于建立更具解釋性和透明性的交通控制系統(tǒng)。

LightGPT模型訓(xùn)練

此外，該研究還提出了一種訓(xùn)練方法，以專門優(yōu)化用于交通信號燈控制的LLM——LightGPT。

它主要包括三個階段：

推理軌跡的收集和篩選：首先，該研究收集GPT-4的思維鏈推理軌跡進行模仿學(xué)習(xí)微調(diào)，之后篩選出與長期優(yōu)化目標(biāo)最相符的軌跡以確保數(shù)據(jù)質(zhì)量；
模仿學(xué)習(xí)微調(diào)：利用GPT-4的決策及其推理軌跡對學(xué)生LLM進行訓(xùn)練；
評論家模型指導(dǎo)的策略優(yōu)化：依據(jù)評論家模型的反饋進行微調(diào)，進一步改善LLM的決策過程。

下圖展示了其訓(xùn)練流程：

推理軌跡的收集和篩選

利用上述方法構(gòu)建的提示，該研究首先讓GPT-4與模擬交通環(huán)境進行交互，并收集其推理軌跡。

為了確保所收集數(shù)據(jù)的質(zhì)量，研究人員篩選出與交通信號燈控制的長期目標(biāo)最相符軌跡（如最小化未來的排隊長度）。這種篩選操作通過與一個預(yù)訓(xùn)練的動作-價值網(wǎng)絡(luò)（Action-Value Network）的對齊來實現(xiàn)。

模仿學(xué)習(xí)微調(diào)

這一階段，首先研究人員采用了一種模仿學(xué)習(xí)過程，令學(xué)生LLM基于GPT-4的決策及其推理軌跡進行訓(xùn)練。

評論家模型指導(dǎo)的策略優(yōu)化

為進一步提高LLM控制策略的有效性，研究人員提出了一種策略優(yōu)化方法，通過調(diào)整LLM的推理軌跡以得出更合理的控制決策。

類似的，該研究繼續(xù)使用上述預(yù)訓(xùn)練的動作-價值函數(shù)作為評論家模型，以評估由LLM選擇的控制動作。隨后，利用一種對齊微調(diào)算法來調(diào)整推理軌跡，最終引導(dǎo)LLM采取產(chǎn)生更高未來獎勵的決策。

該方法效果如何？

實驗階段，該研究使用了五個真實世界流量數(shù)據(jù)集，其中包括了來自濟南和杭州的數(shù)據(jù)。

此外，還利用了兩個在紐約更大的路網(wǎng)下采集的數(shù)據(jù)，以測試不同方法的在大型路網(wǎng)下的可擴展性。

為了測試在長尾情況下的泛化性，研究人員還合成了兩個額外的數(shù)據(jù)集，模擬了極端擁堵的路況。

該研究使用了平均旅行時間（ATT），路口平均隊列長度（AQL），以及路口平均等待時間（AWT）作為評價指標(biāo)。

以下是具體的實驗結(jié)果。

總體性能比較

實驗結(jié)果表明，配備了LightGPT的LLMLight在所有基準(zhǔn)測試中始終達到了SOTA或與經(jīng)典方法同等的性能水平。

盡管Advanced-CoLight（當(dāng)前最先進的強化學(xué)習(xí)方法）在杭州數(shù)據(jù)集上表現(xiàn)優(yōu)于LLMLight（LightGPT），但它的決策需要依賴與鄰近路口之間的通信。

值得一提的是，LLMLight（LightGPT）僅利用當(dāng)前路口的觀測特征就展現(xiàn)出強有競爭的結(jié)果，表明了其決策顯著的有效性。

對于由通用型大模型驅(qū)動的LLMLight，研究人員觀察到GPT-4表現(xiàn)最為出色，并展示出與最先進強化學(xué)習(xí)方法相當(dāng)?shù)男Ч?/p>

同時Llama2-70B和13B分別獲得第二和第三名，這表明LLM在交通信號控制任務(wù)中也遵循了規(guī)?；桑╯caling law）。

令人驚訝的是，ChatGPT-3.5的表現(xiàn)最不理想。

泛化性的比較

該研究首先測試了不同方法的可遷移性。標(biāo)有“-T”的模型是在不同的道路網(wǎng)絡(luò)上預(yù)訓(xùn)練得到的（例如，使用在濟南預(yù)訓(xùn)練的模型在杭州數(shù)據(jù)集上評估可遷移性）。反之則在相同的數(shù)據(jù)集上進行訓(xùn)練和測試。

該研究觀察到強化學(xué)習(xí)方法在遷移后性能明顯下降，尤其在濟南1和杭州1數(shù)據(jù)集中表現(xiàn)尤為明顯。相反，LLMLight（LightGPT）始終表現(xiàn)出優(yōu)越的性能，并在所有數(shù)據(jù)集上展現(xiàn)出優(yōu)異的可遷移性。

之后該研究分析了不同方法的可擴展性，測試它們在應(yīng)用于規(guī)模更大的路網(wǎng)時的性能。

可以觀察到，大多數(shù)強化學(xué)習(xí)方法發(fā)生了顯著性能下降，甚至表現(xiàn)出比啟發(fā)式方法Maxpressure更差的性能。雖然最先進的強化學(xué)習(xí)方法在平均旅行時間（ATT）上與LLMLight（LightGPT）相當(dāng)，但值得注意的是，它們的決策會導(dǎo)致最高延長57.80%的等待時間（AWT）。

這一結(jié)果表明，強化學(xué)習(xí)方法側(cè)重于優(yōu)化排隊車輛的總數(shù)，但可能會以犧牲少部分隊列的等待時間為代價。

在實際場景中，等待時間的重要性不容忽視。相比之下，LLMLight可以同時確保最短的旅行時間和等待時間，體現(xiàn)了其拓展到規(guī)模更大的路網(wǎng)時的優(yōu)良的可擴展性和適用性。

最后該研究為了探討了在極端擁堵情況下不同模型的性能，在濟南和杭州的路網(wǎng)上生成了兩個合成交通流數(shù)據(jù)集，其流量相比原始數(shù)據(jù)集增加了約四倍。

與可擴展性實驗類似，強化學(xué)習(xí)方法也表現(xiàn)出顯著的性能下降，表現(xiàn)出比Maxpressure更差的結(jié)果。

相比之下，LLMLight（LightGPT）始終表現(xiàn)出卓越的性能，體現(xiàn)了其在更加繁重的交通條件下的穩(wěn)健性和實用性。

可解釋性分析

為了評估LLMLight的可解釋性，研究人員在杭州數(shù)據(jù)集上進行了一個案例模擬。

在這個模擬場景中，北部路段出現(xiàn)了嚴(yán)重?fù)矶拢憩F(xiàn)為排隊的車輛出現(xiàn)積壓。

下圖詳細展示了LightGPT在此路況下的推理分析過程。

它以理解任務(wù)開始，并分析目標(biāo)交叉口的交通情況以進行決策推理。隨后，它明確信號燈NLSL為最優(yōu)的選擇。

與強化學(xué)習(xí)方法不同，LLMLight不僅在制定有效的控制策略方面表現(xiàn)出色，而且還能為每個決策提供其背后的詳細解釋。這一獨特特征增強了LLMLight的透明度和可解釋性，有助于研究人員更全面地理解其決策行為。

最后，研究人員表示，LLMLight的下一步研究將著眼于融合多模態(tài)信息及群體協(xié)同。

多模態(tài)大模型可以直接從端到端地提取路口的交通擁堵信息，使模型能夠自行探索可用的視覺特征，進而自我優(yōu)化出更優(yōu)的決策。

而群體協(xié)同則能夠?qū)崿F(xiàn)臨近路口、車輛和智能體之間的信息交換，從而獲得全局信息，最終達到優(yōu)化整體路網(wǎng)的交通效率的目的。

論文鏈接：https://arxiv.org/abs/2312.16044
代碼鏈接：https://github.com/usail-hkust/LLMTSCS
主頁鏈接：https://gungnir2099.github.io/LLMLight-Page/
模型權(quán)重鏈接：https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)注我們，第一時間獲知前沿科技動態(tài)

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

AI 交通大模型

西風(fēng)

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源

LLM應(yīng)用于TSC有何挑戰(zhàn)？

如何將LLM應(yīng)用于TSC？

LLMLight框架的構(gòu)建

LightGPT模型訓(xùn)練

該方法效果如何？

總體性能比較

泛化性的比較

可解釋性分析

相關(guān)閱讀

首個大模型教育產(chǎn)品開箱：“最聰明”國產(chǎn)大模型加持的學(xué)習(xí)機，質(zhì)變了嗎

中國殺出全球首個烹飪大模型

用上AI后，銀行每年竟然能多賺1萬億美元丨麥肯錫最新調(diào)查報告

想不到！智能運維的正確姿勢：從臨場救火到淡然飲茶

長文本信息準(zhǔn)確率超過ChatGPT，Meta提出降低大模型幻覺新方法

別拿大模型當(dāng)「AI焦慮癥」唯一解

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

国产冒白浆视频,抱着cao才爽免费视频,胸大美女又大又黄的网站,中文国产日韩欧美二视频,亚洲日本国产综合高清,又大又粗又硬又硬免费日批视频 ,国产二区不卡自拍,777免费人成影院,亚洲成AⅤ人网站,香蕉网站永久在线视频

AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源

LLM應(yīng)用于TSC有何挑戰(zhàn)？

如何將LLM應(yīng)用于TSC？

LLMLight框架的構(gòu)建

LightGPT模型訓(xùn)練

該方法效果如何？

總體性能比較

泛化性的比較

可解釋性分析

相關(guān)閱讀

首個大模型教育產(chǎn)品開箱：“最聰明”國產(chǎn)大模型加持的學(xué)習(xí)機，質(zhì)變了嗎

中國殺出全球首個烹飪大模型

用上AI后，銀行每年竟然能多賺1萬億美元丨麥肯錫最新調(diào)查報告

想不到！智能運維的正確姿勢：從臨場救火到淡然飲茶

長文本信息準(zhǔn)確率超過ChatGPT，Meta提出降低大模型幻覺新方法

別拿大模型當(dāng)「AI焦慮癥」唯一解

熱門文章

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度

AI大模型控制紅綠燈，港科大（廣州）智慧交通新成果已開源

LLM應(yīng)用于TSC有何挑戰(zhàn)？

如何將LLM應(yīng)用于TSC？

想不到！智能運維的正確姿勢：從臨場救火到淡然飲茶

長文本信息準(zhǔn)確率超過ChatGPT，Meta提出降低大模型幻覺新方法

標(biāo)準(zhǔn)化3D生成質(zhì)量榜單來了！首創(chuàng)層次化評價體系，告別“誰的demo更吸睛”主觀評估

宇樹機器人“撞人逃逸”火到國外，王興興回應(yīng)：下次不遙控了

一周六連發(fā)！昆侖萬維將多模態(tài)AI卷到了新高度

讓AI創(chuàng)作不千篇一律，提示詞隨機插詞匯就行

賣酒的茅臺要學(xué)AI了！和奔馳麥當(dāng)勞一起拜師百度