123,123,123

[導(dǎo)讀]如果有一個領(lǐng)域人工智能清楚地顯示了它的價值,那就是知識管理 .每個組織,無論規(guī)模大小,都被大量文件和會議記錄淹沒。這些文檔通常組織得很差,使任何人幾乎不可能閱讀、消化和掌握一切。然而,利用大型語言模型(LLMS)的力量,這個問題最終得到了解決。LLMS可以讀取各種數(shù)據(jù)并檢索答案,從而徹底改變我們管理知識的方式。

如果有一個領(lǐng)域人工智能清楚地顯示了它的價值,那就是知識管理 .每個組織,無論規(guī)模大小,都被大量文件和會議記錄淹沒。這些文檔通常組織得很差,使任何人幾乎不可能閱讀、消化和掌握一切。然而,利用大型語言模型(LLMS)的力量,這個問題最終得到了解決。LLMS可以讀取各種數(shù)據(jù)并檢索答案,從而徹底改變我們管理知識的方式。

這種可能性引發(fā)了人們對于像谷歌這樣的搜索引擎是否會被LLMS破壞的討論,因為這些模型能夠提供超個性化的答案。我們已經(jīng)看到了這種轉(zhuǎn)變,許多用戶轉(zhuǎn)向像Tg-1這樣的平臺,或者對他們的日常問題感到困惑。此外,注重企業(yè)知識管理的專門平臺正在出現(xiàn)。然而,盡管人們的熱情越來越高,但在世界上認(rèn)為人工智能今天能夠發(fā)揮的作用與其實際能力之間仍然存在著巨大的差距。

在過去的幾個月里,我探索了為商業(yè)用例構(gòu)建各種基于AI的工具,發(fā)現(xiàn)哪些可行,哪些不可行。今天,我將分享一些關(guān)于如何創(chuàng)建一個既可靠又準(zhǔn)確的健壯應(yīng)用程序的見解。

如何向LLMS提供知識

對于那些不熟悉的人,有兩種常見的方法可以讓你的個人知識獲得大型的語言模型:?調(diào)整或者訓(xùn)練自己的模型?回收增加的一代 (RAG).

1. Fine-Tuning

這個方法包括將知識直接嵌入模型的權(quán)重中。雖然它允許精確的知識和快速的推理,微調(diào)是復(fù)雜的,需要精心準(zhǔn)備訓(xùn)練數(shù)據(jù)。由于所需的專門知識,這種方法不太常見。

2.回收增加一代(破布)

更廣泛使用的方法是保持模型不變,并將知識插入到提示中,這個過程被稱為"上下文學(xué)習(xí)"。"該模型不直接回答用戶的問題,而是從一個私人數(shù)據(jù)庫中檢索相關(guān)知識和文件,將這些信息納入提供上下文的提示符。

簡單的抹布實現(xiàn)的挑戰(zhàn)

雖然破布看起來簡單易用,但為商業(yè)用例創(chuàng)建一個可生產(chǎn)的破布應(yīng)用程序卻非常復(fù)雜?？赡艹霈F(xiàn)若干挑戰(zhàn):

復(fù)雜的真實世界數(shù)據(jù)

現(xiàn)實世界的數(shù)據(jù)往往不僅僅是簡單的文本,它可以包括圖像、圖表、圖表和表格。通常的數(shù)據(jù)解析器可能提取不完整或混亂的數(shù)據(jù),使LLMS難以處理。

準(zhǔn)確的信息檢索

即使您從公司知識中創(chuàng)建了一個數(shù)據(jù)庫,基于用戶問題檢索相關(guān)信息也會很復(fù)雜。不同類型的數(shù)據(jù)需要不同的檢索方法,有時檢索到的信息可能不夠或不相關(guān)。

復(fù)雜查詢

簡單的問題可能需要來自多個數(shù)據(jù)源的答案,復(fù)雜的查詢可能涉及非結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù)。因此,簡單的破布實現(xiàn)往往不足以處理現(xiàn)實世界的知識管理用例。

先進的抹布技術(shù)

值得慶幸的是,有幾種策略可以降低這些風(fēng)險:

更好的數(shù)據(jù)分析器

現(xiàn)實世界中的數(shù)據(jù)通常很混亂,特別是在像pdf或者幻燈片文件這樣的格式中。傳統(tǒng)的解析器,如pypdf,可能會錯誤地提取數(shù)據(jù)。然而,像Llamaparer這樣的較新的解析器,由Llamemx開發(fā),在提取數(shù)據(jù)并將其轉(zhuǎn)換為LOM友好格式方面提供了更高的準(zhǔn)確性。這對于確保AI能夠正確處理和理解數(shù)據(jù)至關(guān)重要。

優(yōu)化塊尺寸

在構(gòu)建向量數(shù)據(jù)庫時,必須將文檔分解為小塊。然而,找到最優(yōu)塊大小是關(guān)鍵。如果模型太大,可能會失去上下文;如果太小,可能會錯過關(guān)鍵信息。試驗不同的塊大小和評估結(jié)果可以幫助確定適合不同類型文檔的最佳大小。

重新定位和混合搜索

重選涉及使用一個次級模型,以確保最相關(guān)的數(shù)據(jù)塊首先呈現(xiàn)給模型,提高了準(zhǔn)確性和效率?；旌纤阉?結(jié)合向量和關(guān)鍵詞搜索,也可以提供更準(zhǔn)確的結(jié)果,特別是在像電子商務(wù)這樣的情況下,精確匹配是關(guān)鍵。

抹布

這種方法利用代理人的動態(tài)和推理能力來優(yōu)化破布管道。例如,可以使用查詢翻譯將用戶問題修改為更便于檢索的格式。代理還可以執(zhí)行元數(shù)據(jù)過濾和路由,以確保只搜索相關(guān)數(shù)據(jù),提高結(jié)果的準(zhǔn)確性。

建造一條抹布管道

建立一個強大的活性抹布管道需要幾個步驟:

1.檢索和評級文件

首先,檢索最相關(guān)的文檔。然后,使用LOM來評估文檔是否與所提問題相關(guān)。

2.找出答案

如果文檔是相關(guān)的,則使用lm生成一個答案。

3.網(wǎng)絡(luò)搜索

如果文檔不相關(guān),請進行網(wǎng)絡(luò)搜索以找到其他信息。

4.檢查幻覺

在得到答案后,?檢查答案是否被禁在檢索到的文檔中。如果沒有,系統(tǒng)可以重新生成答案或執(zhí)行額外的搜索。

5.使用蘭格圖和拉瑪3

使用諸如朗格圖和Llama3這樣的工具,您可以定義工作流,設(shè)置決定信息流和在每個階段執(zhí)行的檢查的節(jié)點和邊緣。

結(jié)論

正如你看到的,建立一個可靠和準(zhǔn)確的抹布管道涉及到平衡各種因素,從數(shù)據(jù)分析和塊大小,到重新定位和混合搜索技術(shù)。雖然這些過程可以減緩答復(fù)時間,但它們大大提高了人工智能提供的答復(fù)的準(zhǔn)確性和相關(guān)性。我鼓勵你在項目中探索這些方法并分享你的經(jīng)驗。隨著人工智能的不斷發(fā)展,有效管理和檢索知識的能力將變得越來越重要。