🤖 我們的目標是建立並培育一個全面的項目集合,展示大型語言模型應用的非凡多樣性和潛力。
項目索引:
- 🦄LLMs
- 🏆 基準排行榜
- 💬聊天機器人
- 🗣️語音
- 🎵音樂
- 🌄圖像
- 🧸3D模型
- 🎥視頻
- 🕸️搜索引擎
- 👩🏽💻開發助手
- 🧠AI代理
- 🤼多智能體協作
- 💻終端
- 📰網站
- 🗜️硬件
- ⌨️提示詞工程
- 🤯LLM推理和服務
- 📋其他
*
開頭,意味著該項目既不是開源的,也尚未發布任何應用程序。
- Command-R: Command-R 是一個面向 RAG 和工具使用的可擴展生成模型,旨在為企業啟用生產規模的 AI。
- Grok-1: Grok-1 是由 xAI 從頭開始訓練的 314 億參數混合專家模型。
- Mistral: Mistral AI 發布開源 LLMs,包括 Mistral 7B, Mistral 8x7B。
- DBRX: DBRX 是 Databricks 創建的開放、通用 LLM。
- mPLUG-DocOwl: 用於文檔理解的模塊化多模態大型語言模型。
- OpenChat: 通過不完美數據推進開源語言模型
- WizardLM: 使大型預訓練語言模型能夠遵循複雜指令
- CodeGemma-7b: Google 官方發布的代碼 LLMs。
- Awesome-Chinese-LLM: 包括許多開源中文 LLMs。
- llama3: Meta 新發布的 LLMs。
- Snowflake Arctic: Arctic 是由 Snowflake AI 研究團隊從頭開始預訓練的密集 MoE 混合變換器架構。平均採用編碼(HumanEval+ 和 MBPP+)、SQL 生成(Spider)和指令遵循(IFEval)。
- DeepSeek-V2-Chat: 強大、經濟、高效的專家混合語言模型
- Qwen 1.8B,7B,14B,72B: 阿里雲提出的聊天和預訓練大型語言模型。
- Granite Code Models 3b,8b,20b,34b: Granite Code Models,IBM 的開源代碼模型:代碼智能的開放基礎模型系列
- Hunyuan-DiT: 一種強大的多分辨率擴散變換器,具有細粒度的中文理解能力
- MiniCPM-V 2.0: 一種高效的端側多模態大模型,具有強大的 OCR 和理解能力
- Stable Audio Open 1.0: Stable Audio Open 1.0 從文本提示生成可變長度(最長 47 秒)的 44.1kHz 立體聲音頻。
- Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, and Qwen2-72B: Qwen2 是阿里雲 Qwen 團隊開發的大型語言模型系列。
- GLM-4-9B: GLM-4 系列:開放的多語言多模態聊天大模型
- AutoCoder: 一種為代碼生成任務設計的新模型。其在 HumanEval 基礎數據集上的測試準確率超過了 GPT-4 Turbo(2024 年 4 月)和 GPT-4o。
- Nemotron 4 340B: Nvidia 的開放模型,用於合成數據生成(SDG)。包括基礎、指令和獎勵模型。
- Fish Speech V1.2: Fish Speech V1.2 是一個領先的文本到語音(TTS)模型,訓練了 30 萬小時的英語、中文和日語音頻數據。
- Phi-3 family: Phi-3 系列的小型語言和多模態模型。語言模型提供短上下文和長上下文長度。
- Gemma 2: Gemma 2 提供一流的性能,在不同硬件上以驚人的速度運行,並輕鬆集成其他 AI 工具。
- open_llm_leaderboard: 這是維護開放 LLM 排行榜的中心組織(HuggingFace)。
- LMSys Chatbot Arena Leaderboard: 一個基於眾包的、隨機化的戰鬥平台。使用用戶投票計算 Elo 評分。
- META Leaderboard: 大型文本嵌入基準(MTEB)排行榜。
- LLM-Perf Leaderboard: 旨在使用 Optimum-Benchmark 和 Optimum 口味在不同硬件、後端和優化下基準測試 LLMs 的性能(延遲、吞吐量和內存)。
- Big Code Models Leaderboard: 在 HumanEval 基準和 MultiPL-E 上比較基礎多語言代碼生成模型的性能。
- Open ASR Leaderboard: 在 Hugging Face Hub 上對語音識別模型進行排名和評估。
- Toolbench Leaderboard: LLM 工具操縱能力的評估。
- OpenCompass 2.0 LLM Leaderboard: 為頂級大型語言模型和多模態模型提供全面、客觀和中立的分數和排名。
- Open Ko-LLM Leaderboard: 評估韓國大型語言模型(LLM)的性能。
- ChatGPT: ChatGPT 是一個免費使用的 AI 系統。用它進行引人入勝的對話、獲得洞察、自動化任務,並見證 AI 的未來,所有這些都在一個地方。
- Gemini: Bard 現在是 Gemini。從 Google AI 獲取寫作、計劃、學習等方面的幫助。
- character.ai: 智能代理的所在地!
- Claude: 與來自 Anthropic 的 AI 助手 Claude 對話。
- Mistral AI: Mistral 使前沿 AI 無處不在,並為所有建設者提供量身定制的 AI。
包括文本到語音、語音到文本、語音到語音、生成語音:
- *Vall-E: 一種用於語音合成的神經編解碼器語言模型。
- ElevenLabs: AI 語音生成器 & 文本到語音
- Whisper: 通過大規模弱監督實現強大的語音識別
- Krisp: Krisp 在通話中取消背景噪音並減少回聲。
- Voicemod: Voicemod 是一個免費的實時聲音變換器和聲音板,適用於 Windows 和 macOS。
- *NaturalSpeech 3: 使用因子化編解碼器和擴散模型的零樣本語音合成。
- VoiceCraft: VoiceCraft 是零樣本語音編輯和文本到語音的開源項目。
- Parler-TTS: Parler-TTS 是一個輕量級的文本到語音(TTS)模型,可以以給定發言者的風格(性別、音高、說話風格等)生成高質量、自然聽起來的語音。
- Sounds: Sounds 為創作者、遊戲開發者、藝術家、視頻製作者提供聲音。體驗最佳 AI 聲音 FX 生成器
- VIVA: VIVA 是一個 AI 驅動的創意視覺設計平台
- ChatTTS: ChatTTS 是一個用於日常對話的生成語音模型。
- StreamSpeech: StreamSpeech 是一個“全能”無縫模型,用於離線和同時語音識別、語音翻譯和語音合成。
- Dream Machine: Dream Machine 是一個 AI 模型,可以快速從文本和圖像生成高質量、逼真的視頻。
- CosyVoice: 多語言大規模語音生成模型,提供推理、訓練和部署的全棧能力。
- Suno: Suno 是一個創新工具,旨在利用人工智能從文本輸入創建原創歌曲
- Udio: 創作你的音樂。發現、創作並與世界分享音樂。
- Haimian Music: 由字節跳動推出的 AI 生成音樂產品,提供中文和英文的優質人聲。
- Jamboss: Jamboss 是一個超級簡單的 AI 音樂生成應用程序,可以將您的想法和歌詞變成令人驚嘆的完整歌曲。
包括文本到圖像、圖像到圖像:
- DALL-E: 從文本創建圖像。
- Stable Diffusion: Stable Diffusion 是一個深度學習的文本到圖像模型。
- Midjourney: Midjourney 是一個生成式人工智能程序和服務,它從自然語言描述中創建圖像,類似於其他 AI 技術,如 OpenAI 的 DALL-E 和 Stability AI 的 Stable Diffusion。
- StickerBaker: StickerBaker 是一個開源工具,允許用戶使用 AI 技術創建貼紙。
- *PIXART-Σ: 從弱到強訓練擴散變換器進行 4K 文本到圖像生成。
- ResAdapter: ResAdapter 是一個即插即用的分辨率適配器,使任何風格領域的擴散模型能夠生成分辨率自由的圖像:無需額外訓練、無需額外推理、無需風格轉換。
- FaceChain: FaceChain 是一個深度學習工具鏈,用於生成你的數字孿生。
- APISR: Anime Production Inspired Real-World Anime Super-Resolution (CVPR 2024)
- OMG: Occlusion-friendly Personalized Multi-concept Generation In Diffusion Models: OMG 是一個框架,用於多概念圖像生成
- BasicPBC: 學習包容性匹配以進行動畫填色桶著色。
- DesignEdit: 多層次潛在分解和融合,用於統一和準確的圖像編輯。
- VAR: 一種新的視覺生成方法,將 GPT 風格的模型提升到擴散之上,並觀察到縮放定律。
- Ideogram: Ideogram 是一個免費使用的 AI 工具,可以生成逼真的圖像、海報、標誌等。
- MagicClothing: 專注於可控制的服裝驅動圖像合成。
- *IntrinsicAnything: 學習擴散先驗,用於未知照明下的逆渲染。
- HeyBeauty: 用 AI 發現美,重新定義時尚。
- IC-Light: IC-Light 是一個項目,用於操縱圖像的照明。
- Logo Diffusion: 使用生成式 A.I. 在幾秒鐘內創建標誌。
- MistoLine: 一個多功能且強大的 SDXL-ControlNet 模型,用於適應線條藝術條件
- InstaDrag: 從視頻中出現的基於拖動的圖像編輯
- Omost: Omost 是一個項目,將 LLM 的編碼能力轉換為圖像生成(或更準確地說,圖像合成)能力。
- ToonCrafter: ToonCrafter 可以通過利用預訓練的圖像到視頻擴散先驗來插值兩個卡通圖像。
- Hallo: 用於人像圖像動畫的分層音頻驅動視覺合成
- UniAnimate: 馴服統一視頻擴散模型以實現一致的人像動畫。
- Krea: 使用強大的 AI 免費生成和增強圖像和視頻。
- Leonardo AI: Leonardo AI 是一個生成式 AI 工具,可讓您為您的項目製作頂級視覺資產。
- MimicBrush: 參考模仿的零樣本圖像編輯
- SketchDeco: 用顏色裝飾黑白草圖。
- Tensor.Art: AI 模型共享平台,在線運行模型生成圖像並免費訓練模型。
- AutoStudio: AutoStudio:在多輪交互圖像生成中製作一致的主題
- LivePortrait: 通過縫合和重定目標控制實現高效的人像動畫
- IMAGDressing: 用於虛擬試衣的交互式模塊化服裝生成
- PaintsUndo: 數字繪畫中繪畫行為的基礎模型
包括文本到 3D 模型:
- TripoSR: TripoSR 是一種快速且前饋的 3D 生成模型,由 Stability AI 和 Tripo AI 合作開發。
- PantoMatrix: PantoMatrix: 生成面部和身體動畫
- Gaussian Head Avatar: 通過動態高斯實現超高保真度頭像。
- *Make-It-Vivid: 從文本為你的可動漫化雙足角色著裝。
- *CAT3D: CAT3D:使用多視圖擴散模型創建任何 3D
- DiffTF: 大詞彙量 3D 擴散模型與變壓器
- DreamMat: 使用幾何和光照感知擴散模型生成高質量的 PBR 材質
- Unique3D: 從單個圖像生成高質量和高效的 3D 網格。
- Era3D: 使用高效的行級注意力進行高分辨率多視圖擴散。
- *OccFusion: 使用生成擴散先驗渲染被遮擋的人物
- AIUNI: AI 生成獨特的資產、頭像、動畫。
- MeshFormer: 使用 3D 引導重建模型生成高質量的網格
包括文本到視頻、圖像到視頻、視頻到視頻:
- *Sora: 從文本創建視頻。Sora 是一個 AI 模型,能夠根據文本指令創建現實和富有想象力的場景。
- *Emote Portrait Alive: 在弱條件下使用 Audio2Video 擴散模型生成表情豐富的人像視頻
- Runway: Runway 是一家應用 AI 研究公司,塑造藝術、娛樂和人類創造力的下一個時代。
- HeyGen: HeyGen 是一個創新的视频平台,利用生成式 AI 的力量簡化您的視頻創建流程。
- AniPortrait: 音頻驅動的逼真人像動畫合成
- MuseV: 無限長度和高保真度虛擬人視頻生成,具有視覺條件的並行去噪。
- CameraCtrl: 為文本到視頻生成啟用相機控制。
- Pika: Pika 是將你的創意付諸行動的想法到視頻平台。
- *VASA-1: 實時生成逼真的音頻驅動的說話面孔。
- OpenVoice: MyShell 的即時語音克隆。
- Veo: Veo 是 Google 迄今為止最強大的視頻生成模型。
- AniTalker: 通過身份解耦的面部運動編碼生成生動多樣的說話面孔
- Pandora: 通過自然語言動作和視頻狀態實現通用世界模型
- EasyAnimate: 基於變壓器擴散的高分辨率和長視頻生成的端到端解決方案。
- V-Express: V-Express 旨在在參考圖像、音頻和一系列 V-Kps 圖像的控制下生成說話頭視頻。
- MusePose: 基於姿態驅動的虛擬人生成框架
- Hedra: Hedra 是一個視頻內容生成平台和社交媒體平台,允許個人編輯、導出和分享 AI 生成的視頻和視頻組件。
- MASA: 通過分割任何東西進行匹配
- MotionClone: 用於可控視頻生成的無訓練運動克隆
- MimicMotion: 使用置信度感知姿態引導生成高質量的人體運動視頻
- Video-Infinity: Video-Infinity 使用多個 GPU 快速生成長視頻,無需額外訓練。
- DiffSynth Studio: DiffSynth Studio 是一個擴散引擎。
- SAM 2: Segment Anything Model 2 (SAM 2) 是一個基礎模型,旨在解決圖像和視頻中的可提示視覺分割問題。
包括搜索引擎、網絡瀏覽器:
- Phind: 網絡瀏覽器,根據網絡搜索結果和 LLMs 生成答案,並提供可定制的功能以調整搜索結果來源的權重
- Devv: 下一代開發者用 AI 搜索引擎。在幾秒鐘內解決您的編程問題。
- Perplexity: Perplexity AI 通過信息發現和分享釋放知識的力量。
- Arc: 輕鬆組織您在線上的一切 — 工作、學習、愛好 — 所有這些都在一個窗口中,通過空間和配置文件。
- Perplexica: Perplexica 是一個 AI 驅動的搜索引擎。它是 Perplexity AI 的開源替代品
- Reor: 私密和離線的 AI 個人知識管理應用。
- GitHub Copilot: 實時獲取基於 AI 的建議。
- Codeium: Codeium 提供最佳的 AI 代碼補全、搜索和聊天服務 — 全部免費。它支持 70 多種語言,並與您喜愛的 IDEs 集成,具有閃電般的速度和最先進的建議質量。
- Amazon CodeWhisperer: Amazon CodeWhisperer 是 IDE 和命令行的 AI 驅動生產力工具,根據註釋和現有代碼生成代碼建議。
- Transformer Debugger: Transformer Debugger (TDB) 是 OpenAI 的 Superalignment 團隊開發的工具,旨在支持對小型語言模型的特定行為進行調查。該工具結合了自動可解釋性技術和稀疏自動編碼器。
- CopilotKit: 用於構建自定義 AI Copilots 的框架 🤖 應用內 AI 聊天機器人、應用內 AI 代理和 AI 驅動的文本區域。
- Codium: CodiumAI 的第一個工具是一個 IDE 擴展,能夠與開發人員互動,為忙碌的開發人員生成有意義的測試和代碼解釋。
- Tabby: 自託管的 AI 編碼助手
- CodeRabbit: CodeRabbit 是一個創新的 AI 代碼審查平台,簡化並增強了開發過程。
- Cursor: AI 代碼編輯器。
- Melty: Melty 是第一個 AI 代碼編輯器,能夠從終端到 GitHub 了解您在做什麼,並與您合作編寫生產就緒的代碼。
- AgentGPT: 在您的瀏覽器中組裝、配置和部署自治 AI 代理。
- *Devin: 介紹 Devin,第一個 AI 軟件工程師,並在 SWE-bench 編碼基準上設定了新的最佳水平。
- OpenDevin: 一個能夠執行複雜工程任務並與用戶積極合作進行軟件開發項目的自治 AI 軟件工程師。
- Plandex: 一個用於複雜任務的 AI 編碼引擎。
- Devika: 一個 AI 軟件工程師,能夠理解高級人類指令,將其分解為步驟,研究相關信息,並編寫代碼以實現給定目標。
- Aider: Aider 是您終端中的 AI 對編程。
- Agent Protocol: 與代理通信的單一通用接口
- Devon: 一個開源的對編程夥伴
- PR-Agent: CodiumAI PR-Agent:一個用於自動化拉取請求分析、反饋、建議等的 AI 驅動工具 🤖
- FinRobot: 一個開源的 AI 代理平台,用於使用 LLMs 進行金融應用
- AgentQL: 使用查詢語言構建 AI 代理,以實現精確的網絡和應用自動化
- Husky: 一個統一的開源語言代理,用於多步推理
- Translation Agent: 使用反思工作流進行代理翻譯
- DigiRL: 使用自主強化訓練野外設備控制代理
- MetaGPT: MetaGPT 以一行需求為輸入,並輸出用戶故事 / 競爭分析 / 需求 / 數據結構 / API / 文檔等。
- ChatDev: ChatDev 的主要目標是提供一個易用、高度可定制和可擴展的框架,它基於大型語言模型 (LLMs) 並作為研究集體智能的理想場景。
- TransAgents: 多智能體用於翻譯超長文學文本
- Warp: Warp 是一個工具,旨在通過提供 AI 驅動的命令查找幫助和允許用戶以純英語輸入他們的目標來增強終端體驗。
- Gorilla: Gorilla CLI 以用戶為中心,增強您的命令行交互體驗。
- CodeWhisperer Cli: CodeWhisperer 命令行為數百個流行的 CLIs(如 Git、npm、Docker、MongoDB Atlas 和 AWS CLI)添加了 IDE 風格的補全。以前被稱為 fig。
- Open Interpreter: 計算機的自然語言接口。
- Dora: 輕鬆設計和發布令人驚嘆的 3D 和動畫網站,無需編碼。
- Design2Code: 我們離自動化前端工程有多遠
- Tempo: Tempo 直接在您的代碼庫中生成和編輯高質量的 react 代碼,讓您可以在幾分鐘內發布 UI。
- OpenUI: OpenUI 讓您使用您的想象力描述 UI,然後實時呈現。
- v0: 使用簡單的文本提示和圖像從 shadcn/ui 生成 UI。
- Groq: Groq 的使命是為 GenAI 推理速度設定標準,幫助實時 AI 應用今天就成為現實。
- *LOOI Root: 將您的智能手機變成桌面機器人
- Friend: 開源 AI 可穿戴設備,單次充電可持續 24 小時以上
- insight: 一個樹莓派閒置,構建了一個名為 insight 的 AI 可穿戴設備。
- Limitless: 由您所見、所說和所聽驅動的個性化 AI。
- Frame AI glasses: 開源眼鏡。
- Rabbit R1: 您的口袋伴侶。
- *Haptic Source-effector: 通過非侵入性腦刺激實現全身觸覺
- OpenGlass: 將任何眼鏡變成 AI 驅動的智能眼鏡
- Octo: Octo 是一個基於變壓器的機器人策略,訓練在 80 萬個機器人軌跡的多樣化混合上。
- HumanPlus: 從人類身上模仿和模仿人形機器人
- LeRobot: LeRobot:用於現實世界機器人技術的端到端學習
- Ray-Ban Meta Smart Glasses: Ray-Ban Meta 系列結合了最新的可穿戴技術和正宗的 Ray-Ban 設計,讓您隨時隨地保持連接。
- Solos AirGo Vision: 由 ChatGPT 驅動的音頻智能眼鏡
- Prompt-Engineering-Guide: 提示工程的指南、論文、講座、筆記本和資源。
- Prompt Library: 沃頓商學院的 Dr. Ethan Mollick 和 Dr. Lilach Mollick 的提示詞庫。
- vLLM: 一個用於 LLMs 的高吞吐量和內存高效的推理和服務引擎。
- Text Generation Inference: 大型語言模型文本生成推理
- Ollama: 在本地使用大型語言模型。
- LM Studio: 發現、下載和運行本地 LLMs。
- Cradle: Cradle 框架是通用計算機控制 (GCC) 的首次嘗試。Cradle 支持代理在一個標準化的通用環境中,以最少的要求,展現強大的推理能力、自我提升和技能管理,從而精通任何計算機任務。
- LLMPerf: 一個用於評估 LLM API 性能的工具。還提供了相應的 排行榜。
- WebLINX: 使用多輪對話進行真實網站導航。
- Latent Box: 一個關於 AI、創意和藝術的 awesome-lists 集合。
- LLM Transparency Tool: LLM 透明度工具 (LLM-TT