本系列文章主要是用于持续跟踪最新的AI产业情况,让你减少知识焦虑。
原文共计133776 字,简读后为7989字,阅读时间为20分钟,为您提高阅读效率为1670%
- OpenAI宣战AGI?GPT-5全面超越GPT-4,核聚变成最大王牌 ⚔️
- 苹果Vision Pro深夜引爆,2万5起瞬间抢空!7年憋出最强头显,革命空间计算 💡
- 谁来调查微软和OpenAI关系?美国司法部和联邦贸易委员会争夺管辖权 👥
- GPT-4V惨败!CV大神谢赛宁新作:V*「视觉搜索」算法让LLM理解力逼近人类 👀
- Nightshade,免费‘毒害’AI模型的工具,现已供艺术家使用 🎨
- 三星新的Galaxy AI功能或许不会永久免费 💲
- ChatGPT更新,Jan AI发布:100%本地运行、100%开源代码 🔄
- 购买Rabbit r1的另一个理由:Perplexity Pro AI搭载GPT-4 🐇
- 使用神经结构搜索和SageMaker自动模型调优缩短BERT模型推断时间 ⏱️
- Jasper AI 2024年回顾 🤖
要点解析:
-
名为Andrei Kovalev的大神对Midjourney V6进行了超深度评测,指出V6在图像生成方面的优势和改进。
-
V6在超现实主义方面表现出色,逼真度爆表,尤其在摄影风格上达到令人迷惑的程度。
-
V6的细节处理令人疯狂,新的upscalers功能进一步提升细节表现。艺术风格方面,V6能更好地理解源材料,并添加文本功能。
要点解析:
-
三星 Galaxy S24 系列手机推出了针对摄影爱好者的多项新功能,其中 Expert RAW 应用升级至 2400 万像素分辨率。这一升级通过平衡 1200 万像素和 5000 万像素感光度和细节特性,利用人工智能计算摄影技术提供更专业的照片拍摄体验。
-
2400 万像素照片通过合成多张 1200 万像素和一张 5000 万像素照片而创建,有效利用 HDR 提升图像的暗部和饱和区域,同时提取细节信息改善质感和清晰度。该应用保存 2400 万像素照片的 JPEG 文件和 RAW(16 位线性 DNG) 文件,成为默认分辨率。
-
Expert RAW 是一款创新型 Samsung Galaxy 相机应用,支持后期专业编辑,提供高质量 HDR 照片拍摄和细致编辑。通过控制相机设置,用户能够进行更专业的拍摄,包括直接调整 ISO、快门速度、白平衡、曝光和聚焦等。
https://www.ithome.com/0/746/308.htm
要点解析:
-
Jasper AI是一款基于GPT-3和GPT-4等先进AI算法的内容创作工具,旨在快速生成高质量内容。用户可以通过50多种模板进行创作,包括社交媒体标题、YouTube脚本、电子邮件模板等。
-
作为一位内容营销从业者,作者使用了Jasper AI的长篇博客助手,通过简单的输入主题、提纲和语调等提示,一键生成结构良好、超过2000字的博客文章。作者称赞其流畅度和高质量,节省了大量研究时间。
-
Jasper AI还提供了与SurferSEO的集成,帮助优化内容以符合SEO要求。作者肯定了其在内容创作过程中的便利性,尽管与SurferSEO的一些限制可能需要升级计划。同时,Jasper AI的图片生成器和Chrome扩展也为内容创作提供了便利。
https://openaimaster.com/?p=33155
要点解析:
-
CES 2024上发布的Rabbit r1设备是展会上最令人兴奋的新品之一。与ChatGPT等生成式AI服务不同,r1通过执行应用程序中的任务,并能学习额外的行为,展现出独特之处。
-
与其仅尝试回答问题和生成内容不同,r1可以执行诸如在线下单、预订共享汽车或整个家庭度假等任务。这使其在CES上引起轰动,首批r1设备已售罄,第一批设备将在未来几个月内发货,但需等待一段时间。
-
你仍然可以预订该设备,而现在有一个更迫切的理由,前100,000次购买将附赠Perplexity的高级版本,该应用是一款有趣的人工智能应用,通常每月售价$20,提供对最新LLMs的访问,包括ChatGPT的GPT-4。
https://bgr.com/tech/heres-another-reason-to-buy-a-rabbit-r1-perplexity-pro-ai-with-gpt-4/
要点解析:
-
在当今数字世界,视频创作已经在领域中建立了强大的地位。然而,对许多用户来说,创作引人注目的视频似乎就像攀登珠穆朗玛峰一样具有挑战性,导致无数的创意被闲置。
-
现在,我们有了“AnimateDiff”,这是一款基于人工智能的机器,只需点击即可创建令人惊叹的视频。您只需输入想要的视频描述,然后点击创建按钮。这是如何使用它的完整概述。
-
AI AnimateDiff是一款充当魔法讲述者的人工智能工具。根据用户的描述,它生成视频文本。您只需提供文字,它将基于该输入将其转换为动态画面展示。它使用内置的视频风格、音乐和动画字典,有点像翻译器,但是用于视觉。除了转换语言之外,AI AnimateDiff使用您的文字和其内置的视频风格、音乐和动画字典将其转换为动态画面展示。
https://openaimaster.com/?p=33098
要点解析:
-
Jan AI是一款免费的ChatGPT AI替代软件,可在Mac、Windows或Linux PC上本地运行。提供稳定版和实验版,本地优先,跨平台扩展框架,可构建各种内容。
-
开发人员可通过扩展和自定义实现功能、UI和品牌。主要功能作为扩展构建在该框架上,数据存储在本地文件系统中,用户可以自由处理、导出和迁移数据。
-
Jan AI特性包括兼容开源模型、跨平台支持、本地API服务器模式,以及使用开放文件格式存储数据,确保数据安全和隐私。
https://www.ithome.com/0/746/314.htm
要点解析:
-
Bing AI图像生成器已经成为创建3D头像、动漫角色、幻想风景、社交媒体图片等的最佳选择。通过简单的复制粘贴提示,任何人都能在短时间内生成令人惊叹的AI图像。
-
本指南揭示了可以复制粘贴的顶级Bing AI图像提示,以释放这一变革性技术的全部潜力。通过这些提示,您可以在几分钟内为品牌、社交平台和创意项目创建专业定制的图像。
-
首先,了解如何使用Bing AI图像生成器的提示生成3D社交媒体图片、翼椅图片、夫妻图片等。
https://openaimaster.com/?p=33115
要点解析:
-
Microsoft Copilot是一款强大的AI辅助工具,提供个人和企业两种订阅计划。个人免费计划包含基本文本建议和语法帮助,而付费的Copilot Pro计划则提供更多高级功能,如代码完成、研究辅助、多语言支持等,价格为每月20美元。
-
针对企业用户,Copilot提供Microsoft 365计划和定制企业计划。Microsoft 365计划需要标准、E3或更高订阅,价格为每月15美元,提供团队协作、个人生产力提升等优势。定制企业计划则针对大型组织,包括定制AI模型、数据集成等,价格因定制需求而异。
-
个人用户可根据需求选择免费、Pro或商业计划,而企业用户则根据团队规模和需求选择适合的Microsoft 365或定制计划。Copilot的不同计划满足了各类用户的需求,从个人到企业,提供了丰富的功能和灵活的定价。
https://openaimaster.com/?p=33087
要点解析:
-
苹果Vision Pro于昨晚9点正式开售,仅5分钟内服务器被挤爆,实体店半小时内售罄。配置包括256GB、512GB和1TB,售价分别为3499美元、3699美元和3899美元。国内黄牛价已飙至4万元起,最高达9万元,引起网友热议。
-
Vision Pro被认为是苹果迎来空间计算时代的标志性产品。其用户界面重新定义连接、创造和探索的方式,具备4K显示屏、R1处理器和16GB内存。演示显示其在空中投出Mac屏幕,实现多任务处理。然而,最大问题是头显过重,引发用户头疼和不适感。
-
维修费最高可达2399美元,但对购买了AppleCare+的用户仅需支付299美元。实际体验中,用户反馈Vision Pro虽然在显示屏、眼动追踪等方面表现优异,但重量过大导致使用不便,可能影响用户体验,成为困扰Vision Pro的主要问题。
要点解析:
-
CES上最引人注目的科技是智能车,特别是智能座舱和自动驾驶。大模型在智能车上的应用已成为焦点,不仅是端到端自动驾驶的关键,还构建了智能座舱,如吉利银河 E8和高通的骁龙数字底盘概念车展示的功能。
-
在自动驾驶方面,端到端模型成为未来的趋势,基于大模型的技术为其提供了新的发展路径。这种模型能够更好地处理复杂的交通场景,提高感知分数,并在实际场景中进行推理,解决传统规则模型难以应对的问题。
-
骁龙 8295作为新一代智能车芯片,采用5nm工艺,具有强大的算力和AI能力。它在车内实现了多模态交互、离线语音识别、智能泊车等功能。这表明大模型在终端侧的应用已经为智能车的进一步升级奠定了基础。
https://www.ithome.com/0/746/277.htm
要点解析:
-
微软首席执行官萨提亚・纳德拉和 OpenAI 的山姆・阿尔特曼参与了《经济学人》主题讨论,探讨了人工智能的未来和 ChatGPT 的发展计划。阿尔特曼认为,衡量 ChatGPT 成功的标准是其能够完成人类工作的百分比,将其视为生产力伴侣,快速被组织采用并整合到工作流程中。
-
阿尔特曼强调,在人工智能发展过程中,虽然没有“红色紧急按钮”可以暂停,但通过微小而重要的决定可以降低各种风险。他认为人工智能是知识工作的伴侣,为组织提供高效的生产力工具。
-
纳德拉认可生成式人工智能的价值,将其定义为一种突破性技术,为教育、医疗等行业带来巨大价值。他指出,通过微软的 Copilot 和 ChatGPT,人们可以免费获得更好的健康建议和更个性化的辅导,强调人工智能在全球范围内迅速普及。
https://www.ithome.com/0/746/286.htm
要点解析:
-
在过去的一个月里,人工智能和机器学习的Huntr漏洞赏金平台成员在流行的解决方案中发现了多个严重漏洞,如MLflow、ClearML和Hugging Face。
这些问题中得分最高的是MLflow的四个关键问题,其中之一是CVE-2023-6831,描述为与工件删除相关的路径遍历漏洞,允许攻击者绕过验证检查并删除服务器上的任何文件。
-
第二个漏洞CVE-2024-0520存在于mlflow.data模块中,可以通过精心制作的数据集滥用,生成未经消毒的文件路径,允许攻击者访问信息或覆盖文件,潜在地实现远程代码执行(RCE)。
-
第三个关键缺陷CVE-2023-6977是一种路径验证绕过,可能允许攻击者读取服务器上的敏感文件,而第四个CVE-2023-6709可能在加载恶意配方配置时导致远程代码执行。
所有四个漏洞都在MLflow 2.9.2中得到解决,该版本还修复了一个可能允许攻击者访问内部HTTP(S)服务器并潜在地在受害者机器上实现RCE的高严重性服务器端请求伪造(SSRF)漏洞。
https://www.securityweek.com/critical-vulnerabilities-found-in-ai-ml-open-source-platforms/
要点解析:
-
扎克伯格宣布Meta的新目标是实现AGI,计划购买约60万块英伟达H100,涉及约90亿美元的芯片费用。英伟达由于产能受限,难以满足Meta的需求,可能面临算力瓶颈。
-
面对芯片需求高涨,Meta与AMD合作,使用AMD的最先进AI加速器MI300构建数据中心。AMD股价暴涨,分析师上调目标价,预计AI芯片销售额将大幅增长,有望分得芯片市场份额。
-
台积电财报报喜,HPC是关键驱动因素,各大芯片巨头在芯片需求高企的情况下有望进一步受益,但市场存在风险,投资需谨慎。
https://awtmt.com/articles/3706759
要点解析:
-
在世界经济论坛上,OpenAI首席执行官山姆·奥特曼透露AGI即将到来,但影响或许被低估。他认为AI对工作的改变会使其更高效,而非导致失业。随着GPT-5的到来,察言观色等新功能将引领AI发展。
-
GPT-5被预期在多方面超越GPT-4,包括学会察言观色,提供更印象深刻的功能。然而,命名风格可能改变。奥特曼表示,发布时间尚不确定,强调慎重推进,解决科学难题和算力需求。AI的进步将加速科学发现,未来关键是多模态模型的发展。
-
OpenAI首席执行官奥特曼将重点投资于环保能源,特别是核聚变。他认为解决能源问题至关重要,对核聚变公司Helion Energy进行大额投资,并表示希望核聚变成为未来能源。Helion计划在2028年前实现商业核聚变发电,为微软提供电力。
https://www.ofweek.com/ai/2024-01/ART-201717-8420-30623933.html
要点解析:
-
美国司法部和联邦贸易委员会正就微软对OpenAI的巨额投资展开调查,争夺管辖权。微软自2019年起多次向OpenAI注资,并将其服务整合到自家产品中,引发对不公平竞争的担忧。
-
OpenAI首席执行官表示与微软的合作稳固,希望继续获得投资。调查集中在大型语言模型领域,引发对两家公司在LLMs方面的不公平优势的担忧。
-
美国联邦贸易委员会和司法部存在协议,但针对科技巨头的调查分头进行。2019年,达成协议将Facebook和亚马逊交由FTC调查,将谷歌和苹果归司法部调查。
https://www.ithome.com/0/746/296.htm
要点解析:
-
1月21日,360创始人周鸿祎与猎豹移动董事长傅盛将进行关于大模型的同框对话。这标志着两位曾反目成仇的互联网巨头展开合作,强调AI的力量。
-
两人过去因360安全卫士而反目,但近年来关系逐渐缓和。此次直播对话的主题是“每个企业都有自己的大模型”,突显AI在业务发展中的关键性。
-
傅盛和周鸿祎都在不同场合表达“All in AI”的决心,猎户星空作为傅盛旗下的AI服务机器人公司,正推动大模型在企业中的广泛应用。
http://www.fromgeek.com/ai/623584.html
要点解析:
-
加密货币交易可能非常紧张和耗时。谁有时间整天盯着图表和进行交易呢?这就是AI加密交易机器人派上用场的地方。这些巧妙的机器人利用人工智能自动为您交易。棒极了!
-
我深入研究了当前最好的10个机器人,并为您提供了每个机器人的工作原理,以便您可以决定哪个适合您的投资组合。拿点零食,让我们开始吧!
-
加密货币交易的最佳AI机器人,涵盖了各种功能,包括全能型的Dash 2 Trade、以及提供交易教育的Learn2Trade等,以满足不同投资者的需求。
https://openaimaster.com/?p=33149
要点解析:
-
Meta首席执行官马克·扎克伯格宣布,公司将致力于构建能达到人工通用智能(AGI)水平的人工智能模型,将其开源,成为开源社区对OpenAI的强有力竞争对手。
-
扎克伯格表示,下一代服务需要构建全面的通用智能,包括最佳的人工智能助手、面向创作者的人工智能以及面向企业等。他认为,这一技术至关重要,机遇巨大,应该在可负责范围内开源。
-
Meta正在加倍投入其已经引人注目的人工智能工作,推出了基于LLaMA和其后续的LLama 2系列大语言模型。公司正致力于开发LLama 3,其下一代大型语言模型。
https://aibusiness.com/nlp/and-an-open-source-ai-giant-rises-zuckerberg-targets-agi
要点解析:
-
三星发布的Galaxy S24 Ultra、S24 Plus和S24搭载了多项新的人工智能功能,包括电话会话翻译和从照片中移除物体等。这些功能将在许多旧手机上提供,但三星网站底部的小字透露了一个细节:它们可能并非永久免费。Galaxy S24 Ultra产品页面的脚注模糊不清,但明确表示在支持的三星Galaxy设备上,Galaxy AI功能将免费提供至2025年底。第三方提供的AI功能可能有不同的条款。
-
三星并未提供太多解释。三星美国移动部副总裁Drew Blackard告诉The Verge:“我们致力于使Galaxy AI功能尽可能多地向我们的用户提供。在2025年底之前,我们不会考虑对该方向进行任何更改。”眼下一切都很明朗,但S24的许多Galaxy AI功能是由Google Cloud支持的,因此任何一家公司,甚至两家公司都可能最终让这些功能付费化。
-
考虑到提供这些功能以及运行支持它们的大型AI模型的成本,这并不太令人意外。由于无法通过广告抵消这些持续费用(就像Google在搜索中那样),制造商可能会考虑采用订阅模式来支付这些费用。但这也是我们在购买手机方面思考方式的一种变化,目前手机购买价格不会额外收取费用,除非选择通过iCloud或Google One添加保护计划或额外云存储。
https://www.theverge.com/2024/1/19/24044251/samsung-galaxy-s24-ultra-ai-features-cost-2025
要点解析:
-
去年底,OpenAI首席山姆-奥特曼曾筹集数十亿美元新投资,却因内部问题离职,如今重新领导该人工智能公司。报道指出,奥特曼正在努力通过全球投资者,包括阿布扎比的G42和日本的软银,筹措资金建立专门的晶圆厂网络。此举旨在颠覆英伟达在人工智能芯片领域的主导地位,以低成本替代英伟达,并降低OpenAI的芯片采购成本。
-
彭博社透露,奥特曼正寻求拉拢顶级芯片制造商,可能包括台积电和三星。然而,谈判仍处于早期阶段,细节尚不清晰。与谷歌、微软和亚马逊采用相对经济的方法不同,OpenAI为与英伟达竞争,计划建造最先进的芯片制造工厂,这是一项资源密集型的工程。奥特曼正在尝试筹集80至100亿美元资金,规模之大可见一斑。
-
尽管初步谈判进行中,但可能面临复杂局面。G42与中国实体的联系使其受到某些国会议员的审查。OpenAI预计2023年收入将达16亿美元,正在寻求新融资,估值约为1000亿美元。
https://m.cnbeta.com.tw/view/1412621.htm
要点解析:
-
谷歌计划在英国投资10亿美元建设新的数据中心,以满足对其AI和云服务的不断增长需求。这个位于赫特福德郡瓦尔瑟姆十字的33英亩场地将为企业提供所需的计算能力,支持AI创新,确保谷歌云客户和依赖产品如搜索、地图和YouTube的普通消费者获得可靠的数字服务。
-
谷歌在全球运行一些效率最高的数据中心,并承诺到2030年完全使用无碳能源运行。去年,谷歌与ENGIE签署了一项交易,从苏格兰Moray West农场获得海上风能,提供100MW的能源,使英国运营在2025年达到90%的清洁能源。
-
这个新数据中心将为本地居民和企业提供热能,并采用空气冷却系统。谷歌表示,这是对英国的持续承诺,除了办公室、数据中心和海底电缆外,还包括为超过一百万英国人提供数字技能培训,扩大其面向AI的数字车库课程以满足科技需求。
https://www.artificialintelligence-news.com/?p=14240
要点解析:
-
三星于2024年1月17日举行了年度Unpacked活动,发布了新款Galaxy S24智能手机。该公司将体验活动重新品牌为“Galaxy AI”,强调在智能手机中增加更多人工智能,包括生成式人工智能(genAI)能力。与往常不同的是,活动以新设备上的硬件而非体验为重点。
-
当天的主题集中在利用人工智能将用户置于智能手机体验的中心,重点关注连接、创造和协作。对我而言,当天的重大公告是能够在智能手机上运行genAI并保护用户的数据、照片、笔记等。请注意,许多所谓的“genAI应用程序”使用了更多不仅限于genAI的其他相关人工智能或机器学习技术。三星没有透露这些细节。以下是我能够演示并激动人心的内容:
-
几乎实时的语言翻译。 通过文本或语音转文本,Galaxy S24将把一个人说的话翻译成13种语言之一,包括方言(例如英语-印度、英国、美国)。我与一个讲墨西哥西班牙语的工作人员进行了简单的对话,虽然不是即时的,但足够快速有效。唯一的错误是一次将我的名字说成“犹太”而不是“朱莉”。
-
支持多模态输入搜索信息、问题或购物。 三星与谷歌合作推出了一个名为“Circle to Search”的新服务。用户可以用手指或触控笔画一个圈来选择照片中的对象并请求更多信息。虽然可用的照片库有限,但我对速度和搜索结果印象深刻。有人会认为使用图像作为搜索输入并不新鲜。谷歌工程副总裁凯西·爱德华兹在活动上发言,并提到消费者每月使用Google Lens达到120亿次。
-
利用genAI允许消费者编辑、修改或创建新图像。 照片编辑应用允许用户修改照片。三星为修改或新创建的图像添加水印。想象一下,你拍摄了在度假胜地滑雪道上飞翔的朋友。你的朋友也许只离地面5英寸,尽管他可能觉得自己在飞翔,但照片证据不够震撼。用户可以修复这一点。他们可以选择图像中的滑雪者并将其移动到照片中…比如离斜坡1-2米的地方。应用程序将填充移动滑雪者周围的区域,使照片看起来更真实。该应用程序还提供一些预设选项来改善照片,如去除阴影或加强线条。(另外一提,智能手机还会将以全速拍摄的视频转换为慢动作。)
-
对群组文本进行摘要,并对笔记执行相同操作 - 还能格式化它们。 想象一下,你正在开会,而你的销售团队正在计划下班后的外出活动。您可以要求服务为您总结对话,而不必回顾所有文本消息。手机/服务将对笔记执行相同的操作。它还会格式化笔记并提供其他见解。这些功能也适用于录音的语音备忘录。
-
-
最后,三星为我们快速展示了即将推出的内容,包括一个看起来像是Oura风格的戒指。速度太快,我不得不问坐在我旁边的女士是否我是不是想象的。
https://www.forrester.com/?p=232140
要点解析:
-
近年来,微软通过多种途径推动必应搜索的增长,包括强制使用必应搜索的措施、提供各类资讯小组件以及推出Microsoft Copilot等。然而,全球范围内必应搜索仍仅占据3.4%的市场份额,美国市场份额在6%-7%之间徘徊,并未有明显增长。
-
尽管微软声称必应搜索的月活跃用户已突破1亿,但缺乏新的数据公开,而市场份额数据并未显示明显提升。微软投资人工智能领域,但Copilot集成未带来明显市场份额提升,可能是微软对Bing产品重新定位的原因。
-
微软对AI产品进行更名,例如Bing Chat更名为Microsoft Copilot,可能反映出AI并未如期提升必应的市场份额。微软对ArsTechnica的回应强调了Copilot的重要性,但并未透露具体的活跃用户数量。
https://www.landiannews.com/?p=101912
要点解析:
-
计算机系统研究在大模型时代面临古典与摩登的挑战。构建大规模计算机系统以支持人工智能发展、重塑云计算基础平台、设计分布式系统成为革新方向。
-
超级计算机是现代人工智能成功的基石,但在大规模GPU集群构建中遇到挑战。微软亚洲研究院通过体系结构、网络通信、编译优化等多角度创新支持人工智能任务。
-
云计算系统需适应人工智能时代需求,重新定义虚拟化、微服务等概念。研究方向包括分离式架构、深度学习在数据库、搜索系统等领域的创新。
要点解析:
-
X-AnyLabeling v2.3.0是一款开源的图像标注软件,旨在满足多样性需求、易用性、高度定制化的要求。设计初衷源于对主流工具的使用成本和功能多样性的思考。
-
该工具支持多种标注模式,包括多边形、矩形、旋转框、圆形、线条等,还引入了文本检测和识别以及Key Information Extraction(KIE)标注。同时,内置多种SOTA深度学习算法,支持用户自定义模型。
-
X-AnyLabeling最新版本引入了多项功能,如标签背景高亮、数据统计预览、支持一键导入导出等,提升用户体验。支持图像和视频导入,多硬件环境和跨平台应用,以及单帧和批量预测等特性。
https://juejin.cn/post/7325693010568970290
要点解析:
-
在AI功能开发中,我们追求生成结构化的AI数据,不仅包含简单字段,还能涵盖嵌套关系。AI通过注意力机制,在一次生成中根据上下文完善层级关系。本文探讨生成结构化数据的几种方案及其优缺点。
-
早期,OpenAI未提供Json结构化输出,而现在许多大模型支持Json输出。Json模式使AI返回合法Json字符串,节省了输出Token。可通过Json Schema约定Json结构,但其体积大、不太友好。使用TypeScript语法约束DSL(领域特定语言)是一种稳定而精简的方式。
-
Json结构化数据存在问题,占用空间多且耗费Token。推荐使用Yaml结构,具有更小体积和支持流式解析的优势。目前认为最佳方式是
TypeScript约束Prompt + Yaml格式输出
,适用于大多数结构化输出场景。
https://juejin.cn/post/7325429835387404307
要点解析:
-
本文介绍如何利用基于神经架构搜索(NAS)的结构剪枝来压缩经过微调的BERT模型,以提高模型性能并减少推理时间。预训练语言模型(PLMs)在生产工具、客户服务、搜索推荐、业务流程自动化和内容创建等领域迅速被商业和企业采用。部署PLM推理端点通常伴随着更高的延迟和基础设施成本,剪枝PLM可以减小模型复杂性,提高推理效率。
-
文中展示了多目标优化的方法,通过结构剪枝降低PLM的大小和计算要求,实现硬件友好的结构稀疏性,从而降低运行时间。该方法适用于使用PLM特性的应用,如推荐系统、情感分析和搜索引擎。演示使用SageMaker AMT进行多目标搜索,选择在参数数量和验证错误之间实现最佳权衡的子网络。
-
需要注意的是,通过对fine-tuned的BERT模型进行神经架构搜索,本文提供了一种在特定目标任务上实现更快响应时间的方法。
要点解析:
-
人工智能领域正迎来多模态大模型,如GPT-4V,但它们在图像理解方面存在局限。针对这一问题,UC San Diego和纽约大学的研究人员提出了V视觉搜索算法,弥补了大模型对视觉信息的不足。通过结合VQA LLM和视觉搜索模型,V能够在多轮引导搜索中提取局部特征,解决大模型对复杂场景的理解问题。
-
研究人员设计了SEAL框架,将V*引导视觉搜索算法集成到MLLM中,解决模型的视觉限制。SEAL通过明确查明缺失的视觉细节,将其添加到视觉工作记忆中,提高了MLLM的准确性和智能响应。实验证明,在高分辨率图像中,SEAL相较于传统大模型更具优势。
-
为评估新框架,研究人员引入了V-Bench,一种专注于高分辨率图像的VQA基准。实验结果表明,使用V*算法的Vicuna-7B模型在视觉搜索任务中表现更优。这一研究对于推动多模态大模型在视觉信息处理方面的发展具有重要意义。
要点解析:
-
由芝加哥大学的Glaze项目团队开发的Nightshade是一款新的免费软件工具,允许艺术家“毒害”寻求在其作品上进行训练的AI模型。Nightshade通过将AI对抗AI,利用开源机器学习框架PyTorch识别图像内容,然后在像素级别应用标签,使其他AI程序看到与实际图像完全不同的内容。这是该团队推出的第二款工具,与一年前推出的Glaze不同,Nightshade被设计为“攻击性工具”。
-
使用Nightshade的艺术家必须拥有搭载苹果芯片(M1、M2或M3)的Mac或运行Windows 10或11的PC。该工具的下载需求高,一些用户报告下载时间长达八小时。Nightshade v1.0将图像转化为“毒害”样本,使未经同意训练的AI模型看到不可预测的行为,偏离预期的规范。这意味着通过Nightshade“毒害”后的图像将在训练时呈现完全不同的主题,从而增加了训练模型的成本,推动许可图像的使用。
-
尽管一些艺术家已经下载Nightshade并开始使用,但一些网络用户抱怨称其等同于对AI模型和公司的网络攻击。Glaze/Nightshade团队否认他们追求破坏性目的,他们的目标是增加在未经许可的数据上训练的成本,使从艺术家处许可图像成为可行的替代方案。
要点解析:
-
如果你经常使用Stable Diffusion绘制人物,你可能遇到过面部失真的问题,尤其是在画面中有多个人物时。即使是Midjourney V6也不例外!当它绘制单个人物时效果还可以,但一旦人物增多,局面就难以控制。
-
ADetailer是一个强大的插件,专为快速修复这类问题而设计。它是Stable Diffusion必备的插件,能在短时间内迅速修复多个人物的面部失真问题。
-
本文详细介绍了ADetailer的安装、使用方法,以及不同模型的选择和参数调整。通过使用ADetailer,你可以轻松解决Stable Diffusion中面部失真的挑战,成为高级绘图玩家。