该公司声称其AI通过了兽医执照考试,质疑随之而来

来源:传递 The Transfer

一家自称是美国首个专为兽医行业打造的人工智能推理平台的初创公司,在上个月发布了一则新闻稿,宣称OpenVet成为首个在北美兽医执照考试(NAVLE)中获得满分100%的“人工智能”,引起了轰动。

该公司名为OpenVet,其发布的新闻稿称:“这一里程碑标志着人工智能首次在兽医行业的黄金标准考试中展现出全面精通。”但该公司未提供任何文件来佐证这一说法。

10月8日看到新闻稿后,负责管理NAVLE的非营利性公司国际兽医评估理事会(ICVA)予以反驳,称这一说法不实,ICVA并在给该公司的信中向VIN新闻透露了这一情况。批评该声明给人的印象是人工智能参加了实际考试并顺利通过。该组织还表示,OpenVet的声明造成了NAVLE的实际考题已进入公共领域的错误印象。

ICVA首席执行官Dr. Heather Case在10月31日给VIN新闻的一封电子邮件中表示:“我们已联系该公司,要求其立即停止此类言论。OpenVet随后已从其网站和社交媒体渠道上撤下了该新闻稿。”

然而,直到今天,该公告的一个版本仍可在网上找到。至少还有两家兽医媒体也报道了此事。在过去两周内,它们已将相关报道撤下。

OpenVet首席执行官Adam Sager本周在给VIN新闻的一封电子邮件中表示,考试管理机构没有抓住重点。他说:“ICVA一直执着于参加实际的NAVLE,但我们从未声称过这一点。我们展示了对从公开来源和人工智能驱动中得出的代表性问题的综合掌握——使用了标准做法,突破了可能的界限。”

Sager表示,公司撤回了那份新闻稿,因为他们“致力于与整个行业建立积极的关系,无意制造不必要的摩擦。”

据首席执行官称,OpenVet软件正在接受私人测试。

测试了什么?

通过NAVLE——这是一项在电脑上进行的360道选择题的考试——是所有希望在加拿大或美国执业的兽医的必备条件。该考试每年在加拿大、美国及其他国家的考点分三个考试窗口进行,且必须现场参加。考试的准入控制非常严格,禁止携带笔记本电脑和手机。

新闻稿标题“OpenVet成为首个在NAVLE考试中获得满分100%的人工智能,为兽医人工智能树立新标杆”可能会让人联想到有人违反安全规定让一个AI聊天机器人参加考试。不过,从公告末尾的这句话来看并非如此:“OpenVet在从公开的ICVA和NAVLE备考材料中抽取的600道不同兽医试题中均获得了满分。”

ICVA方面否认存在600道“公开可用”的ICVA和NAVLE考试备考题的说法。她说道:“ICVA并没有600道公开可用的测试题。”

该组织在其网站上提供了五个示例问题。此外,还有三个NAVLE练习测试,总共包含600道题。这些题目处于付费墙之后,仅用于教育目的——不得用于制作商业产品……ICVA称其练习测试为自我评估。

10月27日,ICVA在一封电子邮件中要求OpenVet首席执行官Sager解释其新闻稿中有关使用练习题的相关陈述的依据。Case表示,截至10月23日,他们尚未收到该公司的任何进一步回复。

Sager表示,OpenVet已多次主动联系ICVA直接讨论这一情况,但尚未收到回复。

他向VIN新闻表示,新闻稿中的说法“准确且站得住脚”。

他说:“我们坚持认为这一公告是能力的基准,而非字面上的考试成绩声明。熟悉人工智能发展动态的读者会明白其中的背景,而且我们对于其含义表述得非常明确。”

他还详细阐述了这些问题的由来。

他说:“我们从任何人都能获取的免费在线NAVLE格式的练习题中获取资源。然后,我们利用人工智能生成更多同类题目——主题、格式和难度都一样——并逐步推理解答。这与兽医使用人工智能定制学习辅助工具没什么不同……”

Sager补充说,OpenVet很快就会发布有关繁殖率和数据来源的信息。但他没有说明会在何种出版物上发布。

当被问及OpenVet为何要在一套类似NAVLE的题目上测试其人工智能时,Sager说:“几个月前我们就这么做了,作为对我们系统兽医基础知识水平的早期验证。”

练习题的来源

Sager表示,网上有数百道免费的非专有练习题,人工智能可以利用这些题目生成数千道新的题目。

还有成千上万道专有试题。在美国,至少有六种NAVLE备考课程,其中一些课程包含数百到数千道由专家团队开发的练习题。

有一家公司叫VetPrep。VetPrep动物健康教育与学生参与部主管JulieLegred通过电子邮件向VIN新闻表示:“我们的出题人员遵循心理测量学和教育的最佳实践,以反映ICVA内容大纲所定义的NAVLE的风格、结构和内容类别及子类别,但从未使用过或接触过任何实际的NAVLE试题。”

她还解释说,VetPrep的内容仅对注册用户(学生或拥有有效账户的机构)开放。她说:“在平台之外重新分发、分享或使用题目会违反我们的服务条款和道德标准,并且我们会积极监控此类违规行为。”

当被问及OpenVet的声明时,Legred表示她的公司与ICVA立场一致。她说:“我们同样担心这一说法歪曲了NAVLE备考的性质,可能会误导学生或整个行业。”

据ZukuReview公司的总裁兼创始人Dr. Steven McLaughlin介绍,ZukuReview是另一家为NAVLE考试做准备的公司,其依靠内部开发的题目来进行模拟测试。

他说:“我们制定问题所遵循的指导方针与ICVA相同。我们使用的是NAVLE格式的语言。我们从不说这些是NAVLE问题。”

20年前创立了Zuku的Dr. Steven McLaughlin表示,问题在不断演变。他的兽医和教育工作者团队在10年前就开始重新设计问题。比如,他提到,过去的问题可能会列出一系列临床症状,然后要求做出诊断。而现在,列出临床症状之后可能会提出这样的问题:接下来你会采取什么行动?你会安排什么检查?你会跟宠物主人说些什么?

他说:“如果你为NAVLE考试中会遇到的临床问题做好充分准备,那么这些也是你在实际工作中会遇到的临床问题。这类问题编写起来更难,但却是好问题。”

他怀疑在现阶段的发展水平下,人工智能能否提供那种复杂性和细微差别。

此前,一次与之无关的人工智能测试使用了ICVA材料。

OpenVet并非首家尝试在某种形式的NAVLE上测试人工智能的公司。

2023年,兽药公司Anivive Life Sciences的几位高管和加州大学欧文分校的研究人员从一份自我评估中获取了164个纯文本问题,并将其输入到三个不同的AI聊天机器人中,以评估其表现,相关情况在与第十届国际社交网络分析、管理与安全会议相关的论文中有所描述。

根据这项研究,作者将考试题目呈现给了三款商业聊天机器人。其中两款是ChatGPT的不同版本,ChatGPT是由OpenAI公司开发的如今广为人知的聊天机器人。2023年3月发布的GPT-4表现最佳,得分89%。该聊天机器人的早期版本GPT-3正确率为63.4%。谷歌于2023年初发布的Bard(现已更名为Gemini)正确率为61%。

2024年4月,ICVA在美国加利福尼亚州的一家地方法院起诉了Anivive公司及其三名高管,指控其违反合同和侵犯版权。

2024年7月,法院发布了一项初步禁令,禁止Anivive及其高管复制或仿制ICVA的受版权保护的材料。和解听证会定于11月26日举行。

本文来源|AVMA发布于2025年11月13日

本文作者|Lisa Wogan

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
有新私信 私信列表
搜索