#
Phi
–
3
–
vision
–
128k
–
instruct效果展示:模糊/遮挡/低光照图片鲁棒性识别案例 1.
模型简介
Phi元宝 混元 Hunyuan 教程
–
3
–
Vision
–
128K
–
Instruct是一个
轻量级的开放
多模态
模型,属于
Phi
–
3
模型家族。这个
模型支持
128K上下文长度,专注于高质量的文本和视觉数据处理能力。它通过监督微调和直接偏好优化进行了增强,确保了精确的指令遵循和强大的安全措施。 在实际
部署中,我们使用vllm
部署了
Phi
–
3
–
vision
–
128k
–
instruct
图文对话
多模态
模型,并通过ch
ainlit前端进行
调用。这种
部署方式提供了便捷的交互界面,让用户可以轻松测试
模型在各种条件下的表现。 2.
模型
部署验证 2.1 服务状态检查 在
部署完成后,可以通过以下命令检查
模型服务是否正常运行: bash cat /root/workspace/llm.log 当看到服务启动成功的日志信息时,说明
模型已经准备就绪,可以接受请求。 2.2 前端
调用测试 通过ch
ainlit前端界面,我们可以方便地
与
模型进行交互。打开前端界面后,用户可以上传图片并提出相关问题,
模型会给出相应的回答。 一个简单的测试示例如下:
– 上传一张图片
– 提问:”图片中是什么?”
–
模型会识别图片内容并给出回答
3. 鲁棒性识别效果展示
3.1 模糊图片识别 在测试中,我们上传了多张故意模糊处理的图片。令人印象深刻的是,即使图片细节不清晰,
模型仍能准确识别主要内容。例如:
– 一张模糊的动物照片,
模型正确识别为”一只在草地上休息的狗”
– 模糊的街景照片,
模型识别出”城市街道,有行人和车辆” 这种能力使得
模型在监控摄像头等低质量图像源场景中特别有用。
3.2 遮挡图片识别 我们测试了各种遮挡情况下的识别效果: 1. 部分遮挡:当图片中主体被部分遮挡时(如被树叶遮挡的人脸),
模型仍能识别可见部分 2. 大面积遮挡:即使50%以上的内容被遮挡,
模型也能根据可见部分做出合理推断
3. 复杂遮挡:多个物体相互遮挡的场景下,
模型能区分不同物体并描述它们的关系
3.
3 低光照条件识别 在模拟低光照条件的测试图片中,
模型表现出色:
– 能识别昏暗环境中的主要物体
– 对颜色判断准确,不受光照不足影响
– 能描述低光照场景的特征(如”夜晚的室内场景”) 4. 实际应用价值
Phi
–
3
–
vision
–
128k
–
instruct在恶劣视觉条件下的强大识别能力,使其在多个领域具有重要应用价值: 1. 安防监控:处理模糊、低光照的监控画面 2. 医学影像:分析可能有不清晰区域的医疗扫描图像
3. 自动驾驶:应对各种天气和光照条件的道路识别 4. 工业检测:识别可能有遮挡或表面缺陷的产品 5. 总结 通过一系列测试,
Phi
–
3
–
vision
–
128k
–
instruct展示了在模糊、遮挡和低光照条件下的出色识别能力。这种鲁棒性使其成为处理现实世界中不完美视觉数据的强大工具。
模型的
轻量级特性加上
128K的长上下文支持,为复杂
多模态应用提供了高效解决方案。 对于开发者而言,使用vllm
部署和ch
ainlit前端
调用提供了便捷的测试和集成方式。
模型的开放性和高性能使其在各种实际应用场景中都具有广阔的前景。
–
–
– > 获取更多
AI镜像 > > 想探索更多
AI镜像和应用场景?访问 [CSDN星图镜像广场](https
://
ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大
模型推理、图像生成、视频生成、
模型微调等多个领域,支持一键
部署。
发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/286930.html原文链接:https://javaforall.net
