在不写代码的情况下使用机器学习:Amazon SageMaker Canvas
文章重点
Amazon SageMaker Canvas 提供无需编写代码的机器学习解决方案,适用于各类数据文本、影像、文档。用户可以利用预训练模型进行文本分析、影像辨识和文档处理。SageMaker Canvas 集成了多个 AWS 服务,以便无技术背景的业务用户简单地操作机器学习。在过去,使用机器学习ML进行预测,尤其是处理文本和图像数据,往往需要广泛的 ML 知识来创建和调整深度学习模型。然而今天,机器学习变得对所有希望利用 ML 模型产生商业价值的用户更为友好。利用 Amazon SageMaker Canvas,您可以为多种类型的数据创建预测,而无需编写一行代码。这些功能包括针对图像、文本和文档数据类型的预训练模型。
在本文中,我们将讨论您如何利用预训练模型为支持的数据类型提供预测,超越了传统的表格数据。
文本数据
SageMaker Canvas 提供了一个视觉化的无代码环境,便于建立、训练和部署 ML 模型。对于自然语言处理NLP任务,SageMaker Canvas 无缝整合了 Amazon Comprehend,使您能够执行关键的 NLP 功能,如语言检测、实体识别、情感分析和主题建模等。此整合消除了使用 Amazon Comprehend 的强大 NLP 模型所需的任何编码或数据工程。您只需提供文本数据,从四种常用功能中选择:情感分析、语言检测、实体提取和个人信息检测。对于每个情境,您可以使用用户界面进行测试,并利用批次预测选择存储在 Amazon S3 的数据。

情感分析
使用情感分析,SageMaker Canvas 能够分析输入文本的情感,判断整体情感为正面、负面、混合或中立。这在分析产品评论等场合中非常有用。例如,文本 我爱这个产品,太棒了! 会被 SageMaker Canvas 标记为正面情感,而 这个产品太糟糕,我后悔买了它 则会被标记为负面情感。
实体提取
SageMaker Canvas 可以分析文本并自动检测其中提到的实体。当文档发送到 SageMaker Canvas 进行分析时,它将识别文本中的人、组织、地点、日期、数量及其他实体。这项实体提取能力使您能快速获得有关文档中讨论的关键人物、地点和细节的见解。支持的实体列表请参考 Entities。
语言检测
SageMaker Canvas 还可以使用 Amazon Comprehend 确定文本的主要语言。它分析文本以识别主要语言,并为检测到的主导语言提供信心分数,但不显示多语言文档的百分比划分。要在多语言的长文档中获得最佳结果,应将文本分割成较小的部分并聚合结果来估计语言百分比。它在至少包含 20 个字符的文本中效果最佳。
个人信息检测
您还可以通过 SageMaker Canvas 使用个人信息检测来保护敏感数据。它可以分析文本文档,自动检测个人识别信息PII实体,使您能够定位如姓名、地址、出生日期、电话号码、电子邮件地址等敏感数据。它可以分析大小达到 100 KB 的文档,并为每个检测到的实体提供信心分数,以便您审查和选择性地编辑最敏感的信息。检测到的实体列表请参考 Detecting PII entities。
图像数据
SageMaker Canvas 提供了一个视觉化的无代码界面,使您轻松使用计算机视觉功能,并与 Amazon Rekognition 集成进行图像分析。例如,您可以上传一组图像,使用 Amazon Rekognition 检测物体和场景,并进行文本检测,以满足各种用例。视觉界面和 Amazon Rekognition 集成使不具开发背景的用户也能利用先进的计算机视觉技术。
图像中的物体检测
SageMaker Canvas 使用 Amazon Rekognition 在图像中检测标签物体。您可以从 SageMaker Canvas 用户界面上传图片或使用 批量预测 标签选择存储在 S3 桶中的图像。如下例所示,它可以提取图像中的物体,如时钟塔、公交车、建筑物等。您可以使用界面搜寻预测结果并对其进行排序。
图像中的文本检测
从图像中提取文本是一个非常常见的用例。现在,您可以在 SageMaker Canvas 上轻松执行此任务,而无需编写代码。文本被提取为行项,如下所示。图像中的短语被归类在一起并标识为一个短语。
您可以通过上传一组图像进行批量预测,在单个批量作业中提取所有图像,并将结果下载为 CSV 文件。这一解决方案在希望提取和检测图像中的文本时非常有用。
文档数据
SageMaker Canvas 提供多种即用型解决方案,以满足您日常的文档理解需求。这些解决方案由 Amazon Textract 提供支持。要查看所有可用的文档选项,请在导航窗格中选择 即用型模型,然后按 文档 进行筛选,如下所示。
文档分析
文档分析帮助您分析文档和表单中检测到的文本间的关系。该操作将返回四类文档提取类别:原始文本、表单、表格和签名。该解决方案理解文档结构的能力使您在想从文档中提取的数据类型时拥有更大的灵活性。以下截图显示了表格检测的效果。
此解决方案能够理解复杂文档的版面,这有助于您提取文档中具体的信息。
身份证件分析
该解决方案旨在分析个人身份证明卡、驾驶执照或其他类似形式的身份证明。返回的信息包括中间名、州以及出生地等信息,并为每份身份证提供其准确度的信心分数,如下图所示。
您还可以选择进行批量预测,批量上传身份证文件,并作为批处理作业进行处理。这提供了一种快速而无缝的方式,将身份证件的详细信息转换为可用于后续处理如数据分析的键值对。
支出分析
支出分析旨在分析发票和收据等支出文档。以下截图显示了提取信息的样子。
结果以摘要字段和行项字段返回。摘要字段是从文档中提取的键值对,包含如 总金额、到期日 和 税金 等键。行项字段指的是在文档中按表格格式结构化的数据。这在提取信息时保留了文档的排版。
文档查询
文档查询旨在使用户能够向文档提问。当您拥有多页文档并希望提取非常具体的答案时,这是一个出色的解决方案。以下是您可以提问的类型及提取答案的样子。
该解决方案提供简单的界面,使您能够与文档互动。这在您希望从大型文档中获取具体细节时特别有帮助。
结论
SageMaker Canvas 提供了一个无代码环境,使您能够轻松使用 ML 来分析多种数据类型,如文本、图像和文档。其视觉化界面和与 AWS 服务如 Amazon Comprehend、Amazon Rekognition 和 Amazon Textract的整合,消除了编码和数据工程的需求。您可以分析文本的情感、实体、语言和 PII。对于影像,物体和文本检测功能使计算机视觉用例成为可能。最后,文档分析可以在保留其排版的同时提取文本,以供下游流程使用。SageMaker Canvas 中的即用型解决方案使您能够利用先进的 ML 技术从结构化和非结构化数据中产生见解。如果您有兴趣使用无代码工具和即用型 ML 模型,请立即尝试 SageMaker Canvas。如需更多信息,请参阅 Amazon SageMaker Canvas 的入门指南。
版权声明
Julia Ang 是一名位于新加坡的解决方案架构师。她曾与各行各业的客户合作,帮助他们根据业务需求采用解决方案。她还支持东南亚及其他地区的客户运用 AI 和 ML 于其业务中。工作之外,她喜欢通过旅行和创意活动来了解世界。
Loke Jun Kai 是一名位于新加坡的 AI/ML 专家解决方案架构师。他与亚细安ASEAN客户合作,以在 AWS 中大规模架构机器学习解决方案。Jun Kai 是低代码/无代码机器学习工具的倡导者。空闲时间,他喜欢亲近大自然。
一元机场免费
发表评论