制药业中的自然语言处理(NLP)

文章目录

  • NLP 用于发现新药物化合物
  • NLP 用于将参与者纳入临床试验
  • 药品营销的 NLP
  • 参考资料

转载来源:https://zhuanlan.zhihu.com/p/140044281
alt
自然语言处理(NLP)在制药业的使用似乎少于机器视觉和预测分析等 AI 方法,但尽管如此,NLP 在制药业仍有一些应用。该行业主要处理结构化数据,但是在某些业务领域中,非结构化数据是常态。在本文中,我们讨论了自然语言处理如何帮助制药公司理解其非结构化数据并使用其进行决策。

制药公司可能拥有各种数字格式的类型化、非结构化数据,这些数据可用于确定患者参加临床试验的资格。最常见的格式如下:

  • 医师笔记
  • 病理报告
  • 操作说明
  • 电子病历(EMR)数据

NLP 用于发现新药物化合物

药物发现(Drug Discovery)是许多软件供应商提供解决方案的业务领域,但是其中大多数声称涵盖药物化合物的大数据分析或分子成像。但是,NLP 解决方案与该领域的其他应用程序没有很多用例。

相反,该技术更适合于检测非结构化数据中的信息,这可能有助于药物发现过程。包括从以前的研究文档中提取信息,以查找注释过去的化学实验结果。

例如,制药公司的科学家可以使用 NLP 工具查找以前发现的化学反应,并发现它们不需要进行给定的实验,因为结果是已知的。然后,科学家可以利用所有相关知识重新评估进一步的实验。

公司过去测试某些药物或分子的经验被保存为实验记录数据或临床试验数据。这些文件通常由人使用带有药学术语的通用语言编写。开发人员需要在这些文档的标记版本上训练机器学习模型,以便它可以 “学习” 以识别单个表单上各个字段之间的差异。可以在多种类型的表单以及来自每个字段或表单的信息类型上训练单个模型。通常在临床试验和定期的就诊中报告药物的不良反应。因此,需要在临床试验报告和 EMR 数据上训练机器学习模型,以便从中识别信息。

NLP 用于将参与者纳入临床试验

临床试验匹配是制药业 NLP 的另一个用例。从医生的笔记和以往的试验中找到合适的患者进行临床试验是很费时的,但是可以使用在这些类型的文档上受过训练的 AI 软件自动进行。AI 供应商提供的常见解决方案是 NLP 程序,可以从扩展的患者档案列表或数据库中识别出最适合给定试验的患者。

除了要完成临床医生团队所需的时间外,将患者匹配到适当的临床试验对制药公司也构成了一些关键问题。

  • 检测和识别疾病和伤害的国际疾病分类(ICD-10)代码
  • 从各种非结构化数据源中提取重要数据点
  • 在保持患者隐私并隐藏受保护信息的同时利用患者数据


ICD-10 代码对于确定患者的临床试验生存能力至关重要。这些规范几乎标准化了患者过去可能遭受或曾经遭受的所有可能的疾病或伤害。需要对用于临床试验匹配的机器学习模型进行训练,以识别 ICD-10 代码或与患者相关的代码,并确定其是否与所测试的药物密切相关。

从这些格式中识别信息将需要对机器学习模型进行训练,以对在相同类型文档中找到的药物数据进行训练。开发人员不仅需要运行每个 ICD-10 代码,还需要标记每种类型的文档中的每个特定字段,并通过该模型运行成千上万的报告。这将使生成的软件能够检测哪些字段包含哪些类型的信息,以及文档可能引用的任何疾病的分类。


某些患者数据可能受到法律或协议的保护,无法将信息链接回个人的方式泄露。并不是很多供应商提供可以专门处理此类情况的解决方案,但是有些供应商声称能够在保护隐私的同时混淆信息,同时仍能提供有用的见解。对于没有详细介绍特定患者或医生但包含相关统计信息的图形或其他可视化效果,这可能是可能的。

药品营销的 NLP

在非结构化的客户数据中仍然可以找到许多营销和销售机会。随之而来的是,NLP 仍然有可能解决药品的市场或销售问题。

NLP 软件解决方案可以解决制药公司的营销或销售团队的最常见业务问题是:

  • 评估围绕产品的社交媒体嗡嗡声,并确定各个帖子的情绪
  • 利用客户或患者档案数据来查找个人或人口统计中的机会价值
  • 从销售电话记录中分析呼叫中心数

分析社交媒体帖子的情绪和特定药品的关联,将要求训练机器学习模型的人将与产品关联的各种单词,短语以及可能的互联网语标记为肯定或否定。一些句子片段也可以被标记以允许上下文的更具体的解释。

这将允许公司将对广告或产品的社交媒体响应汇总为单个数据点,可以对这些数据进行评估以评估营销活动的绩效。


客户和患者信息可以包括来自 CRM 的数据、匿名电子病历(EMR)数据或基于其先前购买的交易数据。NLP 软件可以利用广告、药品或其他产品来检测患者或客户的病史,并将其与人群中其他患者的经历进行汇总。通过向客户团队展示未来哪些区域可能需要更好的策略,可以对营销活动产生积极影响。

销售电话中心数据很可能存储为销售电话的音频记录,可以通过语音识别软件进行处理和识别。NLP 的此应用在创建 EMR 和其他数字转录的医疗文档中有很多用途,但是在这里它可用于识别客户参与度以及销售代表对销售协议的遵守情况。

AI 语音识别软件需要使用各种曲率和各种背景噪声,在尽可能多的不同声音上进行训练。这样,当销售代表与客户打交道时,如果出现任何干扰,模型可以更轻松地识别通话中所说的话。重要的是要注意,与其他行业相比,药品的营销和销售解决方案将需要更彻底的数据标记和准备过程。这是因为需要针对制药业的机器学习模型对单独的医学和制药短语和代码进行训练,而其他行业却没有。

参考资料

https://emerj.com/ai-sector-overviews/natural-language-processing-in-pharma-current-applications/

热门文章

暂无图片
编程学习 ·

Guns V4.0中的代码生成的使用

Guns V4.0的生成代码功能1.创建需要用的表,并在数据库中生成2.点击Guns中的代码生成3.运行生成的sql4.权限配置5.End 1.创建需要用的表,并在数据库中生成 创建自己的表 DROP TABLE IF EXISTS `book`; CREATE TABLE `book` (`id` int(11) NOT NULL AUTO_INCREMENT COMMENT 主键…
暂无图片
编程学习 ·

PAT 1161 Merging Linked Lists

原题链接:暂无 关键词:链表 Given two singly linked lists L 1 =a 1 →a 2 →…→a n−1 →a n L1=a1→a2→…→an−1→an and L 2 =b 1 →b 2 →…→b m−1 →b m L2=b1→b2→…→bm−1→bm . If n≥2m n≥2m , you are supposed to reverse and merge the shorter one i…
暂无图片
编程学习 ·

【Linux基础编程】echo命令

01.文章目录 文章目录01.文章目录02.命令概述03.命令格式04.常用选项05.参考示例5.1 输出字符串5.2 输出变量PATH5.3 转义特殊字符5.4 重定向到文件中5.5 输出命令结果5.6 输出换行符5.7 输出退格符5.8 输出字符串不换行5.9 支持通配符5.10 指定输出颜色5.11 设置背景色5.12 文…
暂无图片
编程学习 ·

离线安装pyinstaller时,报错的解决过程

报错内容: Command ““c:\program files\python37\python.exe” “c:\program files\python37\lib\site-packages\pip” install --ignore-installed --no-user --prefix C:\Users\yf\AppData\Local\Temp\pip-build-env-l034cdvw\overlay --no-warn-script-location --no-bina…
暂无图片
编程学习 ·

Day 11 武装飞船

《外星人入侵》游戏要实现的是:玩家控制一艘出现在屏幕底部中央的飞船,可以使用箭头左右移动飞船,还可以使用空格来进行射击,游戏开始时候一群外星人出现在天空,他们在屏幕中向下移动,玩家的任务是射杀这些外星人,玩家将所有外星人都消灭干净后,会出现一群新的外星人,…
暂无图片
编程学习 ·

ITEST考试助手 --- 记一次我与ITEST的拉锯战

文章目录0x0 前言0x1 1.0版本 -- 解除限制我方进攻0x2 2.0版本 - 自动翻译与解析听力我方进攻ITEST方防御0x3 3.0版本 -- 解除切屏限制与添加翻译助手反制防御我方进攻ITEST防御0x4 4.0版本 - 全随机与ajax拦截反制防御我方进攻ITEST防御0x5 5.0版本 - 只读属性的胜利反制防御我…
暂无图片
编程学习 ·

POM 标签大全详解

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/maven-v4_0_0.xsd"><!--父项目的坐标。…
暂无图片
编程学习 ·

设计模式-工厂模式

关注公众号 JavaStorm 获取更多精彩工厂模式定义 工厂方法(Factory Method)模式的意义是定义一个创建产品对象的工厂接口,将实际创建工作推迟到子类当中。核心工厂类不再负责产品的创建,这样核心类成为一个抽象工厂角色,仅负责具体工厂子类必须实现的接口,这样进一步抽象化…
暂无图片
编程学习 ·

Python——走马灯

走马灯 def f():import times=人生苦短,我学Pythonc=0while True:print(s)time.sleep(0.3)#休眠0.3秒。每隔0.3秒,即300毫秒显示一行代码s=s[1:]+s[0]c+= 1if c==2*len(s):break f()输出结果 人生苦短,我学Python 生苦短,我学Python人 苦短,我学Python人生 短,我学Python…
暂无图片
编程学习 ·

抓头,0xc00005错误看到一个比较多的解释 记录一下

说明文字:PAGE-FAULT-IN-NONPAGED-AREA 通常的原因:内存错误(数据不能使用分页文件交换到磁盘中). 解决方法:卸掉所有的新近安装的硬件. 运行由计算机制造商提供的所有系统诊断软件.尤其是内存检查. 检查是否正确安装了所有新硬件或软件,如果这是一次全新安装,请与硬件或软…
暂无图片
编程学习 ·

2.4-1、斐波那契数列

1、斐波那切数列 【问题描述】 斐波那切数列0,1,1,2,3,5,8,13,21,34,55……从第三项起,每一项都是紧挨着的前两项的和。写出计算斐波那切数列的任意一个数据项递归程序。 【输入格式】 输入所求的项数。 【输出格式】 输出数据项的值。 【输入样例】fbi.in 10 【输出…
暂无图片
编程学习 ·

.NET中解决ajax跨域问题

一行代码解决:HttpContext.Response.AppendHeader(“Access-Control-Allow-Origin”,"*"); 然后,该怎么返回数据怎么返回数据
暂无图片
编程学习 ·

开启阿里云对象存储OSS防误删新功能,保护您珍贵的数据。

一、背景阿里云对象存储 OSS 是保存海量数据的平台,支持丰富的应用。在使用过程中难免会遇到误操作、程序 Bug、覆盖写等导致数据被删除的场景,对于数据的丢失会非常着急,后果也非常严重,甚至某些情况下还会影响你的职业生涯。OSS 每年都会遇到多起客户误删除数据的事件,为…
暂无图片
编程学习 ·

专业外语学科复习总结

文章目录英译汉选择题Unit 1-ExcerciseUnit 2-ExerciseUnit 3-ExerciseUnit 4- ExerciseUnit 5- ExerciseUnit 6- ExerciseUnit 7- Exercise阅读题作文阶段性巩固练习(unit1~3)阶段性巩固练习(unit4~5)阶段性巩固练习(unit6~7) 英译汉 OS also manage files on computer hard d…
暂无图片
编程学习 ·

兔(图)解之初识贪心算法

嗯,好想她呀....加油生活。 希望她好好的....剪绳子 给你一根长度为 n 的绳子,请把绳子剪成 m 段(m、n 都是整数,n>1 并且 m>1),每段绳子的长度记为 k[0],k[1],...,k[m]。请问 k[0]xk[1]x...xk[m]可能的最大乘积是多少?例如,当绳子的长度是 8 时,我们把它剪成 …
暂无图片
编程学习 ·

前端性能优化

浏览器渲染机制 Html解析成DOM树,Css解析成CSS树,将DOM树与CSSDOM规则树合并在一起生成Render树,遍历渲染树开始布局,计算每个节点的位置大小信息,将渲染树每个节点绘制到屏幕阻塞渲染当浏览器遇到一个script标记时,DOM构建将暂停,直至脚本完成执行,然后继续构建DOM。每…
暂无图片
编程学习 ·

TCP/IP协议基础知识笔记

1.TCP/IP协议包括FTP、SMTP、TCP、UDP、IP五中协议 。 2.TCP/IP四层体系结构:应用层、传输层、网络层、数据链路层。 3.TCP传输层协议,IP 网络层协议。 4.链路层:数据包必须是从一块网卡传送到另一块网卡。而网卡地址就是数据包的发送地址和接收地址 5.IP地址与域名均是一一…
暂无图片
编程学习 ·

Java尚硅谷数据结构与算法学习记录(14)-AVL树

平衡二叉树(AVL树) 平衡二叉树也叫平衡二叉搜索树(Self-balancing binary search tree)又被称为AVL树, 可以保证查询效率较高。 具有以下特点:它是一 棵空树或它的左右两个子树的高度差的绝对值不超过1,并且左右两个子树都是一棵平衡二叉树。平衡二叉树的常用实现方法有红…