前段时间发现谷歌开源了一个挺厉害的Python库LangExtract,简单说就是专门用来从各种杂乱无章的信息里,把你想要的结构化数据给"挖"出来。
说起这个,想起之前做项目时的一段血泪史。
那会儿我们要处理几百份用户上传的合同,听起来很简单吧?
就是把合同里的关键信息,比如谁和谁签的、地址在哪、联系方式、金额多少,这些东西提取出来,然后录入系统。
看似简单,实际做起来真的让人头大。
那些PDF、Word文档、图片里的内容完全没有规律可言,要把这些乱七八糟的文本转换成数据库里整整齐齐的数据,真的太难了。
当时我们试了各种办法:找外包公司人工录入(成本太高)、写正则表达式做匹配(稍微格式一变就完蛋)、考察第三方的合同识别服务(价格贵得离谱)。
整个过程简直是在各种坑里反复跳,因为合同格式千变万化,一个小小的表述差异就能让精心设计的规则彻底失效。
现在看到LangExtract,我的第一反应就是:这不就是我们当年做梦都想要的神器吗?
它最牛的地方在于解决了两个让人特别头疼的问题:
第一个是"找得准"
LangExtract提取出来的每个信息,都能准确告诉你它在原文的确切位置。比如它说合同甲方是"某某公司",同时会标出这四个字在原文档第几页第几段的具体位置。这对需要人工复核的场景简直太友好了——审核员不用再像大海捞针一样翻找,直接就能验证信息的准确性。
第二个是"不瞎编"
用过大模型的朋友应该都知道,有时候让它总结内容,它会自己"脑补"一些原文没有的东西。写小说的时候这叫创意,但做数据提取的时候这就是灾难。
LangExtract通过让你自定义提取模板和提供示例,给AI套上了"紧箍咒",确保它严格按照你的要求输出,不会随意发挥。
对于我们这些要解决实际业务问题的人来说,这意味着什么?
意味着你可以用很低的成本,快速搭建一套"文档数字化处理系统"。以前需要一个团队折腾好几个月的活儿,现在可能一个开发者花几天时间,调用LangExtract就能做出一个可用的版本。
这种效率提升,真的是质的飞跃。
说起这个,想起之前做项目时的一段血泪史。
那会儿我们要处理几百份用户上传的合同,听起来很简单吧?
就是把合同里的关键信息,比如谁和谁签的、地址在哪、联系方式、金额多少,这些东西提取出来,然后录入系统。
看似简单,实际做起来真的让人头大。
那些PDF、Word文档、图片里的内容完全没有规律可言,要把这些乱七八糟的文本转换成数据库里整整齐齐的数据,真的太难了。
当时我们试了各种办法:找外包公司人工录入(成本太高)、写正则表达式做匹配(稍微格式一变就完蛋)、考察第三方的合同识别服务(价格贵得离谱)。
整个过程简直是在各种坑里反复跳,因为合同格式千变万化,一个小小的表述差异就能让精心设计的规则彻底失效。
现在看到LangExtract,我的第一反应就是:这不就是我们当年做梦都想要的神器吗?
它最牛的地方在于解决了两个让人特别头疼的问题:
第一个是"找得准"
LangExtract提取出来的每个信息,都能准确告诉你它在原文的确切位置。比如它说合同甲方是"某某公司",同时会标出这四个字在原文档第几页第几段的具体位置。这对需要人工复核的场景简直太友好了——审核员不用再像大海捞针一样翻找,直接就能验证信息的准确性。
第二个是"不瞎编"
用过大模型的朋友应该都知道,有时候让它总结内容,它会自己"脑补"一些原文没有的东西。写小说的时候这叫创意,但做数据提取的时候这就是灾难。
LangExtract通过让你自定义提取模板和提供示例,给AI套上了"紧箍咒",确保它严格按照你的要求输出,不会随意发挥。
对于我们这些要解决实际业务问题的人来说,这意味着什么?
意味着你可以用很低的成本,快速搭建一套"文档数字化处理系统"。以前需要一个团队折腾好几个月的活儿,现在可能一个开发者花几天时间,调用LangExtract就能做出一个可用的版本。
这种效率提升,真的是质的飞跃。
久病成良医我也快成前端了属于是
一年以前问@秋风_irwin 为什么链接跳转的方式中SEO友好最推荐Example
2. window.open("url", "_blank")
3. window.location.href = "new_url"
总感觉部分客户网站页面的Crawling非常费劲,新页面总是很久才被爬虫发现;因为没代码背景,所以始终搞不清问题在哪儿,毕竟从用户行为上,点击链接也能顺利跳转
前两天看AITDK的Links总算发现了,页面内能跳转的链接数和显示的链接数对不上,后者小很多,一问技术栈是location.href
好嘛,原来如此,都对上了;翻了谷歌的技术文档(见链接)确实不推荐JS based动态注入的跳转,因为可能无法抓取,就等于这条链接在谷歌眼里是不存在的
印象最深刻的是临末秋风还说了句,第三种是前端最喜欢写的
嗯,确实如此(看了一眼其他客户很多也用的这个)
除了传递页面权重外其他
#Y3 国际娱乐城投资10个亿美金 打造全网最牛线上国际娱乐城.业界龙头,行业第一,只有你想不到的.没有我们
【上线九大福利|专属开放】😘 首存福利最高送8888🔤 😘 每日充值,最高可获得188🔤 😘 电子亏损金最高8%😘 PG幸运注单奖上奖,最高得 2888🔤 😘 电子每日打码狂欢,最高8888🔤 😘 百家乐8输9 转运金,最高可领取5888🔤 😘 每日捕鱼亏损彩金 最高6%😘 电子快乐连消领彩金 神秘奖金无上限
🌐 官网注册网址 : y3867.com
💖Y3国际专属客服:@Y3VIP8888
招实习生👇
参与 ShipAny.AI 这个项目的功能迭代和文档编写。
要求:
熟悉 nextjs + react + typescript,有全栈开发作品优先
工作形式:remote,每周不超过 20h
薪资:按周结算,200 美金/周
参与 ShipAny.AI 这个项目的功能迭代和文档编写。
要求:
熟悉 nextjs + react + typescript,有全栈开发作品优先
工作形式:remote,每周不超过 20h
薪资:按周结算,200 美金/周
转@solaryf
专业PM和产品爱好者的差别:
“1,爱好者通常能从体验出发对细节做出恰当的分析,但很难把握该细节在这个方向(领域)中的重要性。对一个事情做出合理的重要性、优先级判定,这是需要非常专业的素养和经验之后才能达到的。
2,爱好者通常能看到一个事情的正面影响,但较难看到这个事情的负面影响。比如防盗门上的透视孔吧,好处是可以看下访问者是谁;坏处是撬锁者捅开透视镜头,拿根铁丝就能拉开门栓了。
你要是问门业这行的人,很多人知道,但消费者有几个晓得?
3,爱好者通常能看到一个事情的收益,但较难看到实现这个事情的成本和代价。研发成本之类,相对好判断和理解:容易忽略的是像“机会成本”这样的问题,陷阱常在不经意处。
4,爱好者通常会比较关注这个事情在成功后会如何灿烂辉煌,但较少关注到要达到成功,其关键路径是什么,是否可行。
5,爱好者经常是一时性的热情,而专业者需要持续性的热情。这种持续的热情,很多时候需要靠理想去支撑。将工作不仅仅是看作养家糊口的手段,更当作个人成长和实现的平台。这个至关重要。
以上稍微列了几点,供爱好者及专业者参考。我在加入百度的时候,就像上面提到的那样,是一个不折不扣的爱好者。
有人问我对自己最欣赏的是什么?概括一下,大概是:
有十足的好奇心和批判质疑情神,但在强悍的逻辑和事实面前很容易折服,能迅速而主动的将其中的合理性抽象化并转为己有”
来自百度首席产品设计师孙云丰-2012年
专业PM和产品爱好者的差别:
“1,爱好者通常能从体验出发对细节做出恰当的分析,但很难把握该细节在这个方向(领域)中的重要性。对一个事情做出合理的重要性、优先级判定,这是需要非常专业的素养和经验之后才能达到的。
2,爱好者通常能看到一个事情的正面影响,但较难看到这个事情的负面影响。比如防盗门上的透视孔吧,好处是可以看下访问者是谁;坏处是撬锁者捅开透视镜头,拿根铁丝就能拉开门栓了。
你要是问门业这行的人,很多人知道,但消费者有几个晓得?
3,爱好者通常能看到一个事情的收益,但较难看到实现这个事情的成本和代价。研发成本之类,相对好判断和理解:容易忽略的是像“机会成本”这样的问题,陷阱常在不经意处。
4,爱好者通常会比较关注这个事情在成功后会如何灿烂辉煌,但较少关注到要达到成功,其关键路径是什么,是否可行。
5,爱好者经常是一时性的热情,而专业者需要持续性的热情。这种持续的热情,很多时候需要靠理想去支撑。将工作不仅仅是看作养家糊口的手段,更当作个人成长和实现的平台。这个至关重要。
以上稍微列了几点,供爱好者及专业者参考。我在加入百度的时候,就像上面提到的那样,是一个不折不扣的爱好者。
有人问我对自己最欣赏的是什么?概括一下,大概是:
有十足的好奇心和批判质疑情神,但在强悍的逻辑和事实面前很容易折服,能迅速而主动的将其中的合理性抽象化并转为己有”
来自百度首席产品设计师孙云丰-2012年