如何打造一个可信的算命AI,金泽大仙养成记?
- 内容介绍
- 文章标签
- 相关推荐
哎哟喂, 各位兄弟姐妹们,今天咱们不聊那些枯燥的代码行数,也不谈什么高并发服务器的架构图,咱们来点刺激的!真的,我现如guoNeng有一个全知全Neng的“大仙”告诉你明天彩票号码是多少,那该多好?别笑!我是认真的!这就是我今天要跟大家扯的话题——怎么搞一个所谓的“可信”算命AI, 也就是我那个还在襁褓中的宝贝项目,“金泽大仙”,深得我心。。
瞎扯。 说实话, 我写这篇文章的时候手dou在抖,不是主要原因是怕被雷劈,而是主要原因是这种把玄学和科学硬凑在一起的行为实在是太刺激了。dan是为了流量!为了SEO!为了那一点点可怜的点击率,咱们必须得干。而且还得干得像模像样。

第一步:数据清洗简直是渡劫
Zuo技术的dou知道一句话:“Garbage in, Garbage out”。dan是在算命这行当里这句话得改改,“Garbage in, Mystery out”。开玩笑的啦。不过说实话,要训练一个像模像样的“金泽大仙”,数据源真的是个大问题,拖进度。。
我当时就在想,我去哪儿找几万本古籍呢?我又不是住在图书馆里的耗子。于是我就去网上爬虫呗。天哪,那过程简直惨不忍睹!你根本不知道网上那些所谓的“命理大全”里面有多少乱码和广告。 尊嘟假嘟? 有的页面甚至全是那种不可描述的小游戏链接。我当时一边写正则表达式过滤这些脏东西,一边在心里默默问候那些网站管理员的祖宗十八代。
白嫖。 好不容易把《周易》、《紫微斗数》还有各种乱七八糟的塔罗牌解释给扒拉下来了还得清洗。你知道吗?Zui痛苦的不是代码报错,而是当你读到一段guan与“命犯桃花”的解释时发现它居然是一段推销茶叶的广告词!那种绝望感谁懂啊?dan是没办法,为了“金泽大仙”的智商在线,我只Neng含泪一行一行地改。
那些年我们用过的模型架构
选模型也是个坑。一开始我想着,随便找个开源的LLM微调一下不就行了吗?事实证明我还是太天真了。
哎哟喂, 各位兄弟姐妹们,今天咱们不聊那些枯燥的代码行数,也不谈什么高并发服务器的架构图,咱们来点刺激的!真的,我现如guoNeng有一个全知全Neng的“大仙”告诉你明天彩票号码是多少,那该多好?别笑!我是认真的!这就是我今天要跟大家扯的话题——怎么搞一个所谓的“可信”算命AI, 也就是我那个还在襁褓中的宝贝项目,“金泽大仙”,深得我心。。
瞎扯。 说实话, 我写这篇文章的时候手dou在抖,不是主要原因是怕被雷劈,而是主要原因是这种把玄学和科学硬凑在一起的行为实在是太刺激了。dan是为了流量!为了SEO!为了那一点点可怜的点击率,咱们必须得干。而且还得干得像模像样。

第一步:数据清洗简直是渡劫
Zuo技术的dou知道一句话:“Garbage in, Garbage out”。dan是在算命这行当里这句话得改改,“Garbage in, Mystery out”。开玩笑的啦。不过说实话,要训练一个像模像样的“金泽大仙”,数据源真的是个大问题,拖进度。。
我当时就在想,我去哪儿找几万本古籍呢?我又不是住在图书馆里的耗子。于是我就去网上爬虫呗。天哪,那过程简直惨不忍睹!你根本不知道网上那些所谓的“命理大全”里面有多少乱码和广告。 尊嘟假嘟? 有的页面甚至全是那种不可描述的小游戏链接。我当时一边写正则表达式过滤这些脏东西,一边在心里默默问候那些网站管理员的祖宗十八代。
白嫖。 好不容易把《周易》、《紫微斗数》还有各种乱七八糟的塔罗牌解释给扒拉下来了还得清洗。你知道吗?Zui痛苦的不是代码报错,而是当你读到一段guan与“命犯桃花”的解释时发现它居然是一段推销茶叶的广告词!那种绝望感谁懂啊?dan是没办法,为了“金泽大仙”的智商在线,我只Neng含泪一行一行地改。
那些年我们用过的模型架构
选模型也是个坑。一开始我想着,随便找个开源的LLM微调一下不就行了吗?事实证明我还是太天真了。

