中文AI，真的不行？-蓝影头条

当前位置：当前位置：首页 >热点 >中文AI，真的不行？正文

中文AI，真的不行？

[热点] 时间：2024-01-23 14:03:50 来源：蓝影头条作者：焦点点击：132次

前几天OpenAI的中文AI老板说，目前还没有在未来半年训练GPT-5的真的不行计划。

所以年内不大可能会有新版本的中文AIChatGPT了。

这对国内其他语言大模型（LLM）来说是真的不行个好消息：指不定可以利用这个时间窗口，弯道超车。中文AI

但我还是真的不行没那么乐观。

前几天跟我以前的中文AI技术合伙人聊了聊，他说他挺认同「中文语料质量比较差」的真的不行观点。

英文有句谚语叫「We are what we read」（我们是中文AI我们读的书的总和）。

而AI这东西跟人一样，真的不行输入AI的中文AI语料库的质量决定了它输出的质量。

如果输入的真的不行数据都是垃圾，那输出的中文AI也都是垃圾（Garbage in, garbage out）。

所以从这个角度，真的不行在LLM方面，中文AI中文语境为主的国内厂商要弯道超车可能还是比较难。

So，中文互联网真的没有好内容吗？

很多人之所以这么论断，主要还是因为中英的内容数量本身就不在一个量级——

毕竟英国当年在殖民过程中，硬是把英文给传播成了主流的国际通用语言；另外就是现在的第一经济体美国也讲英文。

学术领域主流期刊大部分都是英文的；大多数编程语言呢又都是英文为主体的……

另外，AI处理中文的能力本身也会弱一些——

比如中文没有过去时、现在时、未来时，在时态上的判断就要难一点。

再比如英文本身就自带空格分词，而中文的分词则没那么简单。

因此呢，说「中文语料库」不行，好像还是有点道理。

另外，这些年还有个趋势——

结合身边大多数人的感受，这些年网上的深度内容确实越来越少了。

其实十年前，简中互联网也曾经有过good old days——

知乎刚创立的时候，大把优质问答内容，每个人都用写paper的心态来写回答，而不是现在的段子和刚编的故事；

微博大V虽然时不时会带风向，但大家的观点进行碰撞后，倒也可以产生不少火花。

而后来，互联网渗透率提高了……

这会导致两个后果——

一个是大V的影响力、传播力变大了。

以前说错话没什么社会影响，毕竟网民的基数也不多。

而现在互联网不再是什么法外之地……

从监管方的角度，内容安全审核的必要性也越来越重要。

所以你会发现，当年那些所谓「公知」们，基本都失去了表达欲。

另一个是非知识类输出变多了。

玩互联网的不止受教育程度高的「公知」们了，普通人也有了发言权。

网络内容的产出门槛其实很低，从博客BBS年代开始，普通人随随便便就可以编一堆假新闻（何况现在还有ChatGPT助力）。

另一方面，营销号们也会主动迎合大众市场的口味。

这导致现在遍地都是三种内容：情绪、娱乐、对立（阶级/性别/民粹），分别对应三种流量密码。

前面两者至少还有情绪价值，对立则会让我们内部消耗。

此消彼长，中文互联网内容质量下降也是正常。

Anyway，我觉得说「中文语料库不行」的人，更多还是想发泄情绪上的不满吧。

毕竟AI的学习，也不是囫囵吞枣，还是会做数据清洗的。

另外，虽然互联网普及率上来了，但算法也造成了信息茧房。

你要完全屏蔽非知识类内容也不是没有办法。

还有就是，追求认知提升的人们总会想到自己的新去处。

比如我身边有很多朋友都很喜欢用Podcast/播客——浮躁的多数人是没法静下心来收听严肃内容的。

「Greed is good.」

「很帅的投资客」的所有内容皆仅以传递知识与金融教育为目的，不构成任何投资建议。一切请以最新文章为准。

图文/ 狐狸

Icon/ freepik from flaticon

参考资料/

《快讯｜网信办整治饭圈乱象：打击挑动对立、粉丝互撕、拉踩引战、诱导未成年人集资等行为》《国家网信办：严厉打击网上恶意损害企业和企业家形象声誉等违法违规行为》《ChatGPT插件下周全面开放，这是首个官方认证的“投资Plugin”》《Usage statistics of content languages for websites》

(责任编辑：休闲)

各路代购、“黄牛”纷纷现身谁在爆买Vision Pro南韓對馬來西亞