使用深度学习进行源代码分类

新知榜官方账号

2023-07-10 13:48:41

使用深度学习进行源代码分类

编程语言是软件开发的主要工具。自20世纪40年代以来，已经有数百种语言被发明出来，每天，大量的各种语言编写的代码活跃着代码库。我们认为，如果有一个源代码分类器，可以识别一段代码是用哪种语言编写的，这将会是非常有用的工具，可以用于在StackOverflow和技术类维基百科之类的平台上自动进行语法高亮显示和标签建议。这激励我们利用最新的用于文本分类的AI技术，训练一个模型来基于编程语言对代码片段进行分类。

我们从GitHub代码库收集了数十万个源代码文件。在训练模型之前，必须对原始数据进行处理以消除或减少代码中一些不需要的特征。最终训练好的分类器效果非常好，本文末提供了结果，以及对于模型的决策的一些解释。

数据

Github最受欢迎的49种语言编程语言的选择依据是它们的突出性。我们使用GitHubAPI来检索特定语言的代码仓库。我们检查了数千个代码仓库，但是忽略了大小超过100mb的仓库，以避免在下载和预处理上花费太多时间。我们使用文件扩展名来标记每个样本的编程语言。

图1显示了2014年第四季度GitHub上最常用的49种语言。其中，JavaScript是使用最多的语言，其次是Java，第三是Python。这个分析仅考虑活跃代码库，即在这期间至少有一次代码推送的存储库。

我们发现，C＃是拥有最多源代码的语言，而Arduino在我们爬行的资源中是最少的。为了避免训练集不平衡，我们每一类语言最多使用10000个样本。

数据处理

在单个源代码文件使用多种语言的情况下，我们只想保留该文件的主要语言的代码片段，并删除其他所有内容。以同样的方式，可以使用正则表达式或Python中的内置解析器从代码中删除HTML标签。

在预处理步骤中，我们需要对所有文本进行标记。我们使用正则表达式提取token。在这个步骤之后，数据就为进行训练做好准备了。

模型选择

卷积神经网络（CNN）在文本分类任务中取得了显著的成果。我们的模型使用一个wordembedding层，后面跟一个有多个filter的卷积层，然后是一个max-pooling层，最后是一个softmax层。我们使用一个非晶态、随机初始化的嵌入层，因此是从头开始训练向量。

结果分析

我们对10％的数据进行了测试，并计算每个标签的准确性、精度、recall和f1-score。accuracy,precision,recall和f1-score的总体结果分别是97％、96％、96％和96％。每个标签的得分也相当高。通过使用LIME生成“explanations”，我们可以知道为什么模型选择某一个标签而不是另一个。

虽然这个分类器的表现非常好，但仍有改进结果的方法。例如，尝试直接从character学习而不需要wordembedding层的character-level模型。此外，可以获得每种编程语言的版本数据，以便可以将特定版本分配给源代码片段。

本页网址：https://www.xinzhibang.net/article_detail-7433.html

寻求报道，请

关键词

分享至微信：

相关工具

CodeGeex

国内团队开发的免费AI编程助手

HTTPie AI

AI API开发工具

HeyCLI

自然语言转义为CLI命令

GitHub Copilot

GitHub AI编程工具

Locofy

AI无代码工具将Figma、Adobe XD和Sketch设计转换成前端代码

AI Code Reviewer

AI代码检查

Visual Studio Code最强大的JavaScript插件

前言Visual Studio Code无疑是最流行的轻量级代码编辑器。它提供了如代码智能提示等开发者非常需要的功能，而这些功能，曾经只在像Eclipse或者Visual Studio 2017这样的完整集成开发环境(IDEs)中才有。本文将从专门针对前端开发者的VSCode插件入手，向您介绍最流行

分类标签 VisualStudioCodeJavaScript插件代码编辑器

11-30 16:30

人工智能的应用：风险与监管

人工智能的应用：风险与监管近年来，人工智能（AI）技术的发展突飞猛进，应用场景越来越广泛。然而，随着AI技术的深入应用，相关的风险也开始暴露出来，比如肖像权侵犯、知识产权侵权、法律风险等。如何加强对AI技术和应用的监管，成为了全球范围内的重要议题。肖像权侵犯随着AI技术的发展，生成式AI（AIGC）

分类标签人工智能风险监管

11-10 16:32

VSCode扩展推荐

VSCode扩展推荐Visual Studio Code是一款由Microsoft提供的免费源代码编辑器，它具有对TypeScript，JavaScript和Node.js的内置支持。本文将为您介绍一些最有用的VSCode扩展，以及它们的功能和优点。GitLensGitLens是一款非常流行的VSC

分类标签 VSCode扩展工具

10-28 02:14

使用软件开发生产线CodeArts发布OBS，函数工作流刷新CDN缓存-云社区-华为云

使用软件开发生产线CodeArts发布OBS，函数工作流刷新CDN缓存-云社区-华为云本文分享自华为云社区《使用软件开发生产线CodeArts发布OBS，函数工作流刷新CDN缓存-云社区-华为云》，介绍了如何使用CodeArts构建流水线，通过PUSHMarkdown来发布文章，然后自动部署到OBS

分类标签华为云软件开发CDN缓存

10-25 10:13

AIGC技术对工业软件的应用及市场前景

AIGC技术的概念和应用场景...AIGC技术在工业软件方面的应用...市场前景和发展趋势...AIGC技术面临的挑战...

分类标签 AIGC人工智能工业软件

10-25 10:12

Meta开源文本生成代码模型CodeLlama

Meta开源文本生成代码模型CodeLlamaMeta在官网正式开源了文本生成代码模型CodeLlama。CodeLlama模型通过特定代码数据预训练、微调而成，支持文本或代码生成、调试和完成任务。CodeLlama是基于Meta最强开源大语言模型Llama2开发而成，提供了70亿、130亿、340

分类标签 MetaCodeLlama开源文本生成代码模型

10-18 10:30

程序员摸鱼神器来了！AmazonCodeWhisperer AI代码辅助工具

程序员摸鱼神器来了！AmazonCodeWhisperer AI代码辅助工具AI技术发展得如此迅速，现在连聊天和画图都不在话下了，更别说码农写代码的工作了。只需要输入一行提示，AmazonCodeWhisperer就能自动帮你补全代码，速度快，准确率高得惊人。AmazonCodeWhisperer是

分类标签程序员摸鱼神器AI代码辅助工具AmazonCodeWhisperer编程语言

10-18 10:12

推荐6款好用的IDE工具

CloudToolkitCloudToolkit是一款IDE插件，可以帮助开发者更高效地开发、测试、诊断并部署应用。通过CloudToolkit，开发者能够方便地将本地应用一键部署到任意机器（本地或云端），并内置Arthas诊断、高效执行终端命令和SQL等，提供IntelliJIDEA版，Eclip

分类标签 CloudToolkitJetbrainsOpenSumiAtomFIDENetBeans

10-18 10:10

8款高效的VSCode插件

8款高效的VSCode插件VSCode是这近几年非常热门的开发工具，它让开发效率大大提升。今天，快快小编就来介绍8款高效的VSCode插件，总有一款适合你。1、GitLensGitLens能够增强VisualStudioCode中内置的Git功能。它不仅能帮助你通过Gitblame注解直观地看到代码

分类标签 VSCode插件GitLenslocalhistoryESLintPrettiervscode-iconsVimVSCodechange-case

10-18 10:04

使用GPT-3在一个代码库中发现了213个安全漏洞

使用GPT-3在一个代码库中发现了213个安全漏洞近年来，人工智能和机器学习领域取得了巨大的发展，并开辟了全新的可能性领域。其中一个备受关注的领域是基于人工智能的代码分析，特别是使用人工智能模型来检测代码中的安全漏洞。本文介绍了作者使用GPT-3在一个代码库中发现了213个安全漏洞的实验结果，并与

分类标签 GPT-3安全漏洞代码库

10-15 10:12

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway