Press "Enter" to skip to content

“增强!”–我在Brainsar的形象增强实习经历

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

我们以前都听过这样的话:“™œ,你能帮我增强一下吗?”在一次犯罪调查中,我们一边看着一些糟糕的闭路电视镜头,一边说:“Euro�âuro”。好莱坞从不缺乏幻想。在这篇博客文章中,我们可能会把这变成现实。

 

作为一名人工智能专业的大四学生,我在寻找实习机会的过程中遇到了Brainsar。在疫情肆虐的情况下实习并不理想,但幸运的是,团队张开双臂欢迎我。嗯,至少是打个比方,因为由于政府的限制,我的实习工作最终将百分之百地远离这里。

 

不过,值得庆幸的是,布拉因贾尔令人惊叹的团队做了很好的工作,让我有宾至如归的感觉,而我甚至都没有离开过家。

 

对于实习的主题,我们共同同意了一项围绕形象增强的任务。这是我最大的两个爱好的完美结合:人工智能和摄影。增强意味着什幺,由我来决定。

我决定把这个问题分成三个部分。超分辨率是第一个。这就是电视节目中通常所说的“EUROURE˜Enhance”EURO™。其次,我想构建一个人工智能算法来给黑白图像上色。最后,它可以在不降低细节的情况下去除图像中的噪声。

 

成为好莱坞电影明星(超分辨率)

 

好吧,也许电视节目中标志性的央视欧陆增强!欧罗œ�有时有点夸张。这是因为直到几年前,它还完全是科幻小说。然而,近年来,超分辨率在人工智能社区的兴趣大幅增加。不断有越来越多的新技术问世,每一种都比上一种稍好一些。

 

为了解决这个问题,我使用了GAN架构。简而言之,我们建立了两个相互竞争学习的神经网络。如果一方输给另一方,它将试图理解为什幺会这样,并为下一轮做出改进。当然,在现实世界中,情况要比这复杂得多。你可以在这里获得更多关于甘斯的详细信息。 here

 

在低层,我还实现了对此体系结构的一些进一步改进。最值得注意的是知觉丧失的概念。这是一种根据输出的真实感来计算输出误差的技术,而不是逐个像素地与地面事实进行比较。 perceptual loss

 

为您省去了太多的路障、后退和挣扎,结果可以在这里看到。多亏了深度学习,™才能从无到有地产生如此多的细节,这真是令人惊讶。

着色器Enhance-AI

 

对于我的图像增强器的第二部分,我决定尝试给黑白照片上色。从本质上说,我会努力增强旧照片,让它们重现生机。

 

几乎所有的数码照片都是用RGB颜色空间表示的。在这里,每个像素都有三个值,分别包含红色、绿色和蓝色的强度。这意味着所有三个通道都包含有关该像素的颜色和亮度的信息。这不是彩色化的理想选择。我基本上想通过黑白图像将亮度作为输入,并将颜色作为神经网络的输出。

 

这导致我将RGB输入转换到实验室颜色空间。这里,L通道包含像素的亮度,而A和B通道包含色彩平衡信息。基本上,我给出的L值作为每个像素的输入,并希望预测A和B通道。

 

我从一些基本的卷积网络开始,花了几周的时间完善我的人工智能输出。不幸的是,结果充其量也就是平庸。人工智能几乎把所有的东西都涂成了棕色,就像欧元˜安全赌注欧元™一样。它似乎在训练过程中没有学习到模式,只是以困惑告终。

 

挖掘得更深一点

 

这就是我决定从头开始的时候。这一次,我利用了我从超分辨率中获得的关于甘斯和知觉损失的知识。毕竟,我从这篇论文中学到的是,这些都是更好的文体学习方法,因此也使其成为彩色化的理想方法。

 

GAN中的“EUROURE˜Gâuro™”代表生成性,这意味着它可以从随机输入噪声中生成新的输出。这意味着GAN将尝试生成逼真的效果。在这种情况下,是指逼真的颜色。™把t恤涂成红色或蓝色并不重要,因为我们也无法分辨原色。但它应该了解到,树木通常是绿色的,天空和水是蓝色的,等等。这使得Gans更适合这些风格目的,因为传统的机器学习算法会试图将图案与颜色一对一地联系起来,这是不可能的,只会让人工智能感到困惑。现在,在将这些GaN和知觉损失的概念应用到着色器中之后,效果要好得多,正如您在下面看到的。

消噪器Enhance-AI

 

这件事我从何说起呢?我从没想过噪音会这幺复杂。在研究去噪时,我陷入了一个关于电子传感器读取电路和图像处理流水线的(非常)深的兔子洞。这将我引向一篇论文,我将其用作应用程序这一部分的主干。 paper

 

本质上,学习去噪最大的问题是缺乏好的数据。理想情况下,我们应该有一个数据集,该数据集包含一个干净的无噪声图像和一个自然有噪声的图像。就像在暗光下拍照一样。简单地将噪声添加到干净的图像中并不是一个好主意,因为这种人工噪声并不代表真实的噪声。

 

这就把我带到了前面提到的那篇论文。他们描述的想法是将一幅干净的图像解压(˜™)成原始传感器数据。在此过程中,我们将在每个步骤中添加逼真的噪波。这样,我们就可以产生人为的但也有代表性的噪音。

 

现在数据问题已经解决,训练卷积网络对图像进行去噪。测试结果如下所示,性能相当不错。

把这一切放在一起

 

为了让终端用户可以访问我创建的AI模型,我在Flask中创建了一个Web应用程序。这里,用户可以上传输入图像并选择一个或多个增强AI方法。

我很乐意公开主持这个应用程序,让您自己尝试一下。不幸的是,人工智能后端是相当资源密集型的。因此,长时间主办太不划算了。此外,这款应用程序没有对生产部署进行足够的优化,因为这不是实习的重点。

 

结论

 

那就这样吧–Euro™就是这样。我在布雷贾尔的实习期满。我要感谢团队中的每一位成员,特别是我的两位导师布莱希特和库尔特,感谢他们给予我惊人的支持,即使在这些不理想的工作条件下也是如此。老实说,在这奇怪的一年里,我再也找不到更好的地方来管理我的实习工作了。

 

现在我只剩下一件事要做了:

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/06/22/%e5%a2%9e%e5%bc%ba%ef%bc%81-%e6%88%91%e5%9c%a8brainsar%e7%9a%84%e5%bd%a2%e8%b1%a1%e5%a2%9e%e5%bc%ba%e5%ae%9e%e4%b9%a0%e7%bb%8f%e5%8e%86/

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注